A comprehensive analysis of the parameters in the creation and comparison of feature vectors in distributional semantic models for multiple languages

Dobó András
A comprehensive analysis of the parameters in the creation and comparison of feature vectors in distributional semantic models for multiple languages.
Doktori értekezés, Szegedi Tudományegyetem (2000-).
(2019) (Kéziratban)

[thumbnail of AndrasDoboThesis2019.pdf]
Előnézet
PDF (disszertáció)
Download (7MB) | Előnézet
[thumbnail of AndrasDoboThesisBooklet2019.pdf]
Előnézet
PDF (tézisfüzet)
Download (349kB) | Előnézet
[thumbnail of AndrasDoboThesisBookletHU2019.pdf]
Előnézet
PDF (tézisfüzet)
Download (352kB) | Előnézet

Magyar nyelvű absztrakt

Számos számítógépes nyelvészeti probléma megoldásához fontos, hogy meg tudjuk határozni szavak szemantikai hasonlóságának vagy kapcsolatának mértékét. Habár az e feladatra tervezett eloszlás alapú szemantikai modellek számos lehetséges paraméterrel rendelkeznek, mint például vektorhasonlósági mértékek, súlyozási sémák vagy dimenzió-csökkentési technikák, nincs még olyan átfogó elemzés, amely e paramétereket párhuzamosan vizsgálná, és közben a különböző nyelvekre kapott eredmények összehasonlítaná. E hiányt szeretnénk ezzel a szisztematikus elemzésünkkel pótolni, amelynek a során először keressük az eloszlás alapú szemantikai modellek tulajdonságvektorainak készítése és összehasonlítása során használt paraméterek legjobb konfigurációját angolra, spanyolra és magyarra külön-külön, majd a különböző nyelvekre kapott eredményeket összehasonlítjuk. Az átfogó elemzésünk során minden paraméterre számos beállítási lehetőséget teszteltünk, néhány paraméter esetén több, mint ezer különbözőt. Ennek eredményeképp sikerült olyan konfigurációkat találjunk, amik lényegesen jobb eredményt értek el, mint a hagyományosan használt konfigurációk, és túlszárnyalták az eddigi legjobb eredményeket.

Absztrakt (kivonat) idegen nyelven

Measuring the semantic similarity and relatedness of words is important for many natural language processing tasks. Although distributional semantic models designed for this task have many different parameters, such as vector similarity measures, weighting schemes and dimensionality reduction techniques, there is no truly comprehensive study simultaneously evaluating these parameters while also analysing the differences in the findings for multiple languages. We would like to address this gap with our systematic study by searching for the best configuration in the creation and comparison of feature vectors in distributional semantic models for English, Spanish and Hungarian separately, and then comparing our findings across these languages. During our extensive analysis we test a large number of possible settings for all parameters, with more than a thousand novel variants in case of some of them. As a result of this we were able to find such configurations that significantly outperform conventional configurations and achieve state-of-the-art results.

Mű típusa: Disszertáció (Doktori értekezés)
Publikációban használt név: Dobó András
Magyar cím: Eloszlás alapú szemantikai modellek tulajdonságvektorainak készítése és összehasonlítása során használt paraméterek átfogó elemzése több nyelvre
Témavezető(k):
Témavezető neve
Beosztás, tudományos fokozat, intézmény
MTMT szerző azonosító
Csirik János
egyetemi tanár, DSc, SZTE TTIK Számítógépes Algoritmusok és Mesterséges Intelligencia Tanszék
10000477
Szakterület: 01. Természettudományok > 01.02. Számítás- és információtudomány
Doktori iskola: Informatika Doktori Iskola
Tudományterület / tudományág: Műszaki tudományok > Informatikai tudományok
Nyelv: angol
Védés dátuma: 2019. november 15.
Kulcsszavak: distributional semantic models semantic similarity and relatedness best combination of parameter settings comparison of findings across languages English, Spanish and Hungarian
EPrint azonosító (ID): 10120
A mű MTMT azonosítója: 30895463
doi: https://doi.org/10.14232/phd.10120
A feltöltés ideje: 2019. ápr. 06. 09:19
Utolsó módosítás: 2020. júl. 07. 13:19
Raktári szám: B 6548
URI: https://doktori.bibl.u-szeged.hu/id/eprint/10120
Védés állapota: védett

Actions (login required)

Tétel nézet Tétel nézet