Detecting Multiword Expressions and Named Entities in Natural Language Texts

Nagy István
Detecting Multiword Expressions and Named Entities in Natural Language Texts.
Doktori értekezés, Szegedi Tudományegyetem.
(2015)

[img]
Előnézet
PDF (disszertáció)
Download (1MB) | Előnézet
[img]
Előnézet
PDF (tézis)
Download (144kB) | Előnézet
[img]
Előnézet
PDF (tézis)
Download (112kB) | Előnézet
[img]
Előnézet
PDF (melléklet)
Download (3MB) | Előnézet

Absztrakt (kivonat) idegen nyelven

Multiword expressions (MWEs) are lexical items that can be decomposed into single words and display lexical, syntactic, semantic, pragmatic and/or statistical idiosyncrasy (Sag et al., 2002; Kim, 2008; Calzolari et al., 2002). The proper treatment of multiword expressions such as rock ’n’ roll and make a decision is essential for many natural language process- ing (NLP) applications like information extraction and retrieval, terminology extraction and machine translation, and it is important to identify multiword expressions in context. For example, in machine translation we must know that MWEs form one semantic unit, hence their parts should not be translated separately. For this, multiword expressions should be identified first in the text to be translated. The chief aim of this thesis is to develop machine learning-based approaches for the auto- matic detection of different types of multiword expressions in English and Hungarian natural language texts. In our investigations, we pay attention to the characteristics of different types of multiword expressions such as nominal compounds, multiword named entities and light verb constructions, and we apply novel methods to identify MWEs in raw texts. In the thesis it will be demonstrated that nominal compounds and multiword named enti- ties may require a similar approach for their automatic detection as they behave in the same way from a linguistic point of view. Furthermore, it will be shown that the automatic detec- tion of light verb constructions can be carried out using two effective machine learning-based approaches.

Mű típusa: Disszertáció (Doktori értekezés)
Doktori iskola: Informatika Doktori Iskola
Tudományterület / tudományág: műszaki tudományok > informatikai tudományok
Magyar cím: Összetett kifejezések automatikus azonositása természetes nyelvū szövegekben
Idegen nyelvű cím: Detecting Multiword Expressions and Named Entities in Natural Language Texts
Témavezető(k):
Témavezető neveBeosztás, tudományos fokozat, intézményEmail
Dr. Csirik JánosDSc, egyetemi tanár, SZTE TTIK Számítógépes Algoritmusok és Mesterséges Intelligencia Tanszékcsirik@inf.u-szeged.hu
Dr. Farkas RichárdPhD, adjunktus, SZTE TTIK Számítógépes Algoritmusok és Mesterséges Intelligencia Tanszékrfarkas@inf.u-szeged.hu
EPrint azonosító (ID): 2434
Publikációban használt név : Nagy István
A mû MTMT azonosítója: 2758956
doi: 10.14232/phd.2434
A feltöltés ideje: 2014. okt. 20. 11:00
Utolsó módosítás: 2016. feb. 19. 15:46
Egyebek (raktári szám): B 5935
URI: http://doktori.bibl.u-szeged.hu/id/eprint/2434
Védés állapota: védett

Actions (login required)

Tétel nézet Tétel nézet