Nugraha Danang Satria
A theoretical and corpus linguistics study of the light verb constructions: Empirical data from Indonesian.
Doctoral thesis (PhD), University of Szeged.
(2025)
This is the latest version of this item.
Preview |
PDF
(thesis)
Download (7MB) | Preview |
Preview |
PDF
(booklet)
Download (2MB) | Preview |
Preview |
PDF
(supplement)
Download (174kB) | Preview |
Abstract in Hungarian
A disszertáció az indonéz könnyűige-konstrukciókat (Light Vcrb Constructions, LVCs) elméleti nyelvészeti és korpuszalapú elemzés integrált megközelítésével vizsgálja. A kutatás elsődleges része empirikus alapot nyújt, négy különböző korpusz alapján értékeli az LVC-k gyakorisági és eloszlási mintázatait. A K-means klaszterczés három természetes csoportot azonosít (alacsony, közepes és magas gyakoriság), és az 1. hipotézist erős keresztkorpusz-rangsor-konzisztencia támasztja alá (Spearman rs = 0.891, p <.001), ami megerősíti az LVC-k időbeli és műfaji stabilitását. A 2. hipotézis igazolja az eltérést a klasszikus Zipf-eloszlástól, és a Zipf—Mandclbrot-modellhez való közeledést. További modellezés alátámasztja a Menzerath—Altmann törvényt (morfémaalapú illeszkedés), míg a lexikai növekedést Heaps-törvény és Baayen-féle produktivitási mutatók részletezik. A lexikai eltérést időben Yule's K, KL Divergencia és entrópiaindexek vizsgálják. Altmann (1967) szótáralapú modelljével való összevetés jelentős eltéréseket tár fel a morfémahossz, a típuseloszlás és a korrelációs viszonyok terén. A 3. hipotézist a klaszterek közötti morfoszemantilcai-szintaktikai rétegzettség támasztja alá, amely egy strukturálisan aszimmetrikus, fokozatosan rétegzett LVC-rendszert mutat. A másodlagos rész a verbális elemek osztályozására összpontosít, megkülönböztetve a Valódi Könnyü Igéket (True Light Verbs) és a Homályos Cselekvő Igéket (Vaguc Action Verbs) aktionsart diagnosztikák alapján. A gépi tanulási modellek (Naive Baycs és Random Forest) kiemelik, hogy a gyakorisági és szemantikai paraméterek erős prédikátorai az igei produktivitásnak. A záró rész a névszói összetevők elemzését végzi cl, statikus és eseményszerű típusok szétválasztásával időbeli jellemzők alapján. Az eredmények azt mutatják, hogy a statikus értelmezések főként névszóvezéreltek, míg az escményszerű olvasatok az ige—névszó kölcsönhatásából és az eloszlási mintákból erednek. A kutatás elméletileg megalapozott, adatvezérelt tipológiát nyújt az indonéz LVC-k számára, hozzájárulva a korpusznyelvészethez és a kevéssé leírt nyelvek LVC-rendszereinek modellezéséhez.
Abstract in foreign language
This dissertation investigates Indonesian Light Verb Constructions (LVCs) through the integrated lenses of theoretical linguistics and corpus-based analysis. The primary part of the study provides an empirical foundation, drawing on four corpora to assess the frequency and distribution of LVCs. K-means clustering reveals three natural groupings (low-, medium-, and high-frequency), with Hypothesis 1 supported by significant cross-corpus rank consistency (Spearman’s rs = 0.891, p <.001), validating the temporal and genre-stable nature of LVC frequency patterns. Hypothesis 2 confirms a significant deviation from Zipfian expectations, aligning more closely with Zipf–Mandelbrot law. Additional modeling supports the Menzerath–Altmann law (morpheme-based fit), while vocabulary dynamics are elaborated through Heaps’ Law and Baayen’s productivity metrics. Lexical drift is capture diachronically via Yule’s K and KL Divergence, while entropy measures underscore shifting lexical concentration. A contrastive analysis with Altmann’s (1967) seminal dictionary-based lexical model of Indonesian reveals substantial structural divergence in morpheme density, type distribution, and correlation behavior. Hypothesis 3 is confirmed through morpho-semantic-syntactic stratification across clusters, identifying a structurally asymmetric, gradiently layered LVC system. The secondary part classifies verb elements into True Light Verbs and Vague Action Verbs using aktionsart diagnostics. Machine learning (Naïve Bayes and Random Forest) highlights frequency and semantic parameters as strong predictors of verb productivity. The final part analyzes noun components, distinguishing stative and eventive types based on temporal features. Findings indicate that stative interpretations are largely noun-driven, while eventive reading emerge from verb-noun interaction and distributional patterns. This research offers a theoretically informed, data-driven typology of Indonesian LVCs, contributing to corpus linguistics and the broader modeling of LVC systems in underdescribed languages.
Item Type: | Thesis (Doctoral thesis (PhD)) |
---|---|
Creators: | Nugraha Danang Satria |
Supervisor(s): | Supervisor Position, academic title, institution MTMT author ID Vincze Veronika Tudományos főmunkatárs, PhD, HUN-REN SZTE Mesterséges Intelligencia Kutatócsoport 10027782 |
Subjects: | 06. Humanities > 06.02. Languages and Literature > 06.02.06. Linguistics 06. Humanities > 06.02. Languages and Literature > 06.02.06. Linguistics > 06.02.06.01. Formal, cognitive, functional and computational linguistics |
Divisions: | Doctoral School in Linguistics |
Discipline: | Humanities > Linguistics |
Language: | English |
Date: | 2025. June 23. |
Number of Pages: | 256 |
Uncontrolled Keywords: | theoretical linguistics; corpus linguistics; quantitative analysis; light verb constructions; Indonesian |
Item ID: | 12606 |
Date Deposited: | 2025. May. 20. 09:56 |
Last Modified: | 2025. Jun. 10. 13:25 |
URI: | https://doktori.bibl.u-szeged.hu/id/eprint/12606 |
Defence/Citable status: | Not Defended. (Do not cite until it has not assigned DOI number!) |
Available Versions of this Item
-
A theoretical and corpus linguistics study of the light verb constructions: Empirical data from Indonesian. (deposited 2025. Apr. 28. 09:32)
- A theoretical and corpus linguistics study of the light verb constructions: Empirical data from Indonesian. (deposited 2025. May. 20. 09:56) [Currently Displayed]
Actions (login required)
![]() |
View Item |