Computational Paralinguistics: The Importance of Audio Analysis and Feature Extraction Methodologies

Kiss-Vetráb Mercedes
Computational Paralinguistics: The Importance of Audio Analysis and Feature Extraction Methodologies.
Doktori értekezés, Szegedi Tudományegyetem (2000-).
(2025)

[thumbnail of 01_Thesis_formatted.pdf]
Előnézet
Szöveg (Disszertáció)
Download (1MB) | Előnézet
[thumbnail of 01_Thesis_booklet_concatenated.pdf]
Előnézet
Szöveg (Tézisfüzet)
Download (4MB) | Előnézet

Magyar nyelvű absztrakt

A doktori értekezés célja, hogy átfogó kutatást nyújtson a számítógépes paralingvisztika területén, magába foglalva a gépi tanulás három fő kategóriáját (tradicionális, mélytanuláson alapuló és hibrid módszerek). Annak ellenére, hogy egyre több tanulmány készül a területen, még mindig nincs konszenzus az általánosan alkalmazható architektúrális tervezési mintákról. Egyes megközelítések sokszor csak bizonyos adatbázisok esetében működnek jól. Ez, a szakirodalomban fennálló hiányosság motiválta kutatásomat. A disszertáció célja, hogy olyan globális irányelveket határozzon meg melyek diverz feladatok esetében is optimális megoldásokhoz vezetnek. A disszertáció 4 fő témakörből áll. Az első fejezet bemutatja a legfontosabb alapvető fogalmakat, beleértve a technikai kihívásokat, a használt adatbázisokat és az alkalmazott módszereket. A második fejezet a BoAW tradicionális módszerrel elért eredményeket mutatja be. Részletezi, a teljesítményét különböző paralingvisztikai feladatokon, és a paraméteroptimalizálás fontosságát. A harmadik fejezet bemutatja a hibrid HMM/DNN rendszert, amely ötvözi a tradicionális statisztikai és a modern mélytanulási megközelítéseket. Tárgyalja, a megfelelő hangelőfeldolgozás és a jó aggregációs stratégia fontosságát A negyedik fejezet két mélytanuló modellt mutat be: a Szekvenciális Autoencodert és a Wav2Vec 2.0 modellt. A kísérletek fókusza az audio előfeldolgozás optimalizálásán és fejlett aggregációs stratégiákon van. Minden kísérlet fő aspektusa, a robusztus, általánosítható megoldásokra való törekvés. Jelentőségük abban rejlik, hogy paralingvisztikai alkalmazások tekintetében, gyakorlati iránymutatásokat nyújtanak a különböző gépi tanulási technikák implementálásához.

Absztrakt (kivonat) idegen nyelven

This PhD thesis presents comprehensive research in the field of computational paralinguistics, especially for the three main categories of machine learning approaches (traditional, deep learning-based, and hybrid methodologies). Despite the growing number of studies in this area, there is still no consensus on a set of architectural design patterns that can be applied universally. Some approaches may work well for specific datasets, yet fail to generalise across multiple use-cases. This gap in the literature motivated my study. This thesis established global guidelines in speech-based classification and regression tasks. The following fundamental challenges were encountered through a systematic investigation of feature extraction methodologies. First of all, most paralinguistic corpora remain small (less than 100 hours), making it more challenging to observe and draw conclusions about global trends. The extremely low amount of data is also limiting the training of Deep Neural Networks. Moreover, cross-cultural generalisation is also a huge challenge. For example, models trained on Western speech underperform on tonal languages. Lastly, computational costs play a crucial role in real-life applications. DNNs require more resources than traditional methods, making low-resource deployment more difficult. Comprehensive research in this field is crucial for the everyday development of paralinguistic systems. This thesis enhances the understanding of features within paralinguistic analysis and identifies methods that could improve the overall effectiveness of computational models.

Mű típusa: Disszertáció (Doktori értekezés)
Publikációban használt név: Kiss-Vetráb Mercedes
Magyar cím: Számítógépes Paralingvisztika: A hangfelvétel-feldolgozás és a jellemzőkinyerés fontossága
Témavezető(k):
Témavezető neve
Beosztás, tudományos fokozat, intézmény
MTMT szerző azonosító
Gosztolya Gábor
egyetemi docens, PhD Habil, SZTE TTIK Számítógépes Algoritmusok és Mesterséges Intelligencia Tanszék, Informatikai Intézet
10022623
Szakterület: 01. Természettudományok > 01.02. Számítás- és információtudomány > 01.02.01. Számítástudomány, információtudomány és bioinformatika > 01.02.01.15. Mesterséges intelligencia, intelligens rendszerek, multi-ágens rendszerek
Doktori iskola: Informatika Doktori Iskola
Tudományterület / tudományág: Műszaki tudományok > Informatikai tudományok
Nyelv: angol
Védés dátuma: 2025. december
Kulcsszavak: Computational Paralinguistic, Speech Processing, Acoustic Feature Extraction, Bag-of-Audio-Words (BoAW) Hidden Markov Model (HMM) Deep Neural Networks (DNN), Sequence-to-Sequence Autoencoder, Wav2Vec 2.0, Feature Aggregation
EPrint azonosító (ID): 12859
A feltöltés ideje: 2025. szept. 08. 10:42
Utolsó módosítás: 2025. okt. 22. 10:28
URI: https://doktori.bibl.u-szeged.hu/id/eprint/12859
Védés állapota: nem védett (Nem idézhető amíg nem kap DOI számot.)

Actions (login required)

Tétel nézet Tétel nézet