Kiss-Vetráb Mercedes
Computational Paralinguistics: The Importance of Audio Analysis and Feature Extraction Methodologies.
Doktori értekezés, Szegedi Tudományegyetem (2000-).
(2025)
Előnézet |
Szöveg
(Disszertáció)
Download (1MB) | Előnézet |
Előnézet |
Szöveg
(Tézisfüzet)
Download (4MB) | Előnézet |
Magyar nyelvű absztrakt
A doktori értekezés célja, hogy átfogó kutatást nyújtson a számítógépes paralingvisztika területén, magába foglalva a gépi tanulás három fő kategóriáját (tradicionális, mélytanuláson alapuló és hibrid módszerek). Annak ellenére, hogy egyre több tanulmány készül a területen, még mindig nincs konszenzus az általánosan alkalmazható architektúrális tervezési mintákról. Egyes megközelítések sokszor csak bizonyos adatbázisok esetében működnek jól. Ez, a szakirodalomban fennálló hiányosság motiválta kutatásomat. A disszertáció célja, hogy olyan globális irányelveket határozzon meg melyek diverz feladatok esetében is optimális megoldásokhoz vezetnek. A disszertáció 4 fő témakörből áll. Az első fejezet bemutatja a legfontosabb alapvető fogalmakat, beleértve a technikai kihívásokat, a használt adatbázisokat és az alkalmazott módszereket. A második fejezet a BoAW tradicionális módszerrel elért eredményeket mutatja be. Részletezi, a teljesítményét különböző paralingvisztikai feladatokon, és a paraméteroptimalizálás fontosságát. A harmadik fejezet bemutatja a hibrid HMM/DNN rendszert, amely ötvözi a tradicionális statisztikai és a modern mélytanulási megközelítéseket. Tárgyalja, a megfelelő hangelőfeldolgozás és a jó aggregációs stratégia fontosságát A negyedik fejezet két mélytanuló modellt mutat be: a Szekvenciális Autoencodert és a Wav2Vec 2.0 modellt. A kísérletek fókusza az audio előfeldolgozás optimalizálásán és fejlett aggregációs stratégiákon van. Minden kísérlet fő aspektusa, a robusztus, általánosítható megoldásokra való törekvés. Jelentőségük abban rejlik, hogy paralingvisztikai alkalmazások tekintetében, gyakorlati iránymutatásokat nyújtanak a különböző gépi tanulási technikák implementálásához.
Absztrakt (kivonat) idegen nyelven
This PhD thesis presents comprehensive research in the field of computational paralinguistics, especially for the three main categories of machine learning approaches (traditional, deep learning-based, and hybrid methodologies). Despite the growing number of studies in this area, there is still no consensus on a set of architectural design patterns that can be applied universally. Some approaches may work well for specific datasets, yet fail to generalise across multiple use-cases. This gap in the literature motivated my study. This thesis established global guidelines in speech-based classification and regression tasks. The following fundamental challenges were encountered through a systematic investigation of feature extraction methodologies. First of all, most paralinguistic corpora remain small (less than 100 hours), making it more challenging to observe and draw conclusions about global trends. The extremely low amount of data is also limiting the training of Deep Neural Networks. Moreover, cross-cultural generalisation is also a huge challenge. For example, models trained on Western speech underperform on tonal languages. Lastly, computational costs play a crucial role in real-life applications. DNNs require more resources than traditional methods, making low-resource deployment more difficult. Comprehensive research in this field is crucial for the everyday development of paralinguistic systems. This thesis enhances the understanding of features within paralinguistic analysis and identifies methods that could improve the overall effectiveness of computational models.
| Mű típusa: | Disszertáció (Doktori értekezés) |
|---|---|
| Publikációban használt név: | Kiss-Vetráb Mercedes |
| Magyar cím: | Számítógépes Paralingvisztika: A hangfelvétel-feldolgozás és a jellemzőkinyerés fontossága |
| Témavezető(k): | Témavezető neve Beosztás, tudományos fokozat, intézmény MTMT szerző azonosító Gosztolya Gábor egyetemi docens, PhD Habil, SZTE TTIK Számítógépes Algoritmusok és Mesterséges Intelligencia Tanszék, Informatikai Intézet 10022623 |
| Szakterület: | 01. Természettudományok > 01.02. Számítás- és információtudomány > 01.02.01. Számítástudomány, információtudomány és bioinformatika > 01.02.01.15. Mesterséges intelligencia, intelligens rendszerek, multi-ágens rendszerek |
| Doktori iskola: | Informatika Doktori Iskola |
| Tudományterület / tudományág: | Műszaki tudományok > Informatikai tudományok |
| Nyelv: | angol |
| Védés dátuma: | 2025. december |
| Kulcsszavak: | Computational Paralinguistic, Speech Processing, Acoustic Feature Extraction, Bag-of-Audio-Words (BoAW) Hidden Markov Model (HMM) Deep Neural Networks (DNN), Sequence-to-Sequence Autoencoder, Wav2Vec 2.0, Feature Aggregation |
| EPrint azonosító (ID): | 12859 |
| A feltöltés ideje: | 2025. szept. 08. 10:42 |
| Utolsó módosítás: | 2025. okt. 22. 10:28 |
| URI: | https://doktori.bibl.u-szeged.hu/id/eprint/12859 |
| Védés állapota: | nem védett (Nem idézhető amíg nem kap DOI számot.) |
Actions (login required)
![]() |
Tétel nézet |

