Kiss-Vetráb Mercedes
Computational Paralinguistics: The Importance of Audio Analysis and Feature Extraction Methodologies.
Doctoral thesis (PhD), University of Szeged.
(2025)
Preview |
Text
(Dissertation)
Download (1MB) | Preview |
Preview |
Text
(Thesis)
Download (4MB) | Preview |
Abstract in Hungarian
A doktori értekezés célja, hogy átfogó kutatást nyújtson a számítógépes paralingvisztika területén, magába foglalva a gépi tanulás három fő kategóriáját (tradicionális, mélytanuláson alapuló és hibrid módszerek). Annak ellenére, hogy egyre több tanulmány készül a területen, még mindig nincs konszenzus az általánosan alkalmazható architektúrális tervezési mintákról. Egyes megközelítések sokszor csak bizonyos adatbázisok esetében működnek jól. Ez, a szakirodalomban fennálló hiányosság motiválta kutatásomat. A disszertáció célja, hogy olyan globális irányelveket határozzon meg melyek diverz feladatok esetében is optimális megoldásokhoz vezetnek. A disszertáció 4 fő témakörből áll. Az első fejezet bemutatja a legfontosabb alapvető fogalmakat, beleértve a technikai kihívásokat, a használt adatbázisokat és az alkalmazott módszereket. A második fejezet a BoAW tradicionális módszerrel elért eredményeket mutatja be. Részletezi, a teljesítményét különböző paralingvisztikai feladatokon, és a paraméteroptimalizálás fontosságát. A harmadik fejezet bemutatja a hibrid HMM/DNN rendszert, amely ötvözi a tradicionális statisztikai és a modern mélytanulási megközelítéseket. Tárgyalja, a megfelelő hangelőfeldolgozás és a jó aggregációs stratégia fontosságát A negyedik fejezet két mélytanuló modellt mutat be: a Szekvenciális Autoencodert és a Wav2Vec 2.0 modellt. A kísérletek fókusza az audio előfeldolgozás optimalizálásán és fejlett aggregációs stratégiákon van. Minden kísérlet fő aspektusa, a robusztus, általánosítható megoldásokra való törekvés. Jelentőségük abban rejlik, hogy paralingvisztikai alkalmazások tekintetében, gyakorlati iránymutatásokat nyújtanak a különböző gépi tanulási technikák implementálásához.
Abstract in foreign language
This PhD thesis presents comprehensive research in the field of computational paralinguistics, especially for the three main categories of machine learning approaches (traditional, deep learning-based, and hybrid methodologies). Despite the growing number of studies in this area, there is still no consensus on a set of architectural design patterns that can be applied universally. Some approaches may work well for specific datasets, yet fail to generalise across multiple use-cases. This gap in the literature motivated my study. This thesis established global guidelines in speech-based classification and regression tasks. The following fundamental challenges were encountered through a systematic investigation of feature extraction methodologies. First of all, most paralinguistic corpora remain small (less than 100 hours), making it more challenging to observe and draw conclusions about global trends. The extremely low amount of data is also limiting the training of Deep Neural Networks. Moreover, cross-cultural generalisation is also a huge challenge. For example, models trained on Western speech underperform on tonal languages. Lastly, computational costs play a crucial role in real-life applications. DNNs require more resources than traditional methods, making low-resource deployment more difficult. Comprehensive research in this field is crucial for the everyday development of paralinguistic systems. This thesis enhances the understanding of features within paralinguistic analysis and identifies methods that could improve the overall effectiveness of computational models.
| Item Type: | Thesis (Doctoral thesis (PhD)) |
|---|---|
| Creators: | Kiss-Vetráb Mercedes |
| Hungarian title: | Számítógépes Paralingvisztika: A hangfelvétel-feldolgozás és a jellemzőkinyerés fontossága |
| Supervisor(s): | Supervisor Position, academic title, institution MTMT author ID Gosztolya Gábor egyetemi docens, PhD Habil, SZTE TTIK Számítógépes Algoritmusok és Mesterséges Intelligencia Tanszék, Informatikai Intézet 10022623 |
| Subjects: | 01. Natural sciences > 01.02. Computer and information sciences > 01.02.01. Computer sciences, information science and bioinformatics > 01.02.01.15. Artificial intelligence, intelligent systems, multi agent systems |
| Divisions: | Doctoral School of Computer Science |
| Discipline: | Engineering > Information Technology |
| Language: | English |
| Date: | 2025. December |
| Uncontrolled Keywords: | Computational Paralinguistic, Speech Processing, Acoustic Feature Extraction, Bag-of-Audio-Words (BoAW) Hidden Markov Model (HMM) Deep Neural Networks (DNN), Sequence-to-Sequence Autoencoder, Wav2Vec 2.0, Feature Aggregation |
| Item ID: | 12859 |
| Date Deposited: | 2025. Sep. 08. 10:42 |
| Last Modified: | 2025. Oct. 22. 10:28 |
| URI: | https://doktori.bibl.u-szeged.hu/id/eprint/12859 |
| Defence/Citable status: | Not Defended. (Do not cite until it has not assigned DOI number!) |
Actions (login required)
![]() |
View Item |

