Adaptation of Speaker and Speech Recognition Methods for the Automatic Screening of Speech Disorders using Machine Learning

Egas López José Vicente
Adaptation of Speaker and Speech Recognition Methods for the Automatic Screening of Speech Disorders using Machine Learning.
Doctoral thesis (PhD), University of Szeged.
(2023)

[thumbnail of Dissertation Definitive Version.pdf] PDF (thesis)
Download (3MB)
[thumbnail of Theses Booklet.pdf] PDF (booklet)
Download (753kB)

Abstract in Hungarian

Jelen doktori értekezés olyan módszereket mutat be, amelyek bizonyos betegségekben vagy egészségi állapotban szenvedő egyének nemverbális kommunikációjának kiaknázását célozzák azok automatikus szűrésére. Konkrétabban, a nemverbális kommunikáció egyik pillérét, a paralingvisztikát alkalmaztuk olyan technikák feltárására, amelyek felhasználhatók az alanyok beszédének modellezésére. A paralingvisztika a kommunikáció egy nem lexikális összetevője, amely az intonáción, a hangmagasságon, a beszéd sebességén stb. alapszik, és amely automatikusan feldolgozható és elemezhető. Ezt Computational Paralinguistics-nak hívják, amely úgy definiálható, mint a beszélő beszédében lévő nemverbális látens minták számítási algoritmusok segítségével történő modellezése. A gépi tanulás segítségével modelleket mutatunk be mind a paralingvisztikai, mind az orvosi célú beszédelemzés különböző forgatókönyveiből, amelyek alkalmasak egy adott betegséggel (például az Alzheimer-kór, Parkinson-kór, depresszió) élő alanyok egészségi állapotának automatikus becslésére.

Abstract in foreign language

This PhD thesis presented methods for exploiting the non-verbal communication of individuals suffering from specific diseases or health conditions aiming to reach an automatic screening of them. More specifically, we employed one of the pillars of non-verbal communication, paralanguage, to explore techniques that could be utilized to model the speech of subjects. Paralanguage is a non-lexical component of communication that relies on intonation, pitch, speed of talking, and others, which can be processed and analyzed in an automatic manner. This is called Computational Paralinguistics, which can be defined as the study of modeling non-verbal latent patterns within the speech of a speaker by means of computational algorithms; these patterns go beyond the linguistic} approach. By means of machine learning, we present models from distinct scenarios of both paralinguistics and pathological speech which are capable of estimating the health status of a given disease such as Alzheimer's, Parkinson's, and clinical depression, among others, in an automatic manner.

Item Type: Thesis (Doctoral thesis (PhD))
Creators: Egas López José Vicente
Hungarian title: Beszélő- és beszédfelismerési módszerek adaptálása betegséges automatikus előszűrésére gépi tanulás segítségével
Supervisor(s):
Supervisor
Position, academic title, institution
MTMT author ID
Gosztolya Gábor
tudományos munkatárs, SZTE TTIK MTA-SZTE Mesterséges Intelligencia Kutatócsoport
10022623
Subjects: 01. Natural sciences > 01.02. Computer and information sciences
Divisions: Doctoral School of Computer Science
Discipline: Engineering > Information Technology
Language: English
Date: 2023. March 02.
Item ID: 11491
MTMT identifier of the thesis: 34132517
doi: https://doi.org/10.14232/phd.11491
Date Deposited: 2022. Oct. 25. 15:29
Last Modified: 2023. Sep. 08. 15:29
Depository no.: B 7165
URI: https://doktori.bibl.u-szeged.hu/id/eprint/11491
Defence/Citable status: Defended.

Actions (login required)

View Item View Item