Kovács György
Noise Robust Automatic Speech Recognition Based on Spectro-Temporal Techniques.
Doktori értekezés, Szegedi Tudományegyetem (2000-).
(2018)
(Kéziratban)
Előnézet |
PDF
(disszertáció)
Download (2MB) | Előnézet |
Előnézet |
PDF
(tézisfüzet)
Download (1MB) | Előnézet |
Előnézet |
PDF
(tézisfüzet)
Download (1MB) | Előnézet |
Absztrakt (kivonat) idegen nyelven
Speech technology today has a wide variety of existing and potential applications in so many areas of our life. From dictating systems to voice translation, from digital assistants like Siri, Google Now, and Cortana, to telephone dialogue systems. Many of these applications have to rely on an Automatic Speech Recognition (ASR) component. This component not only has to perform well, but it also has to perform well in adverse environments. After all, a dictating system which requires that we insulate our office, or a digital assistant that cannot work in traffic, or in a room full of chatting people is not so helpful. For this reason, noise robust ASR has been a topic of intensive research. Yet, human-equivalent performance has not been achieved. This motivated many to search for ways to improve the robustness of automatic speech recognition based on human speech perception. One popular method inspired by the examination of the receptive fields of auditory neurons is that of spectro-temporal processing. In spectro-temporal processing, the aim is to capture the spectral and temporal modulations of the signal simultaneously. One simple way to do so is to extract the features to be used from spectro-temporal patches, and then use the resulting features in the same manner one would use traditional features like MFCCs. There is more than one way to bake a cake, however. And in this case this is true twice over. For one, there are various ways to extract our features from the patches. But there are other, more sophisticated ways to incorporate the concept of spectro-temporal processing into a speech recognition system. In this study we examine many such methods -- some simpler, some more sophisticated, but all stemming from the same basic idea. By the end of this study we will demonstrate that these methods can indeed lead to more robust speech recognition. So much so, that they can provide results that are competitive with the state-of-the-art results.
Mű típusa: | Disszertáció (Doktori értekezés) |
---|---|
Publikációban használt név: | Kovács György |
Magyar cím: | Spektro-temporális feldolgozási módszereken alapuló zajtűrő automatikus beszédfelismerés |
Témavezető(k): | Témavezető neve Beosztás, tudományos fokozat, intézmény MTMT szerző azonosító Tóth László tudományos főmunkatárs, PhD, SZTE TTIK ITCS Számítógépes Algoritmusok és Mesterséges Intelligencia Tanszék 10017595 Van Compernolle Dirk professzor, PhD, KU Leuven ESAT - PSI, Processing Speech and Images NEM RÉSZLETEZETT |
Szakterület: | 01. Természettudományok > 01.01. Matematika |
Doktori iskola: | Informatika Doktori Iskola |
Tudományterület / tudományág: | Természettudományok > Matematika- és számítástudományok |
Nyelv: | angol |
Védés dátuma: | 2018. március 29. |
EPrint azonosító (ID): | 4108 |
A mű MTMT azonosítója: | 3402361 |
doi: | https://doi.org/10.14232/phd.4108 |
A feltöltés ideje: | 2017. okt. 16. 08:41 |
Utolsó módosítás: | 2020. máj. 29. 10:40 |
Raktári szám: | B 6347 |
URI: | https://doktori.bibl.u-szeged.hu/id/eprint/4108 |
Védés állapota: | védett |
Actions (login required)
Tétel nézet |