Training Methods for Deep Neural Network-Based Acoustic Models in Speech Recognition

Grósz Tamás
Training Methods for Deep Neural Network-Based Acoustic Models in Speech Recognition.
Doktori (PhD) értekezés, Szegedi Tudományegyetem (2000-).
(2018) (Kéziratban)

[thumbnail of GT_dissertation_final.pdf]
Előnézet
Szöveg (Disszertáció)
Download (8MB) | Előnézet
    [thumbnail of GT_thesis.pdf]
    Előnézet
    Szöveg (Tézisfüzet)
    Download (993kB) | Előnézet
      [thumbnail of GT_thesis_hun.pdf]
      Előnézet
      Szöveg (Tézisfüzet)
      Download (1MB) | Előnézet

        Absztrakt (kivonat) idegen nyelven

        Nowadays, speech recognition technology is built on Deep Neural Networks. These networks represents the latest direction of machine learning. They are based on the theory of artificial neural networks, which have been used for decades. However, unlike traditional Neural Networks, all deep networks contain many processing layers, which allow the hierarchical processing of the input data. While the concept of deep networks is not totally new, their efficient training required several new achievements. These new networks managed to completely replace the Gaussian Mixture Models in the state-of-the-art speech recognition systems. In this study, we decided to focus on Deep Neural Network-based recognition systems. First, we compared the performance of several new training algorithms with each other, in order to determine the best one for later use. Then, we turned my attention to the algorithms that the new speech recognition systems have inherited from the previous Gaussian Mixture Model-based approaches, as the algorithms might not be optimal for Deep Neural Networks. we proposed new algorithms for obtaining the initial alignment of the frame-level state labels and the creation of context-dependent states, and found that they are better suited for the new acoustic models. Lastly, we also experimented with a data re-sampling method to improve the accuracy of the models.

        Mű típusa: Disszertáció (Doktori (PhD) értekezés)
        Publikációban használt név: Grósz Tamás
        Magyar cím:Tanítási módszerek mély neuronhálós akusztikus modellekhez beszédfelismerésben
        Témavezető(k):
        Témavezető neve
        Beosztás, tudományos fokozat, intézmény
        MTMT szerző azonosító
        Tóth László
        egyetemi docens, PhD, SZTE TTIK INF Számítógépes Algoritmusok és Mesterséges Intelligencia Tanszék
        10017595
        Szakterület:01. Természettudományok > 01.02. Számítás- és információtudomány
        Doktori iskola:Informatika Doktori Iskola
        Tudományterület / tudományág:Műszaki tudományok > Informatikai tudományok
        Nyelv:angol
        Védés dátuma:2018. október 05.
        EPrint azonosító (ID):4225
        A mű MTMT azonosítója:30616981
        doi:https://doi.org/10.14232/phd.4225
        A feltöltés ideje:2018. márc. 09. 08:32
        Utolsó módosítás:2020. jún. 05. 13:15
        Raktári szám:B 6425
        URI:https://doktori.bibl.u-szeged.hu/id/eprint/4225
        Védés állapota: védett

        Actions (login required)

        Tétel nézetTétel nézet