Transcription Factor Binding Site Detector Neural Networks trained with Various DNA Representations

Pap Gergely
Transcription Factor Binding Site Detector Neural Networks trained with Various DNA Representations.
Doctoral thesis (PhD), University of Szeged.
(2023)

[thumbnail of PapG_Dissertation.pdf] PDF (thesis)
Download (6MB)
[thumbnail of PapG_theses_booklet.pdf] PDF (booklet)
Download (1MB)

Abstract in Hungarian

Az értekezés mély tanulási módszereket mutat be orvosbiológiai adatokon. Az elsődleges feladat fehérjéket kötő DNS szekvenciák detektálása neurális hálózatokkal. A bemutatott megközelítések közös vonása a mély tanuló modellek vizsgálata nukleotid vagy egyéb adatábrázolási megközelítés esetében. A munka három fő témakörből áll. Az első fejezetben a funkciós csoportokat ábrázoló, a másodikban a fiziko-kémiai, míg a harmadik fejezetben a nukleotid alapú megközelítések vizsgálata olvasható. Az osztályozás funkciós csoportokra épülő reprezentációval című fejezetben a neuronális hálózatokat nem a hagyományos nukleotid-alapú szekvenciákkal tanítottam, hanem egy új vizualizációs módszer adatábrázolási megközelítésével. A szekvenciákat dinukleotidokból számolható értékekkel jellemezzük, a funckiós csoportok elektrokémiai viselkedéséből alakítunk ki bemeneti jellemzőket. Mivel nem triviális ennek a formának a felhasználása konvolúciós rétegek tanításához, első lépésként a különböző formai elrendezésekkel illetve előfeldolgozási megközelítésekkel foglalkoztam. Azután bemutattam egy olyan modell-architektúrát, amely kiemelkedő teljesítményt ér el transzkripciós faktor kötőhely detekciós feladatok esetében. Végül elkészítettem egy együttes (ensemble) modellt, ahol a nukleotidokra és a funkciós csoportokra épülő hálók becsléseit átlagolva a kimeneteknél még további fejlődést értem el. A modellek tanítása fiziko-kémiai jellemzőkkel című fejezetben szintén egy, a nukleotidoktól eltérő adatábrázolási módszer segítségével tanítottam osztályozókat. Az új reprezentáció a DNS szál különböző fizikai és kémiai tulajdonságait írja le folytonos értékekkel. A fejezet első felében bemutattam, hogy ezen a bemeneti fajtán is taníthatóak modellek, amelyek teljesítménye az ismertebb megoldásokhoz hasonló. Továbbá megmutattam, hogy egy jellemzőválogatásos módszer segítségével csökkenthető a bemenő jellemzők száma, így csak egy kis osztályozási hibanövekedés mellett gyorsabbak és olcsóbbak a tanítások. A fejezet második részében egy olyan megközelítést mutattam be, amely lehetővé teszi a mély tanulónak, hogy új összefüggéseket vegyen észre a fiziko-kémiai reprezentációban. A módszer lényege az, hogy a hálózat architektúrájában mélységi szétválasztható konvolúciós réteget használok, amely az eddig közvetlenül nem tanulható mélységi dimenzió mentén is tanulhatóvá tette az összefüggéseket. Így több, azonos feladatra publikált és ismert modell teljesítményét sikerült számos adathalmazon felülmúlnom. A nukleotid szekvenciákra épülő osztályozók transzlációs robusztussága című fejezetben mesterséges intelligencián alapuló DNS-fehérje kötő detektorok robusztusságát és az ellenük felhasználható ellenséges példák előállításának lehetőségeit vizsgáltam. A feltevésem az volt, hogy túlságosan érzékenyek ezek a modellek egyéb olyan tényezőkre, amelyek a valós címkét (azaz a szekvencia biológiai funkcióját) nem befolyásolják. Továbbgondolva, ha arrébb toljuk a szekvenciákat úgy, hogy a kötőhely (tehát a meghatározó jellemző) érintetlen marad, akkor azt várnánk, hogy a modellek ettől függetlenül felismerik azt és helyesen döntenek. Azonban azt tapasztaltuk, hogy egy pár nukleotidos hosszanti eltolás is elegendő ahhoz, hogy félrevezessük a modelleket. Kidolgoztam három különböző eltolási stratégiát, amelyek alkalmazásakor a kiértékelt hálózatok pontosságbeli romlást szenvedtek el, ez által szemléltettem túlzott érzékenységüket. Ezen felül megadtam egy augmentációs tanítási módszert, amely segítségével a robusztus pontosság növelhető, így a hálózatok kevésbé vagy egyáltalán nem lesznek érzékenyek a vágásokra\eltolásokra.

Item Type: Thesis (Doctoral thesis (PhD))
Creators: Pap Gergely
Hungarian title: Transzkripciós faktor kötőhely detektáló neuronális hálózatok tanítása különböző DNS reprezentációkkal
Supervisor(s):
Supervisor
Position, academic title, institution
MTMT author ID
Tóth László
docens, PhD, Számítógépes Algoritmusok és Mesterséges Intelligencia Tanszék SZTE / TTIK / INF
10017595
Hegedűs Zoltán
tudományos főmunkatárs, PhD, Szegedi Biológiai Kutatóközpont
10025007
Subjects: 01. Natural sciences > 01.02. Computer and information sciences > 01.02.01. Computer sciences, information science and bioinformatics
01. Natural sciences > 01.02. Computer and information sciences > 01.02.01. Computer sciences, information science and bioinformatics > 01.02.01.15. Artificial intelligence, intelligent systems, multi agent systems
Divisions: Doctoral School of Computer Science
Discipline: Engineering > Information Technology
Language: English
Date: 2023. November 09.
Item ID: 11767
Date Deposited: 2023. May. 24. 08:43
Last Modified: 2024. Jan. 23. 11:40
Depository no.: B 7271
URI: https://doktori.bibl.u-szeged.hu/id/eprint/11767
Defence/Citable status: Not Defended. (Do not cite until it has not assigned DOI number!)

Actions (login required)

View Item View Item