Transcription Factor Binding Site Detector Neural Networks trained with Various DNA Representations

Pap Gergely
Transcription Factor Binding Site Detector Neural Networks trained with Various DNA Representations.
Doktori értekezés, Szegedi Tudományegyetem (2000-).
(2023)

[thumbnail of PapG_Dissertation.pdf] PDF (disszertáció)
Download (6MB)
[thumbnail of PapG_theses_booklet.pdf] PDF (tézisfüzet)
Download (1MB)

Magyar nyelvű absztrakt

Az értekezés mély tanulási módszereket mutat be orvosbiológiai adatokon. Az elsődleges feladat fehérjéket kötő DNS szekvenciák detektálása neurális hálózatokkal. A bemutatott megközelítések közös vonása a mély tanuló modellek vizsgálata nukleotid vagy egyéb adatábrázolási megközelítés esetében. A munka három fő témakörből áll. Az első fejezetben a funkciós csoportokat ábrázoló, a másodikban a fiziko-kémiai, míg a harmadik fejezetben a nukleotid alapú megközelítések vizsgálata olvasható. Az osztályozás funkciós csoportokra épülő reprezentációval című fejezetben a neuronális hálózatokat nem a hagyományos nukleotid-alapú szekvenciákkal tanítottam, hanem egy új vizualizációs módszer adatábrázolási megközelítésével. A szekvenciákat dinukleotidokból számolható értékekkel jellemezzük, a funckiós csoportok elektrokémiai viselkedéséből alakítunk ki bemeneti jellemzőket. Mivel nem triviális ennek a formának a felhasználása konvolúciós rétegek tanításához, első lépésként a különböző formai elrendezésekkel illetve előfeldolgozási megközelítésekkel foglalkoztam. Azután bemutattam egy olyan modell-architektúrát, amely kiemelkedő teljesítményt ér el transzkripciós faktor kötőhely detekciós feladatok esetében. Végül elkészítettem egy együttes (ensemble) modellt, ahol a nukleotidokra és a funkciós csoportokra épülő hálók becsléseit átlagolva a kimeneteknél még további fejlődést értem el. A modellek tanítása fiziko-kémiai jellemzőkkel című fejezetben szintén egy, a nukleotidoktól eltérő adatábrázolási módszer segítségével tanítottam osztályozókat. Az új reprezentáció a DNS szál különböző fizikai és kémiai tulajdonságait írja le folytonos értékekkel. A fejezet első felében bemutattam, hogy ezen a bemeneti fajtán is taníthatóak modellek, amelyek teljesítménye az ismertebb megoldásokhoz hasonló. Továbbá megmutattam, hogy egy jellemzőválogatásos módszer segítségével csökkenthető a bemenő jellemzők száma, így csak egy kis osztályozási hibanövekedés mellett gyorsabbak és olcsóbbak a tanítások. A fejezet második részében egy olyan megközelítést mutattam be, amely lehetővé teszi a mély tanulónak, hogy új összefüggéseket vegyen észre a fiziko-kémiai reprezentációban. A módszer lényege az, hogy a hálózat architektúrájában mélységi szétválasztható konvolúciós réteget használok, amely az eddig közvetlenül nem tanulható mélységi dimenzió mentén is tanulhatóvá tette az összefüggéseket. Így több, azonos feladatra publikált és ismert modell teljesítményét sikerült számos adathalmazon felülmúlnom. A nukleotid szekvenciákra épülő osztályozók transzlációs robusztussága című fejezetben mesterséges intelligencián alapuló DNS-fehérje kötő detektorok robusztusságát és az ellenük felhasználható ellenséges példák előállításának lehetőségeit vizsgáltam. A feltevésem az volt, hogy túlságosan érzékenyek ezek a modellek egyéb olyan tényezőkre, amelyek a valós címkét (azaz a szekvencia biológiai funkcióját) nem befolyásolják. Továbbgondolva, ha arrébb toljuk a szekvenciákat úgy, hogy a kötőhely (tehát a meghatározó jellemző) érintetlen marad, akkor azt várnánk, hogy a modellek ettől függetlenül felismerik azt és helyesen döntenek. Azonban azt tapasztaltuk, hogy egy pár nukleotidos hosszanti eltolás is elegendő ahhoz, hogy félrevezessük a modelleket. Kidolgoztam három különböző eltolási stratégiát, amelyek alkalmazásakor a kiértékelt hálózatok pontosságbeli romlást szenvedtek el, ez által szemléltettem túlzott érzékenységüket. Ezen felül megadtam egy augmentációs tanítási módszert, amely segítségével a robusztus pontosság növelhető, így a hálózatok kevésbé vagy egyáltalán nem lesznek érzékenyek a vágásokra\eltolásokra.

Mű típusa: Disszertáció (Doktori értekezés)
Publikációban használt név: Pap Gergely
Magyar cím: Transzkripciós faktor kötőhely detektáló neuronális hálózatok tanítása különböző DNS reprezentációkkal
Témavezető(k):
Témavezető neve
Beosztás, tudományos fokozat, intézmény
MTMT szerző azonosító
Tóth László
docens, PhD, Számítógépes Algoritmusok és Mesterséges Intelligencia Tanszék SZTE / TTIK / INF
10017595
Hegedűs Zoltán
tudományos főmunkatárs, PhD, Szegedi Biológiai Kutatóközpont
10025007
Szakterület: 01. Természettudományok > 01.02. Számítás- és információtudomány > 01.02.01. Számítástudomány, információtudomány és bioinformatika
01. Természettudományok > 01.02. Számítás- és információtudomány > 01.02.01. Számítástudomány, információtudomány és bioinformatika > 01.02.01.15. Mesterséges intelligencia, intelligens rendszerek, multi-ágens rendszerek
Doktori iskola: Informatika Doktori Iskola
Tudományterület / tudományág: Műszaki tudományok > Informatikai tudományok
Nyelv: angol
Védés dátuma: 2023. november 09.
EPrint azonosító (ID): 11767
A feltöltés ideje: 2023. máj. 24. 08:43
Utolsó módosítás: 2024. jan. 23. 11:40
Raktári szám: B 7271
URI: https://doktori.bibl.u-szeged.hu/id/eprint/11767
Védés állapota: nem védett (Nem idézhető amíg nem kap DOI számot.)

Actions (login required)

Tétel nézet Tétel nézet