Pap Gergely
Transcription Factor Binding Site Detector Neural Networks trained with Various DNA Representations.
Doctoral thesis (PhD), University of Szeged.
(2023)
PDF
(thesis)
Download (6MB) |
|
PDF
(booklet)
Download (1MB) |
Abstract in Hungarian
Az értekezés mély tanulási módszereket mutat be orvosbiológiai adatokon. Az elsődleges feladat fehérjéket kötő DNS szekvenciák detektálása neurális hálózatokkal. A bemutatott megközelítések közös vonása a mély tanuló modellek vizsgálata nukleotid vagy egyéb adatábrázolási megközelítés esetében. A munka három fő témakörből áll. Az első fejezetben a funkciós csoportokat ábrázoló, a másodikban a fiziko-kémiai, míg a harmadik fejezetben a nukleotid alapú megközelítések vizsgálata olvasható. Az osztályozás funkciós csoportokra épülő reprezentációval című fejezetben a neuronális hálózatokat nem a hagyományos nukleotid-alapú szekvenciákkal tanítottam, hanem egy új vizualizációs módszer adatábrázolási megközelítésével. A szekvenciákat dinukleotidokból számolható értékekkel jellemezzük, a funckiós csoportok elektrokémiai viselkedéséből alakítunk ki bemeneti jellemzőket. Mivel nem triviális ennek a formának a felhasználása konvolúciós rétegek tanításához, első lépésként a különböző formai elrendezésekkel illetve előfeldolgozási megközelítésekkel foglalkoztam. Azután bemutattam egy olyan modell-architektúrát, amely kiemelkedő teljesítményt ér el transzkripciós faktor kötőhely detekciós feladatok esetében. Végül elkészítettem egy együttes (ensemble) modellt, ahol a nukleotidokra és a funkciós csoportokra épülő hálók becsléseit átlagolva a kimeneteknél még további fejlődést értem el. A modellek tanítása fiziko-kémiai jellemzőkkel című fejezetben szintén egy, a nukleotidoktól eltérő adatábrázolási módszer segítségével tanítottam osztályozókat. Az új reprezentáció a DNS szál különböző fizikai és kémiai tulajdonságait írja le folytonos értékekkel. A fejezet első felében bemutattam, hogy ezen a bemeneti fajtán is taníthatóak modellek, amelyek teljesítménye az ismertebb megoldásokhoz hasonló. Továbbá megmutattam, hogy egy jellemzőválogatásos módszer segítségével csökkenthető a bemenő jellemzők száma, így csak egy kis osztályozási hibanövekedés mellett gyorsabbak és olcsóbbak a tanítások. A fejezet második részében egy olyan megközelítést mutattam be, amely lehetővé teszi a mély tanulónak, hogy új összefüggéseket vegyen észre a fiziko-kémiai reprezentációban. A módszer lényege az, hogy a hálózat architektúrájában mélységi szétválasztható konvolúciós réteget használok, amely az eddig közvetlenül nem tanulható mélységi dimenzió mentén is tanulhatóvá tette az összefüggéseket. Így több, azonos feladatra publikált és ismert modell teljesítményét sikerült számos adathalmazon felülmúlnom. A nukleotid szekvenciákra épülő osztályozók transzlációs robusztussága című fejezetben mesterséges intelligencián alapuló DNS-fehérje kötő detektorok robusztusságát és az ellenük felhasználható ellenséges példák előállításának lehetőségeit vizsgáltam. A feltevésem az volt, hogy túlságosan érzékenyek ezek a modellek egyéb olyan tényezőkre, amelyek a valós címkét (azaz a szekvencia biológiai funkcióját) nem befolyásolják. Továbbgondolva, ha arrébb toljuk a szekvenciákat úgy, hogy a kötőhely (tehát a meghatározó jellemző) érintetlen marad, akkor azt várnánk, hogy a modellek ettől függetlenül felismerik azt és helyesen döntenek. Azonban azt tapasztaltuk, hogy egy pár nukleotidos hosszanti eltolás is elegendő ahhoz, hogy félrevezessük a modelleket. Kidolgoztam három különböző eltolási stratégiát, amelyek alkalmazásakor a kiértékelt hálózatok pontosságbeli romlást szenvedtek el, ez által szemléltettem túlzott érzékenységüket. Ezen felül megadtam egy augmentációs tanítási módszert, amely segítségével a robusztus pontosság növelhető, így a hálózatok kevésbé vagy egyáltalán nem lesznek érzékenyek a vágásokra\eltolásokra.
Item Type: | Thesis (Doctoral thesis (PhD)) |
---|---|
Creators: | Pap Gergely |
Hungarian title: | Transzkripciós faktor kötőhely detektáló neuronális hálózatok tanítása különböző DNS reprezentációkkal |
Supervisor(s): | Supervisor Position, academic title, institution MTMT author ID Tóth László docens, PhD, Számítógépes Algoritmusok és Mesterséges Intelligencia Tanszék SZTE / TTIK / INF 10017595 Hegedűs Zoltán tudományos főmunkatárs, PhD, Szegedi Biológiai Kutatóközpont 10025007 |
Subjects: | 01. Natural sciences > 01.02. Computer and information sciences > 01.02.01. Computer sciences, information science and bioinformatics 01. Natural sciences > 01.02. Computer and information sciences > 01.02.01. Computer sciences, information science and bioinformatics > 01.02.01.15. Artificial intelligence, intelligent systems, multi agent systems |
Divisions: | Doctoral School of Computer Science |
Discipline: | Engineering > Information Technology |
Language: | English |
Date: | 2023. November 09. |
Item ID: | 11767 |
MTMT identifier of the thesis: | 34848902 |
doi: | https://doi.org/10.14232/phd.11767 |
Date Deposited: | 2023. May. 24. 08:43 |
Last Modified: | 2024. Jul. 10. 15:19 |
Depository no.: | B 7271 |
URI: | https://doktori.bibl.u-szeged.hu/id/eprint/11767 |
Defence/Citable status: | Defended. |
Actions (login required)
View Item |