Reliable Machine Learning for Omics Data: Evaluation Protocols, Hybrid Models, and Applications in Foodomics

Ruggeri Dario
Reliable Machine Learning for Omics Data: Evaluation Protocols, Hybrid Models, and Applications in Foodomics.
Doktori értekezés, Szegedi Tudományegyetem (2000-).
(2026)

Előnézet	Szöveg (Disszertáció) Download (5MB) \| Előnézet
Előnézet	Szöveg (Tézisfüzet) Download (863kB) \| Előnézet
Előnézet	Szöveg (Címlap) Download (15kB) \| Előnézet
Előnézet	Szöveg (Egyéb) Download (81kB) \| Előnézet
Előnézet	Szöveg (Egyéb) Download (458kB) \| Előnézet
Előnézet	Szöveg (Egyéb) Download (145kB) \| Előnézet

Magyar nyelvű absztrakt

This PhD thesis investigates the reliable application of machine learning (ML) and deep learning (DL) methods to omics data, with particular emphasis on high-dimensional, low-sample-size settings commonly encountered in foodomics and agronomy. The work focuses on improving methodological rigor, interpretability, and reproducibility in applied omics research. The dissertation is organized into two main parts. The first part addresses methodological aspects of ML for omics data, including evaluation strategies and hybrid modeling approaches. In particular, it examines the interaction between cross-validation and early stopping in neural network training, identifying common pitfalls such as information leakage and biased performance estimation. Furthermore, the thesis explores hybrid neural network architectures that integrate mechanistic domain knowledge into data-driven learning, framing the problem as a multi-objective optimization task that balances predictive accuracy with mechanistic consistency. The second part focuses on applied case studies in foodomics and agronomy. It presents robust and explainable deep learning models for SNP-based phenotype prediction, demonstrating statistically significant improvements in predictive performance through adaptive optimization, regularization, and data augmentation strategies. The work also employs SHAP-based explainability methods to identify biologically relevant features and ensure transparent interpretation of model predictions. In addition, the thesis introduces a research-stage MLOps framework for organizing complex omics machine learning workflows, improving experiment traceability, reproducibility, and comparability. Overall, the dissertation contributes to the development of more reliable, interpretable, and reproducible ML methodologies for omics data analysis by combining methodological innovation with practical applications in foodomics and agronomy.

Absztrakt (kivonat) idegen nyelven

A doktori értekezés a gépi tanulási (ML) és mélytanulási (DL) módszerek megbízható alkalmazását vizsgálja omikai adatok elemzésében, különös tekintettel az élelmiszer-omikai és agronómiai kutatásokban gyakran előforduló nagy dimenziószámú, kis mintaszámú adathalmazokra. A munka középpontjában a módszertani megbízhatóság, a magyarázhatóság és a reprodukálhatóság javítása áll. Az értekezés két fő részből áll. Az első rész a módszertani kérdésekkel foglalkozik, különös hangsúlyt fektetve a modellértékelési stratégiákra és a hibrid modellezési megközelítésekre. Ennek keretében részletesen elemzi a keresztvalidáció és a korai leállítás (early stopping) együttes alkalmazását neurális hálózatok tanításában, feltárva az adatszivárgás és a torzított teljesítménybecslés tipikus problémáit. Emellett olyan hibrid neurális hálózati modelleket vizsgál, amelyek a mechanisztikus szaktudást integrálják az adatvezérelt tanulási folyamatba, többcélú optimalizációs feladatként kezelve a prediktív pontosság és a mechanisztikus konzisztencia közötti egyensúlyt. A második rész alkalmazott esettanulmányokon keresztül mutatja be a módszerek gyakorlati hasznosítását az élelmiszer-omika és az agronómia területén. Bemutat robusztus és magyarázható mélytanulási modelleket SNP-alapú fenotípus-predikciós feladatokra, amelyek adaptív optimalizáció, regularizáció és adataugmentáció alkalmazásával statisztikailag szignifikáns teljesítményjavulást érnek el. A dolgozat SHAP-alapú magyarázhatósági módszereket is alkalmaz a biológiailag releváns jellemzők azonosítására és a modellpredikciók átlátható értelmezésére. Továbbá egy kutatási fázisra optimalizált MLOps keretrendszert is bemutat, amely támogatja az omikai gépi tanulási munkafolyamatok átlátható, reprodukálható és összehasonlítható szervezését. Összességében a disszertáció hozzájárul a megbízhatóbb, értelmezhetőbb és reprodukálhatóbb ML-alapú omikai elemzési módszertanok fejlesztéséhez, ötvözve a módszertani innovációt a gyakorlati alkalmazásokkal az élelmiszer-omika és agronómia területén.

Mű típusa:	Disszertáció (Doktori értekezés)
Publikációban használt név:	Ruggeri Dario
Témavezető(k):	Témavezető neve Beosztás, tudományos fokozat, intézmény MTMT szerző azonosító Vidács László egyetemi docens, PhD habil., SZTE TTIK INF Szoftverfejlesztés Tanszék 10017596
Szakterület:	01. Természettudományok > 01.02. Számítás- és információtudomány > 01.02.01. Számítástudomány, információtudomány és bioinformatika > 01.02.01.15. Mesterséges intelligencia, intelligens rendszerek, multi-ágens rendszerek 01. Természettudományok > 01.02. Számítás- és információtudomány > 01.02.01. Számítástudomány, információtudomány és bioinformatika > 01.02.01.20. Gépi tanulás, statisztikus adatfeldolgozás, jelfeldolgozáson alapuló alkalmazások 01. Természettudományok > 01.02. Számítás- és információtudomány > 01.02.01. Számítástudomány, információtudomány és bioinformatika > 01.02.01.22. Bioinformatika, bioszámítás, DNS és molekuláris számítások 01. Természettudományok > 01.02. Számítás- és információtudomány > 01.02.01. Számítástudomány, információtudomány és bioinformatika > 01.02.01.09. Bioinformatika, e-egészség, orvosi informatika 04. Mezőgazdaság-tudományok 04. Mezőgazdaság-tudományok > 04.04. Mezőgazdasági biotechnológia 04. Mezőgazdaság-tudományok > 04.04. Mezőgazdasági biotechnológia > 04.04.01. Mezőgazdasági- és élelmiszer-biotechnológia
Doktori iskola:	Informatika Doktori Iskola
Tudományterület / tudományág:	Műszaki tudományok > Informatikai tudományok
Nyelv:	angol
Védés dátuma:	2026. május
Terjedelem:	135
Kulcsszavak:	Machine Learning; Deep Learning; Omics Data; Foodomics; Agronomy; Model Evaluation; Cross-Validation; Early Stopping; Hybrid Neural Networks; Multi-Objective Optimization; Explainable Artificial Intelligence (XAI); SHAP; SNP Prediction; Reproducibility; MLOps; Experimental Workflows; Data Augmentation; Model Robustness; Interpretability; Computational Biology
EPrint azonosító (ID):	13084
A feltöltés ideje:	2026. ápr. 15. 09:40
Utolsó módosítás:	2026. ápr. 15. 09:40
URI:	https://doktori.bibl.u-szeged.hu/id/eprint/13084
Védés állapota:	nem védett (Nem idézhető és nem használható fel hivatkozásként, amíg nem kap DOI számot.)

Actions (login required)

Tétel nézet