Ruggeri Dario
Reliable Machine Learning for Omics Data: Evaluation Protocols, Hybrid Models, and Applications in Foodomics.
Doktori értekezés, Szegedi Tudományegyetem (2000-).
(2026)
Előnézet |
Szöveg
(Disszertáció)
Download (5MB) | Előnézet |
Előnézet |
Szöveg
(Tézisfüzet)
Download (863kB) | Előnézet |
Előnézet |
Szöveg
(Címlap)
Download (15kB) | Előnézet |
Előnézet |
Szöveg
(Egyéb)
Download (81kB) | Előnézet |
Előnézet |
Szöveg
(Egyéb)
Download (458kB) | Előnézet |
Előnézet |
Szöveg
(Egyéb)
Download (145kB) | Előnézet |
Magyar nyelvű absztrakt
This PhD thesis investigates the reliable application of machine learning (ML) and deep learning (DL) methods to omics data, with particular emphasis on high-dimensional, low-sample-size settings commonly encountered in foodomics and agronomy. The work focuses on improving methodological rigor, interpretability, and reproducibility in applied omics research. The dissertation is organized into two main parts. The first part addresses methodological aspects of ML for omics data, including evaluation strategies and hybrid modeling approaches. In particular, it examines the interaction between cross-validation and early stopping in neural network training, identifying common pitfalls such as information leakage and biased performance estimation. Furthermore, the thesis explores hybrid neural network architectures that integrate mechanistic domain knowledge into data-driven learning, framing the problem as a multi-objective optimization task that balances predictive accuracy with mechanistic consistency. The second part focuses on applied case studies in foodomics and agronomy. It presents robust and explainable deep learning models for SNP-based phenotype prediction, demonstrating statistically significant improvements in predictive performance through adaptive optimization, regularization, and data augmentation strategies. The work also employs SHAP-based explainability methods to identify biologically relevant features and ensure transparent interpretation of model predictions. In addition, the thesis introduces a research-stage MLOps framework for organizing complex omics machine learning workflows, improving experiment traceability, reproducibility, and comparability. Overall, the dissertation contributes to the development of more reliable, interpretable, and reproducible ML methodologies for omics data analysis by combining methodological innovation with practical applications in foodomics and agronomy.
Absztrakt (kivonat) idegen nyelven
A doktori értekezés a gépi tanulási (ML) és mélytanulási (DL) módszerek megbízható alkalmazását vizsgálja omikai adatok elemzésében, különös tekintettel az élelmiszer-omikai és agronómiai kutatásokban gyakran előforduló nagy dimenziószámú, kis mintaszámú adathalmazokra. A munka középpontjában a módszertani megbízhatóság, a magyarázhatóság és a reprodukálhatóság javítása áll. Az értekezés két fő részből áll. Az első rész a módszertani kérdésekkel foglalkozik, különös hangsúlyt fektetve a modellértékelési stratégiákra és a hibrid modellezési megközelítésekre. Ennek keretében részletesen elemzi a keresztvalidáció és a korai leállítás (early stopping) együttes alkalmazását neurális hálózatok tanításában, feltárva az adatszivárgás és a torzított teljesítménybecslés tipikus problémáit. Emellett olyan hibrid neurális hálózati modelleket vizsgál, amelyek a mechanisztikus szaktudást integrálják az adatvezérelt tanulási folyamatba, többcélú optimalizációs feladatként kezelve a prediktív pontosság és a mechanisztikus konzisztencia közötti egyensúlyt. A második rész alkalmazott esettanulmányokon keresztül mutatja be a módszerek gyakorlati hasznosítását az élelmiszer-omika és az agronómia területén. Bemutat robusztus és magyarázható mélytanulási modelleket SNP-alapú fenotípus-predikciós feladatokra, amelyek adaptív optimalizáció, regularizáció és adataugmentáció alkalmazásával statisztikailag szignifikáns teljesítményjavulást érnek el. A dolgozat SHAP-alapú magyarázhatósági módszereket is alkalmaz a biológiailag releváns jellemzők azonosítására és a modellpredikciók átlátható értelmezésére. Továbbá egy kutatási fázisra optimalizált MLOps keretrendszert is bemutat, amely támogatja az omikai gépi tanulási munkafolyamatok átlátható, reprodukálható és összehasonlítható szervezését. Összességében a disszertáció hozzájárul a megbízhatóbb, értelmezhetőbb és reprodukálhatóbb ML-alapú omikai elemzési módszertanok fejlesztéséhez, ötvözve a módszertani innovációt a gyakorlati alkalmazásokkal az élelmiszer-omika és agronómia területén.
Actions (login required)
![]() |
Tétel nézet |

