Didac Barroso Bergadà

Didac Barroso Bergadà

Apprentissage automatique des réseaux d'interaction à partir des données de séquence next-génération

Résumé

Le changement climatique et d'autres processus induits par l'homme modifient les écosystèmes, à l'échelle mondiale, à un rythme toujours plus rapide. Les communautés microbiennes jouent un rôle important dans le fonctionnement des écosystèmes, en maintenant leur diversité et leurs services. Ces communautés sont façonnées par les différents effets environnementaux abiotiques auxquels elles sont soumises et par les interactions biotiques entre tous les membres de la communauté. Le projet ANR Next-Generation Biomonitoring (NGB) a proposé de reconstruire des réseaux d'interactions à partir de mesures d'abondance obtenues par séquençage de l'ADN environnemental (eDNA) et d'utiliser ces réseaux pour suivre l'évolution des écosystèmes. Dans cette thèse, menée dans le cadre du projet NGB, j'évalue le potentiel de deux outils de reconstruction de réseaux statistiques existants, SparCC et SPIEC-EASI, pour reconstruire des réseaux microbiens afin d'évaluer le changement des écosystèmes. Les communautés microbiennes des feuilles de vigne ont été utilisées pour différencier deux pratiques agricoles différentes, en identifiant les métriques de réseau appropriées pour capturer le changement d'écosystème. Les expériences ont montré que, bien qu'il soit difficile d'obtenir des réseaux répliqués, même dans les mêmes conditions environnementales, il est toujours possible de différencier les réseaux de différentes pratiques agricoles en utilisant certaines métriques de réseau. Bien que les outils de reconstruction de réseaux basés sur des statistiques puissent obtenir des réseaux d'associations entre micro-organismes, avec précision, ces associations statistiques ne sont pas des indicateurs directs des processus écologiques d'interaction sous-jacents. Pour résoudre ce problème, j'ai développé un nouvel outil de reconstruction de réseau appelé Interaction Inference using Explainable Machine Learning (InfIntE), basé sur Explainable Machine Learning (EML). L'EML est une branche de l'apprentissage automatique qui utilise les connaissances préalables d'un domaine scientifique, tel que l'écologie, pour déclarer des énoncés logiques de concepts (hypothèses) afin de réaliser des inférences compréhensibles par l'homme. InfIntE utilise les règles d'interaction écologiques ainsi que les informations sur l'abondance obtenues par le séquençage de l'eDNA pour reconstruire des réseaux par inférence logique. Contrairement à la reconstruction de réseaux basée sur des méthodes statistiques, l'utilisation de règles d'interaction permet de classer directement les interactions déduites selon leur type (par exemple, mutualisme, compétition), ce qui permet d'obtenir des réseaux d'interaction plus informatifs et objectifs. La performance d'InfIntE a été évaluée en utilisant des données générées par ordinateur ainsi que des ensembles de données obtenus par échantillonnage d'eDNA du microbiome des feuilles de vigne. Mes résultats montrent qu'InfIntE peut détecter des réseaux d'interaction avec une précision similaire à celle des outils statistiques testés, SparCC et SPIEC-EASI, avec l'avantage significatif de la classification directe du type de chaque interaction.

Thèse soutenue le 08 décembre 2022

Composition du jury:

Le président du jury était Alex J. Dumbrell.

Le jury était composé de Lucie Zinger, Tristan Cordier.

Les rapporteurs étaient Alex J. Dumbrell, Christophe Mougel