Tyro: gagnante de Montréal Accelerator Award 2022

tyro

Membres de l’équipe

Alex Whidden, Jocelyn Wong, Kate Kim, Marie-Elise Latorre, Lily Andruschak, Kiara Wimbush

Sommaire du projet en une ou deux phrases

Faites le suivi et la prévision de vos niveaux hormonaux sans devoir attendre votre prochaine prise de sang.

Mots-clés

thyroïde, ARIMA, méthode de krigeage (Gaussian Process Regression), niveaux hormonaux

Inspiration pour le projet

Lily, membre de notre équipe, a reçu un diagnostic de maladie de Graves au début de 2019. La thyroïde étant une glande productrice d'hormones qui affecte toutes les cellules, tous les tissus et tous les organes du corps, cela a eu un impact extrême sur iel. Les changements imprévisibles dans les niveaux d'énergie et les fonctions régulatrices, comme le rythme cardiaque, ont affecté la vie quotidienne de Lily. Bien qu’iel ait depuis reçu un traitement incluant des chirurgies et de la médication, Lily est souvent dépassé-e par le système médical et son manque de constance dans la surveillance de ses symptômes et niveaux hormonaux. Lily croit que l’écart qu’iel vit dans sa propre vie par rapport à cette maladie pourrait être comblé grâce à l’intelligence artificielle (IA), ce qui pourrait avoir une incidence positive sur la qualité de vie de plus de 200 millions de personnes atteintes de la maladie de la thyroïde dans le monde.

tyro-image-1000px-1

La nécessité d'une telle application a été démontrée quand nous sommes tombé-e-s sur une discussion dans le site Reddit où les participant-e-s avaient partagé leur expérience dans l'espoir de trouver une solution. Nous avons obtenu beaucoup de commentaires positifs lorsque nous avons partagé notre idée de projets avec cette communauté. On nous a d’ailleurs remercié-e-s d’aborder ce sujet délicat qui est trop rarement évoqué.

tyro-image-1000px-2

En plus d’avoir la chance de tirer parti des connaissances de Lily sur cette maladie, notre équipe a d’abord mené des recherches préliminaires afin de mieux comprendre les rôles et les mécanismes de la thyroïde. Dans les premières phases de notre projet, nous avons entre autres plongé dans les sujets suivants : la compréhension des niveaux hormonaux de référence, les aspects qui peuvent influer sur cette référence, la façon dont les différentes hormones interagissent et s’influencent. Un modèle d’apprentissage automatique (Machine Learning) doit refléter fidèlement le problème à résoudre, ce qui ne peut être possible que grâce à une compréhension solide de l’étendue du problème. Bien que notre objectif ait été différent des recherches de Hu et coll., l’étude de leurs découvertes l'étude de leurs conclusions nous a fourni des indications sur les caractéristiques qui peuvent ou non être importantes, sur les modèles possibles à examiner, ainsi que sur les limites probables.

Inspiration pour le projet

  • Google Colab
  • ARIMA
  • méthode de krigeage (Gaussian Process Regression)
  • Figma
  • ReactJS
  • NodeJS
  • NextJS

Description détaillée du projet

Les personnes souffrant de maladies de la thyroïde ne se font généralement faire des analyses de sang que toutes les six semaines pour s’assurer que leurs niveaux hormonaux se situent dans les valeurs normales. Toutefois, elles doivent prendre leurs médicaments chaque jour. Tyro est là pour vous accompagner dans ce processus en faisant le suivi de vos niveaux hormonaux entre deux visites chez le médecin. En nous basant sur un enregistrement facilement accessible de vos analyses sanguines et de vos symptômes, nous générons des visualisations intuitives des niveaux d'hormones précédents et prévisibles, ce qui vous permet de prendre des décisions mieux informées ainsi que des mesures préventives. Ces fonctionnalités sont basées sur l’expérience personnelle de Lily par rapport à sa santé thyroïdienne.

La chirurgie la plus fréquemment privilégiée pour traiter l’hyperthyroïdie (ou la surproduction d’hormones thyroïdiennes) est la thyroïdectomie totale, laquelle est réalisée annuellement pour près de 150 000 Américain-e-s. C’est aussi le cas de Lily. Depuis l’ablation de sa thyroïde, iel doit prendre des médicaments chaque jour pour pallier le manque de production d’hormones thyroïdiennes dans son corps. Notre application est conçue pour des gens comme Lily, dont les niveaux d’hormones thyroïdiennes ne sont dus qu’à la prise de médicaments.

Comme nous voulions modéliser et prédire les niveaux d'hormones thyroïdiennes de l'utilisateur dans le temps, nous avons cherché des ensembles de données temporelles avec des mesures des niveaux d'hormones d'une même personne, mais à des moments différents. Cependant, nous n’avons pas réussi à trouver de tels ensembles de données et avons décidé de créer le nôtre à partir des données existantes de Lily. Nous avons également dressé une liste d’environ 20 candidat-e-s potentiel-le-s prêt-e-s à participer à la création d’un ensemble de données plus complet. La collecte de ces données est très sensible et nécessite de suivre des lignes directrices éthiques strictes et de respecter la réglementation en matière de protection de la vie privée. Nous avons donc reporté cette tâche à des travaux futurs et nous nous sommes concentré-e-s uniquement sur les données de Lily pour développer nos modèles.

tyro-image-1000px-3

Tyro crée un modèle personnalisé de séries temporelles pour chaque utilisateur-ice, qui est paramétré selon les niveaux hormonaux que la personne a déjà fournis. Ce modèle génère ensuite des prévisions sur les niveaux d’hormones de l’utilisateur-ice et souligne les symptômes que la personne a précédemment enregistrés lorsque ses hormones avaient atteint ce même taux. Après avoir évalué différents modèles, nous avons arrêté notre choix sur une combinaison du modèle ARIMA et de la méthode de krigeage, deux modèles d’IA explicable compatibles avec les petits ensembles de données. Ces deux modèles ont des fins complémentaires : ARIMA est utilisé pour faire des prévisions à long terme sur les niveaux hormonaux des mois à venir de l’utilisateur-ice, tandis que la méthode de krigeage sert à faire des prévisions à court terme à propos du niveau hormonal quotidien.

tyro-image-1000px-4

L’infographie ci-dessus illustre les six (6) points de données correspondant au niveau de TSH de Lily lors de cinq (5) analyses sanguines, en plus de la prévision ARIMA pour l’analyse sanguine à venir. L’acronyme ARIMA signifie « AutoRegressive Integrated Moving Average » (processus autorégressif de moyennes mobiles intégrées). Il s’agit d’un modèle statistique spécifiquement conçu pour l’analyse de séries temporelles non saisonnières qui présentent des tendances. Nous l’avons mis en œuvre à l’aide de la fonction d’analyse de séries temporelles de la bibliothèque Statsmodel de Python. Un modèle ARIMA comprend trois (3) paramètres (p, d, q), respectivement : l’ordre du terme autorégressif, l’ordre du terme de la moyenne mobile (c.-à-d. le nombre d’erreurs de décalées qui devraient être incluses dans le modèle) et le nombre de calculs de différences requis pour qu’une série devienne stationnaire1. En modifiant les différents paramètres, nous avons réussi à trouver un modèle qui convient bien aux données et qui fournit des prévisions réalistes. Tyro utilise ARIMA pour prédire les niveaux hormonaux des utilisateur-ice-s pour les mois à venir, en fonction des dates des analyses sanguines effectuées.

tyro-image-1000px-5

L’infographie ci-dessus illustre les mêmes données que celles que nous avions utilisées dans l’infographie précédente. Par contre, ce modèle fournit une prévision légèrement différente.

Le krigeage est une méthode d’apprentissage supervisé qui se sert de l’approche bayésienne pour résoudre les problèmes de régression. Tout d'abord, il suppose l'existence d'un processus gaussien antérieur spécifié à l'aide d'une moyenne et d'une fonction de covariance2. La moyenne est généralement de 0, ou la moyenne des données d’apprentissage, ce que nous avons utilisé dans notre modèle. La covariance est déterminée au moyen d’une fonction noyau pouvant être sélectionnée parmi une variété d’options, dont les noyaux linéaires, Matérn ou RBF (noyaux de fonction de base radiale). Nous avons essayé différents noyaux et avons choisi le RBF puisqu’il a offert les meilleures prévisions pour nos données. Pour la mise en œuvre du modèle, nous avons utilisé la méthode de krigeage offerte par scikit learn3. Une fois le processus gaussien antérieur déterminé, le modèle peut calculer une distribution subséquente au moyen de ce résultat antérieur, des données de test et d’un essai d’observation. Le résultat subséquent peut ensuite être utilisé pour trouver une valeur prévisionnelle moyenne et un écart-type pour cette prévision.

Tyro se base sur la méthode de krigeage pour prédire les niveaux hormonaux quotidiens de l’utilisateur-ice entre ses analyses sanguines. C’est dû au fait que ce modèle fonctionne bien pour l’interpolation des valeurs entre les différents points de données. Le modèle offre également un intervalle de confiance en ce qui a trait à ses prévisions, ce qui permet aux utilisateur-ice-s de juger de la fiabilité des valeurs. Ce modèle est moins efficace pour la production de prévisions à long terme, car, au fil temps, la prévision s’appuie sur la moyenne des données, ce qui explique l’importance de l’utilisation combinée d’ARIMA afin de compléter le volet d’apprentissage automatique de notre application.

Impact et innovation

Bien que nos compétiteurs fassent également le suivi des niveaux hormonaux, nous innovons avec notre composante de prévision pouvant indiquer quand les niveaux risquent de dépasser le seuil normal avec un intervalle de confiance. Ce faisant, nous améliorons constamment chacun des modèles en comparant nos prévisions aux résultats réels. Les autres options offertes sur le marché ne servent que de concentrateur de résultats d’analyses sanguines. Par conséquent, les complications de santé devaient toujours être gérées au fur et à mesure qu'elles se présentaient, car ces plateformes n'avaient aucun moyen de les prévoir.

Nous reconnaissons que nous ne sommes pas des professionnel-le-s du domaine médical et avons pris les précautions nécessaires avant le lancement de notre projet. Notre avertissement d’ordre médical indique que Tyro ne remplace pas un avis médical professionnel. Lors de la conception de notre modèle d'apprentissage automatique, nous avons privilégié la transparence afin de réduire les biais imprévus dans les tests fonctionnels. L’explicabilité facilite le suivi des résultats et l’amélioration du modèle si des problèmes devaient survenir. L’engagement de Tyro envers la sécurité des données garantit aussi que les renseignements personnels demeurent confidentiels et sécurisés. Ces mesures ont permis à Tyro d’obtenir un consentement éclairé de la part de tou-te-s les participant-e-s.

Défis

Le premier défi, et le plus important, auquel nous nous sommes heurté-e-s, comme nous l'avons déjà mentionné, était l'absence d'un ensemble complet de données. La recherche antérieure a démontré que d’autres aspects de la santé et des antécédents d’une personne pouvaient avoir une incidence par rapport à ses niveaux de TSH. En limitant notre bassin de données à des patient-e-s ayant subi une thyroïdectomie totale, nous avons pu attribuer leurs niveaux hormonaux uniquement à leur médication. Plusieurs ensembles de données comprennent les niveaux de TSH et de T4 des patient-e-s, mais nous n’avons pas été en mesure d’en trouver un qui se concentrait sur des patient-e-s qui avaient subi une ablation de la glande thyroïde. Nous avons donc décidé de ne baser notre modèle que sur les analyses sanguines antérieures de Lily, et prévu de tirer profit de plateformes comme Reddit pour créer notre propre ensemble de données.

En raison de la courte durée du Bootcamp, bien que nous ayons trouvé des personnes disposées à participer, nombre d'entre elles n'ont pas été en mesure de récupérer leurs résultats à temps pour nous aider dans notre projet. Ce problème s'est également posé lorsque nous avons essayé d'accéder à des ensembles de données connexes utilisés dans d'autres études. Par conséquent, nous avons adapté nos modèles afin qu'ils s'appuient sur les ensembles de données de chaque utilisateur-ice séparément.

Une autre raison pour laquelle nous avons décidé de ne pas utiliser les ensembles de données existants était les problèmes de confidentialité qui pouvaient survenir. Bien qu'il existe des ensembles de données provenant des hôpitaux, il était généralement assez difficile d'y accéder, surtout pour un groupe de six étudiant-e-s. Ce n'était que le début de nos préoccupations éthiques, qui ont continué à se dévoiler au fur et à mesure que nous développions le projet : des questions se sont posées concernant les données que nous recueillions à la fois auprès des volontaires trouvés sur Reddit et celles des futur-e-s utilisateur-ice-s de l'application. Ces questions n'ont pas toutes été abordées, car l'application n'était pas encore lancée et qu'aucune information médicale n'a été recueillie, hormis celle de Lily. Nous avons rédigé un formulaire de consentement provisoire à faire signer par toute personne désireuse de contribuer à notre ensemble de données, mais, si le projet devait se poursuivre, nous devrions d'abord consulter des professionnels de l'éthique médicale avant de collecter davantage de données.

Apprentissages et accomplissements

Au AI4Good Lab, nous avons acquis de nombreuses aptitudes utiles dans la poursuite d’une carrière en intelligence artificielle. Au fil des cours, des conférences et des ateliers, nous nous sommes familiarisé-e-s avec de nombreux outils qui nous seront sans aucun doute utiles dans nos carrières en apprentissage automatique : introduction aux interfaces collaboratives pour le codage et la conception, aperçu des différents types de modèles qui nous a permis d'identifier les types possibles qui fonctionneraient avec nos données, et conseils pour présenter et commercialiser nos idées de manière convaincante.

En ce qui concerne la phase de développement du projet, nous avons été en mesure de mettre en pratique toutes ces compétences et d'en apprendre beaucoup plus au fil du temps. Nous en avons appris davantage sur la santé de la thyroïde, en plus de nous rapprocher de la communauté qui bénéficierait de notre projet. Sur le plan informatique, certain-e-s d'entre nous ont exploré une grande variété de modèles au-delà de ce qui était enseigné dans les séances, tandis que d'autres se sont familiarisé-e-s avec divers outils IU-EU. Ainsi, comme nous venons de disciplines différentes, nous avons pu tenir compte des forces et des faiblesses de chacun-e et, bien que nous soyons en ligne et que nous travaillions virtuellement dans des fuseaux horaires différents, nous avons pu rester motivé-e-s et sur la bonne voie, et produire un résultat qui nous a tous et toutes rendu-e-s fiers et fières.

Prochaines étapes

Bien que notre équipe continue de croire en Tyro et voit de nombreuses façons passionnantes de le perfectionner, nous suivons tou-te-s des voies différentes et n'avons pas l'intention de travailler activement sur notre projet. Si vous êtes intéressé-e à reprendre Tyro, n'hésitez pas à nous contacter à predictor.thyroid@gmail.com et nous aurons le plaisir de répondre à vos questions.

Toutefois, si nous devions poursuivre notre projet, nous aurions d'abord consulté des professionnels de la santé, des scientifiques spécialisés dans les données et des conseillers en éthique pour nous assurer que tout est aussi concis et éthique que possible. Ce n'est qu'ensuite que nous aurions terminé le déploiement de l'application dorsale et lancé officiellement la version bêta de notre application web pour recueillir les commentaires des utilisateur-ice-s.

Nous aurions essayé de recueillir des données représentant une plus grande variété de cas, comme les femmes et les adultes de plus de 85 ans, car ces deux groupes présentent un risque plus élevé de maladie de la thyroïde. Nous aurions également inclus d'autres paramètres pertinents tels que l'âge, le genre, l'IMC et les autres médicaments prescrits pour améliorer nos prévisions.

La première fonctionnalité que nous aimerions inclure est le traitement du langage naturel sur les entrées des symptômes des utilisateur-ice-s, ce qui nous permettrait de cibler des tendances et donc d'analyser plus en profondeur leur état physique.

Enfin, notre objectif principal est d'élargir notre parc d'utilisateur-ice-s pour inclure d'autres patient-e-s atteint-e-s de maladies thyroïdiennes, comme ceux et celles dont la thyroïde est encore intacte, en plus d'inclure un aspect communautaire qui servirait de plateforme pour partager des expériences et des questions.

tyro-image-1000px-6

Bien que nous soyons attristé-e-s de dire adieu à Tyro, nous pensons que d'autres plateformes sur le marché, comme ThyForLife peuvent être bénéfiques pour les personnes atteintes de maladies de la thyroïde.

Kiara, Marie-Elise et Jocelyn poursuivent leur troisième année du programme de premier cycle en sciences cognitives à l'Université McGill, avec un intérêt accru pour les cours sur l'intelligence artificielle.

Alex a obtenu son diplôme de génie électrique à l'Université Dalhousie et s'intéresse de plus en plus à la poursuite d'une maîtrise en apprentissage automatique.

Lily entame sa dernière année du programme de baccalauréat en informatique à l'Université Dalhousie. Après avoir obtenu son diplôme, Lily aimerait trouver un emploi dans le domaine de l'intelligence artificielle et de l'apprentissage automatique, ayant été inspiré-e par le succès de l'équipe de Tyro grâce au AI4Good Lab.

Kate a obtenu un diplôme en neuroscience de l'Université McGill et prévoit de poursuivre ses études sur l'utilisation de l'apprentissage automatique pour répondre à des questions dans le domaine de la génomique et de la médecine.

Références et remerciements

Nous tenons à remercier notre assistant d’enseignement, Hugo, ainsi que nos mentor-e-s Mojgan et Arjun, de leur soutien indéfectible. Hugo nous a fourni des ressources et nous a encouragé-e-s à faire des erreurs, en plus de nous garder sur la bonne voie et de nous encourager sans relâche. Nous avons également eu la chance que nos deux mentors soient issus de domaines radicalement différents, ce qui nous a permis de bénéficier d'une variété de perspectives pour aborder les problèmes. Mojgan, étant issu du milieu médical, a pu mieux nous informer sur les étapes nécessaires à suivre lorsqu'on entreprend un projet dans ce domaine. Arjun, en tant que scientifique des données, nous a montré une façon objective et tangible de penser en travaillant sur le modèle lui-même. Nous sommes immensément reconnaissant-e-s de la chance qui nous a été donnée de participer au programme du AI4Good Lab, ce qui n'aurait pas été possible sans l'équipe administrative, ainsi que tou-te-s les conférencier-ère-s et intervenant-e-s invité-e-s qui ont façonné le programme d'études. Nous tenons également à remercier la cohorte de 2022, qui a cru en notre projet et voté pour nous dans le cadre du Montreal Accelerator Award.

 

notes de bas de page

1 "Introduction To ARIMA Models". People.Duke.Edu, 2022, https://people.duke.edu/~rnau/411arim.htm.
2 Hilarie Sit, "Quick Start to Gaussian Process Regression," Towards Data Science, June 19, 2019, https://towardsdatascience.com/quick-start-to-gaussian-process-regression-36d838810319
3 "1.7. Gaussian Processes," Scikit Learn, 2022, https://scikit-learn.org/stable/modules/gaussian_process.html