Membres de l’équipe
Ana Gordon, Aimee Tran Ba Huy, Le Thuy Duong Nguyen, Jada Thompson, Mitia Andrieux
Sommaire
Les disparités de sexe dans les essais cliniques augmentent le risque d’effets indésirables des médicaments chez les femmes. En utilisant l’Apprentissage Automatique (AA) unbIAsed.Rx vise à remédier ce problème en exploitant des données pour promouvoir des pratiques de soins de santé plus sûres et plus inclusives.
Mots-clés
Médicaments Pharmaceutiques, Apprentissage Automatique (AA), Intelligence Artificielle (IA), Soins de Santé, Médicament, Pharmaceutique, Modèle de Régression, Biais, Modèle de Prédiction, Effets Indésirables, Réseau Neuronal Convolutif, ShuffleNet, Reconnaissance Optique de Caractère (OCR)
Inspiration et contexte du projet
La sous-représentation des femmes dans les essais cliniques pharmaceutiques est une problématique à la fois urgente et fondamentale, avec des répercussions significatives sur les résultats en matière de santé. Alors que certaines maladies ou conditions sont plus fréquentes chez les femmes, plus de 60% des essais cliniques de médicaments présentent une participation féminine disproportionnée par rapport à la population touchée (National Academies of Sciences, Engineering, and Medicine). En outre, en 2016, 70% des expériences biomédicales n’ont pas pris en compte le sexe comme variable d’intérêt (Sugimoto CR, Ahn Y-Y, Smith E, Macaluso B, Larivière V). Omettre de considérer les différences de sexe dans les données de recherche peut entraîner de lourdes conséquences, comme un risque accru d’effets indésirables chez les femmes. Ces dernières sont en effet 1.5 à 1.7 fois plus susceptibles de subir des effets secondaires négatifs dus aux médicaments (Rademaker M.).
Cette situation met en évidence l’urgence de développer des approches plus inclusives et sexospécifiques dans la recherche clinique pour garantir des traitements sûrs et efficaces pour tous les patients. Il est essentiel de résoudre ce problème non seulement pour le bien-être des femmes, mais aussi pour accroître nos connaissances médicales et l’état de santé de l’ensemble de la population. Assurer une représentation équitable dans les essais cliniques est crucial pour atteindre une véritable égalité dans les soins de santé, en faisant en sorte que les traitements soient conçus et évalues pour le bénéfice de tous, quel que soit leur sexe.
L’objectif de notre projet, unbIAsed.Rx, est de remédier à la sous-représentation significative des femmes dans les essais cliniques pharmaceutiques en sensibilisant médecins et patients à cette problématique cruciale. Nous visons à combler le déficit de connaissances en rendant accessibles au grand public des informations médicales et pharmaceutiques complexes, offrant aux patients la possibilité et le pouvoir de gérer leur propre santé. Cette initiative permet aux patients de prendre des décisions éclairées et aux médecins d’acquérir les connaissances nécessaires pour améliorer leurs choix à l’égard de leurs soins de santé. En mettant en lumière la sous-représentation des gemmes dan les essais cliniques, nous cherchons à provoquer des changements significatifs dans la conception de ces essais en promouvant des pratiques de recherche plus inclusives et représentatives. Finalement, notre projet aspire à promouvoir l’équité dans les soins de santé en garantissant que les traitements médicaux sont développés et évalués de manière sécuritaire, efficace et bénéfique pour tous, indépendamment du sexe.
Technologies utilisées
Apprentissage Automatique et traitement des données:
Python, Pandas, PyTorch, Numpy, Seaborn, Matplotlib, Pytrials, Pickle, Sklearn, RandomForestRegressor, Torch Vision, Google Colab, ShuffleNet, Reconnaissance Optique de Caractère (OCR).
Développement Web (Frontend, Backend, Déploiement):
Python, Flask, HTML, CSS, Javascript, SQLite, Digital Ocean, GitHub.
Développement du projet
Remue-Méninges
La phase de réflexion initiale de notre projet a représenté un investissement considérable de notre temps, posant les bases de notre travail. Au cours d cela première semaine, avec notre premier ensemble de données (MedEffect), nous avons abordé plusieurs questions essentielles au développement de notre projet:
- Analyse documentaire : Nous avons examiné les projets existants pour nous en inspirer et affiner notre objectif d’inclure le sexe comme une variable d’intérêt dans notre analyze d’évaluation des risques.
- Audience ciblé : Nous avons identifié les principaux potentiels utilisateurs de notre projet : praticiens, patients, grand public et industrie pharmaceutique.
- Évaluation de l’ensemble des données : Nous avons déterminé si notre ensemble de données était adéquat pour atteindre les objectifs de notre projet et avons exploré des moyens d’en améliorer la complétude.
Nos mentor et aide-enseignant, Tyler Jackson et Prakhar Ganesh, ont été de précieux atouts dans ce processus. Ils ont contribué à la clarification de nos idées et à la structure de notre réflexion, notamment en nous mettant en contact avec d’autres experts dans leurs domaines.
En s’intéressant aux applications existantes, sites web et recherches antérieures, nous avons affiné l’orientation de notre projet. Notre objectif est devenu alors plus précis : identifier les effets indésirables des médicaments en fonction du sexe et développer un modèle de prédiction sensible à cette variable. Ce modèle vise à améliorer la supervision de la sécurité des médicaments grâce à une interface facile d’usage, permettant ainsi aux patients d’engages des discussions pertinentes avec leurs praticiens au sujet de leur santé.
Données
L’obtention de données pertinentes a été un élément clé du projet. Afin d’adapter nos efforts aux utilisateurs canadiens, nous avons utilisé des ensembles de données spécifiques au Canada. La première base de données exploitée est la Base de Données en Ligne des Effets Indésirables de Canada Vigilance, constituée de rapports fournis par les utilisateurs, les professionnels de la santé, les fabricants de médicaments ou les distributeurs. Pour plus d’informations sur la base de données MedEffect, veuillez cliquer ici.
La seconde base de données utilisée est ClinicalTrials.gov, qui regroupe des études de recherche clinique provenant de plus de 200 pays. Cette base de données est alimentée par les promoteurs et les chercheurs qui soumettent et mettent à jour les informations concernant les études, en accord avec les lois et réglementations exigeant le partage public des données sur les essais cliniques, y compris les résultats. Pour en savoir plus sur ClinicalTrials, veuillez cliquer ici.
Après l’obtention des données, nous avons principalement travaillé avec la base de données MedEffect pour filtrer les rapports en fonction du nom de la condition du patient et du médicament utilisé comme traitement, et par la suite pour comptabiliser le nombre de rapports par sexe. Nous avons utilisé la base de données ClinicalTrials pour extraire les noms clés des médicaments et des conditions pour identifier les résultats potentiels des recherches cliniques. Ces données ont ensuite été fusionnées et pré-traitées pour préparer l'entraînement du modèle d’Apprentissage Automatique (AA).
Implémentation
Notre projet est fondé sur l’implémentation de trois modèles d’Apprentissage Automatique (AA), une tâche ambitieuse à réaliser en trois semaines.
Le premier modèle permet aux utilisateurs d’entrer une photo de l’étiquette de leur médicament. Nous avons choisi d’utiliser un outil de Reconnaissance Optique de Caractères (OCR) basé sur le moteur open source Python-Tesseract. L’OCR convertit le texte présent dans l’image en texte numérique. Le moteur OCR étant déjà pré-entraîné, il est capable de lire et de convertir les données textuelles à partir des images. Le modèle intègre la détection d’objets pour identifier les éléments présents sur l’image, les Réseaux Neuronaux Profonds (RNP) pour classifier les images, et le traitement d’images pour les manipuler et les augmenter. Pytesseract utilise également OpenCV pour optimiser la Vision par Ordinateur en temps réel. Tous les mots détectés sur l’image sont comparés aux noms des médicaments dans notre base de données, ce qui déclenche la barre de recherche de notre plateforme avec le nom du médicament identifié.
Le second modèle permet aux utilisateurs d’entrer une photo de leur pilule. Pour ce modèle, nous avons utilisé un ensemble de données Kaggle comprenant plus de 9 500 étiquettes pour entraîner le modèle ShuffleNet V2. Nous avons également envisagé les modèles ResNet50 et ResNeXt, mais ShuffleNet V2 démontre une meilleure précision (90%). Ce modèle classe la pilule détectée dans l’une des dix catégories suivantes: Alaxan, Bactidol, Biogesic, Lamictal, DayZinc, Rivaroxaban, Fish Oil, Kremil S, Medicol, ou Neozep; et utiliser un Réseau Neuronal Convolutif (CNN) pour classifier l’image entrée. Le CNN applique un filtre sur lui-même pour apprendre les caractéristiques dans le Réseau Neuronal à propagation avant. Pour entraîner notre modèle. Nous avons utilisé les poids ShuffleNet_V2_X0_5_Weights, optimisés pour la vitesse plutôt que pour les Opérations en Virgule Flottante (FLOP). À l’avenir, nous prévoyons d’entraîner notre modèle sur une plus grande base de données afin d’inclure plus de catégories et d’intégrer une terminologie médicale plus générique pour mieux associer les catégories aux médicaments de notre base de données.
Les étiquettes médicales contiennent souvent une grande quantité d’informations, ce qui complique la recherche et la compréhension du nom du médicament prescrit. De plus, la gestion des pilules peut être déroutante, surtout lorsque leurs flacons se ressemblent. Nos fonctions de reconnaissances d’étiquettes et de pilules permettent un accès simplifié et rapide aux informations essentielles, rendant notre outil final plus accessible et facile d’utilisation.
Le troisième modèle permet aux utilisateurs de sélectionner ou de saisir un médicament ainsi que leur état de santé pour prédire le risque d’effets indésirables. Nous avons formé un modèle de Régression RandomForest en tenant compte de la distribution biaisée des participants dans les essais cliniques pour les paires de médicament-condition. Ce modèle fonctionne en construisant des arbres de décision sur des sous-ensembles de données choisis aléatoirement et en combinant les résultats de tous les arbres pour établir des prédictions sur de nouvelles données. Nous avons opté pour ce modèle en raison de sa capacité à gérer les relations non-linéaires, ce qui le rend plus adapté que des modèles comme la Régression Linéaires. Cette fonctionnalité permet aux utilisateurs de sélectionner un médicament présent dans notre base de données ou de saisir un médicament qui n’y figure pas. Ils peuvent ensuite choisir l’une des conditions répertoriées, ce qui génère un pourcentage de risque prédit d’effets indésirables. Cette fonctionnalité est le principe fondateur de notre projet et un rôle crucial dans notre site web. Il contribue à lutter efficacement contre les discriminations de sexe dans l’industrie pharmaceutique en sensibilisant le public à ce problème.
Impact et innovation
Notre solution, unbIAsed.Rx, se distingue par son approche unique visant à résoudre un problème critique, souvent négligé : la sous-représentation des femmes dans les essais cliniques et les disparités en matière de sécurité et d’efficacité des médicaments qui en découlent. Bien que certaines initiatives existent dans le domaine de la médecine personnalisée et pharmacogénomique, la plupart ne ciblent pas spécifiquement les différences d’effets indésirables liées au sexe. Les concurrents dans ce domaine proposent généralement des outils de pharmacovigilance généraux ou des modèles prédictifs qui ne prennent pas en compte le sexe comme une variable essentielle. Notre solution aborde de manière ciblée la cause fondamentale des disparités dans les réactions aux médicaments, à savoir la négligence historique du sexe en tant que variable biologique dans la recherche clinique. En mettant en lumière la sous-représentation des femmes dans les essais cliniques et les disparités qui en résultent dans les réactions aux médicaments, nous cherchons à promouvoir une sensibilisation accrue et à plaidoyer en faveur de pratiques cliniques plus inclusives et efficaces. Cette prise de conscience est cruciale pour indure des changements politiques et améliorer la conception des essais cliniques, afin de garantir l’équité dans les soins de santé. En rendant ces informations accessibles à travers une interface facile d’utilisation, nous contribuons à combler le fossé entre les données médicales complexes et les utilisateurs quotidiens. Notre solution a le potentiel d’améliorer significativement la sécurité des médicaments, de réduire les coûts des soins de santé en atténuant les risques d’effets indésirables, et d’améliorer les résultats pour les patients.
L’impact potentiel de unbIAsed.Rx sur son public cible et sur le domaine pharmaceutique et médical en général est considérable. Pour les patients, cela se traduit par une utilisation plus sûre des médicaments et une meilleure capacité à défendre leurs propres besoins en matière de santé. Pour les prestataires de soins de santé, l’outil offre une meilleure évaluation des risques associés à la prescription de médicaments à différents patients, ce qui conduit à des traitements plus personnalisés et efficaces. À un niveau plus global, unbIAsed.Rx a le potentiel de provoquer un changement systémique dans la conception et la réalisation des essais cliniques en favorisant l’inclusion du sexe comme facteur critique dans la recherche. Cela pourrait finalement promouvoir des pratiques de soins de santé plus équitables et améliorer les standards de sécurité et d’efficacité des traitements médicaux.
Limites
Cependant, tout modèle prédictif comporte des risques potentiels si l’outil est mal utilisé ou si les données sont mal interprétées. Pour atténuer ces risques, nous avons mis en place plusieurs mesures de sécurité, telles que de claires mises en garde contre ces risques, des ressources éducatives pour les utilisateurs, et des mises à jour continues du modèle pour intégrer les recherches les plus récentes. Nous tenons à souligner que unbIAsed.Rx ne remplace en aucun cas les conseils d’un professionnel de la santé, mais constitue une ressource d’information visant à sensibiliser le public. Bien que nous nous efforçons de garantir l’exactitude, l’actualité et la complétude des informations fournies, l’absence d’avertissement pour un médicament ou une combinaison de médicaments ne doit pas être interprétée comme une indication que le médicament ou la combinaison est sûr, efficace, ou approprié pour tout patient à tout moment.
Nous mettons également un point d’honneur à protéger la confidentialité et la sécurité des données, en veillant à ce que les informations personnelles restent confidentielles en raison de la sensibilité des données de santé. Les utilisateurs conservent leur autonomie pour prendre des décisions éclairées, et nous encourageons vivement les patients à consulter un professionnel de la santé avant de prendre toute décision médicale ou de modifier leur plan de traitement.
Défis rencontrés et solutions apportées
Disponibilité des données et utilisation des données existantes
L’un des principaux défis que nous avons rencontrés a été la disponibilité et la qualité des données. La base de données MedEffect, qui a constitué notre principale source de données, a nécessité un nettoyage et un filtrage approfondis avant de pouvoir être utilisée efficacement dans le cadre de notre projet. Initialement, nous avions prévu de nous concentrer exclusivement sur les maladies cardiovasculaires, en raison de leur prévalence et des différences bien documentées entre les sexes. Cependant, nous avons rapidement constaté que limiter notre projet aux données cardiovasculaires ne permettait pas de couvrir les problèmes plus généraux rencontrés par une population plus diversifiée. Nous avons donc ajusté notre objectif pour créer une plateforme capable d’aider au plus grand nombre de personnes en fournissant des informations sur un éventail plus étendu de problèmes de santé.
De plus, l’ensemble de données MedEffect ne contenait pas d’informations sur les cas où l’utilisation d’un médicament n’avait pas entraîné d’effet indésirable, ce qui limitait notre capacité à évaluer de manière exhaustive la sécurité des médicaments. Pour pallier cette lacune, nous avons mené une analyse documentaire approfondie et avons recherché d’autres ensembles de données, tels que le Système Canadien de Surveillance des maladies chroniques et ClinicalTrials.gov, afin de compléter nos données primaires. Cette approche nous a permis d’élargir notre analyse au-delà des maladies cardiovasculaires, en intégrant d’autres problématiques de santé importantes telles que les maladies respiratoires (asthme, troubles pulmonaires obstructifs chroniques), le diabète, la schizophrénie et les maladies neurologiques (démence, épilepsie, sclérose en plaques, parkinsonisme).
Les consultations avec des experts dans le domaine ont été essentielles pour orienter notre processus de sélection des données et garantir que celles-ci étaient suffisamment robustes pour soutenir notre modèle prédictif.
Problème d’Apprentissage Automatique
L’une des principales difficultés rencontrées a été de définir clairement notre problème d’Apprentissage Automatique. À mesure que notre projet avançait, le nettoyage et l’analyse des données ont absorbé une part significative de notre temps. Nous nous sommes rapidement rendu compte du risque de réduire notre travail à une simple analyse statistique des données existantes, au lieu de développer des prédictions basées sur de nouvelles données telles que des essais cliniques ou des rapports volontaires d’effets secondaires. La question centrale de notre projet est alors devenue : pour une paire médicament-condition spécifique, quelle est la probabilité qu’une personne subisse un effet indésirable en fonction de son sexe ?
Pour répondre à cette question, nous avons examiné les tendances statistiques et testé divers modèles d’Apprentissage Automatique, y compris des approches catégorielles pour prédire les niveaux de risque. Nous avons finalement opté pour un modèle de régression afin de fournir des prédictions en pourcentage plus significatives et informatives, par opposition à des catégories simples telles que risque faible, moyen ou élevé.
Afin d’améliorer l’accessibilité de notre plateforme, nous avons également intégré des fonctionnalités de reconnaissance d’images par CNN et de Reconnaissance Optique de Caractères. Cela permet aux utilisateurs de prendre des photos de leurs boîtes de médicaments ou de leurs étiquettes, facilitant ainsi l’identification et l’évaluation des risques associés.
Ce que nous avons appris et les réalisations dont nous sommes fières
Au cours de ce programme, nous avons acquis de précieuses connaissances sur les fondamentaux de l’Intelligence Artificielle et de l’Apprentissage Automatique. Les premières semaines ont été marquées par des conférences, des ateliers et des sessions de tutorat, nous permettant de poser les bases théoriques nécessaires.
Notre projet nous a offert l’opportunité de consolider ces bases et d’appliquer les concepts appris à des problèmes concrets. L’un des principaux enseignements tirés de cette expérience est l’importance cruciale de disposer de données de qualité. Sans nettoyage de données, il est difficile de formuler un problème d’Apprentissage Automatique adéquat et d’obtenir des résultats fiables du modèle. Globalement, ce projet nous a permis de comprendre le processus complet de définition d’un problème d’Apprentissage Automatique, allant de l’idée initiale à l’entraînement du modèle et à son intégration dans une plateforme facile d’utilisation.
Nous sommes particulièrement fières des réalisations obtenues en seulement sept semaines, qu’il s’agisse de suivre un programme intensif ou de développer un projet ambitieux. Nous sommes surtout satisfaites d’avoir créé un projet significatif dans le contexte de l’utilisation de l’IA pour des fins d’équité sociales.
Cet accomplissement n’aurait pas été possible sans le soutien de nos aides-enseignants, mentors, conseillers, et bien sûr, de nos collègues du AI4Good Lab. Ces relations ont été l’un des aspects les plus enrichissants de notre participation au programme.
Prochaines étapes du projet
À mesure que nous avançons avec notre projet unbIAsed.Rx, nous nous concentrons sur l’amélioration des capacités techniques de nos modèles. Pour notre modèle principal, qui évalue le risque de développer des effets indésirables en fonction du sexe, notre objectif est d’améliorer sa précision. Cela nécessitera l’acquisition de données supplémentaires pour renforcer notre modèle et son entraînement. Nous recherchons activement des sources de données complémentaires, notamment en collaborant avec le programme Canada Vigilance pour accéder à d’autres données dans la base de MedEffect. Cette base de données offre des informations cruciales sur les antécédents médicaux et les résultats des tests des patients, et son enrichissement permettra d’améliorer la précision de notre modèle.
Parallèlement, nous affinons notre Réseau Neuronal Convolutif pour améliorer la reconnaissance d’une palette plus étendue de pilules pharmaceutiques. Notre objectif est d’assurer non seulement une identification précise d’une large variété de pilules, mais aussi de détecter avec précision les pilules non identifiables, afin de minimiser les correspondances erronées.
Notre ambition ultime est de transformer unbIAsed.Rx en un produit complet et de lancer un site web entièrement opérationnel pour sensibiliser efficacement aux disparités entre les sexes dans les essais pharmaceutiques et promouvoir l’équité dans les soins de santé. Nous sommes particulièrement reconnaissantes de participer à la cohorte d’automne du Mila Entrepreneurship Lab, qui nous fournira les outils et le soutien nécessaires pour réaliser ces objectifs et concrétiser notre vision.
Remerciements
Remerciements
Nous tenons à exprimer notre sincère gratitude pour les conseils et le mentorat fournis par notre aide-enseignant Prakhar Ganesh, ainsi que par notre mentor, Tyler Jackson. Nous remercions également Eptehal Nashoush, Khaoula Chehbouni, Maryam Molamohammadi, Nicole Osayande et Padideh Nouri pour leurs précieux conseils. Nous sommes profondément reconnaissants pour le AI4Good Lab pour l’opportunité qu’il nous a offerte d’apprendre, de grandir et de développer notre projet, ainsi que pour son soutien infaillible tout au long de ce parcours.
Références
National Academies of Sciences, Engineering, and Medicine. 2022. Improving Representation in Clinical Trials and Research: Building Research Equity for Women and Underrepresented Groups. Washington, DC: The National Academies Press. https://doi.org/10.17226/26479.
Rademaker M. Do women have more adverse drug reactions? Am J Clin Dermatol. 2001;2(6):349-51. doi: 10.2165/00128071-200102060-00001. PMID: 11770389.
Sugimoto CR, Ahn YY, Smith E, Macaluso B, Larivière V. Factors affecting sex-related reporting in medical research: a cross-disciplinary bibliometric analysis. Lancet. 2019 Feb 9;393(10171):550-559. doi: 10.1016/S0140-6736(18)32995-7. PMID: 30739690