Version PDF

Société

10 mar 2021

Intelligence artificielle en diabétologie : concepts, promesses et réalisations

Pierre-Yves BENHAMOU, service d’endocrinologie, CHU de Grenoble-Alpes, Grenoble

Depuis l’an 2000, plus de 2 000 publications ont porté sur l’usage de l’intelligence artificielle en endocrinologie et métabolisme. Les thématiques principalement développées sont le dépistage et le diagnostic (rétinopathie, diabète gestationnel, NASH), l’aide à la décision thérapeutique (insulinothérapie automatisée) et la médecine personnalisée. Par son expertise clinique, le diabétologue doit participer au développement de ces approches par la génération de données de qualité et l’interprétation adéquate de l’usage qui en est fait.

Le terme intelligence dérive du latin intellĕgō signifiant « discerner, démêler, comprendre, remarquer (parmi un ensemble) ». Si l’intelligence est un concept encore mal défini sur le plan scientifique, il est intéressant de considérer que dès l’Antiquité, les philosophes grecs (Théophraste et Aristote) distinguaient l’intelligence comme une faculté différente de la sensibilité. Du point de vue du médecin, cela est rassurant. L’intelligence artificielle (IA) est l’ensemble des théories et des techniques mises en oeuvre en vue de réaliser des machines capables de simuler l’intelligence. En médecine, son objet est d’analyser, comprendre, prédire, décider, traiter. En 2020, le nombre cumulé de publications scientifiques portant sur IA et endocrinologie et métabolisme au cours des deux dernières décennies a dépassé 2 000. En nous plaçant du point de vue du diabétologue clinicien, il nous paraît intéressant de décrire les modes de fonctionnement de l’IA, afin de mieux comprendre les promesses, réalisations, limites et questions posées par l’éclosion de ces technologies. Comprendre les différentes IA Il existe plusieurs classifications des IA, celle qui est la plus pertinente pour comprendre les applications en diabétologie est celle distinguant l’IA explicite et l’IA implicite. Nous renvoyons le lecteur à deux revues récentes sur cette question(1,2). Intelligence artificielle explicite Par définition, cette IA peut entièrement être décrite de façon explicite par les humains. Elle regroupe les systèmes experts, arbres décisionnels et, de manière générale, l’ensemble des situations où le problème à résoudre peut être décrit par un modèle mathématique. L’IA explicite repose donc sur des hypothèses, critères et équations définis explicitement par l’homme et permettant le fonctionnement d’un algorithme (figure 1). En diabétologie, l’exemple évident est la détermination de la dose d’insuline en fonction de la modélisation mathématique de la glycémie, principe de fonctionnement des dispositifs d’insulinothérapie en boucle fermée de type MPC (model predictive control). Figure 1. Fonctionnement général des algorithmes explicites. L’ensemble des hypothèses, critères et équations est défini explicitement par l’humain. L’inconvénient de l’IA explicite est qu’en reposant sur des raisonnements exploitant la biologie, la physiologie, les mathématiques, elle peut présenter des failles. Les patients les plus experts de leur diabète savent bien que leur réponse à une activité physique, même la mieux calibrée est soumise à un certain degré d’imprédictibilité. L’avantage de cette IA est son caractère explicite même, lui permettant de se prêter à des simulations numériques où le raisonnement sera model-driven (orienté par le modèle), permettant de tester différents scénarios, et notamment de vérifier la sécurité de l’algorithme. Son explicabilité autorise une transparence bien utile pour être autorisée par les instances réglementaires. Son mode de fonctionnement peut être exposé au patient, ce qui est un atout sur le plan éducatif et pour son acceptabilité. Intelligence artificielle implicite L’inconvénient majeur de l’IA explicite est d’être prise en défaut dans les situations ne pouvant pas être décrites par un modèle mathématique. C’est le cas de la rétinopathie diabétique, par exemple. C’est là que peut intervenir l’IA implicite, qui ne repose pas sur une mathématisation a priori du problème à résoudre, mais à l’inverse, qui passe par une logique de déduction à partir des données observées. On parle d’une approche data-driven (orientée par la donnée). L’IA implicite repose donc sur une logique très abstraite, peu explicite et peu explicable, passant par un apprentissage à partir de très nombreuses données dites d’apprentissage (figure 2). Figure 2. Fonctionnement général des algorithmes implicites. La logique est traduite par un ensemble de critères implicitement définis à la suite d’un apprentissage. Le machine learning ou apprentissage automatique est une approche d’IA consistant à développer et entraîner des algorithmes à apprendre et agir sur les données. Le deep learning, ou réseaux neuronaux profonds, consiste à implémenter plusieurs couches de réseaux algorithmiques, mimant l’architecture cérébrale. L’archétype de l’IA implicite est celle mise en oeuvre dans l’analyse automatique des données de radiologie. L’IA implicite comprend les IA dites de catégorisation, classant les données en fonction de leurs similarités, et les IA décisionnelles par construction de réseaux neuronaux. Par son principe même, elle évoque le développement de l’intelligence d’un enfant se construisant par observations, recoupements et déductions. En diabétologie, cette IA implicite est utilisée dans le dépistage de la rétinopathie diabétique. L’IA de catégorisation fait l’objet de travaux permettant d’identifier de nouveaux sous-types de diabète reposant sur des profils phénotypiques décelés par le big data ou de définir la meilleure stratégie thérapeutique, dans le cadre d’une médecine de précision. L’inconvénient de l’IA implicite est sa faible explicabilité, qui fait parler de fonctionnement en « boîte noire », ce qui peut être problématique pour son homologation par une instance réglementaire. L’IA implicite nécessite de très grands volumes de données (big data) dont la qualité conditionnera la justesse de l’apprentissage automatique (machine learning). Les données d’apprentissage doivent être labellisées, après avoir été structurées et formatées, ce qui est un processus long et complexe, qui peut être entaché d’erreurs puisque faisant intervenir l’humain. En fait, on distingue l’apprentissage supervisé (faisant appel à des données labellisées) et l’apprentissage non supervisé (consistant à identifier des structures ou tendances dans une base de données non labellisée). Enfin, des modèles d’IA hybrides combinant l’approche explicite et implicite ont été élaborés. Science des données et IA : un nouveau paradigme pour la recherche biomédicale La recherche biomédicale s’appuie sur des données générées à plusieurs niveaux, allant de l’échelle moléculaire à l’échelle de la population, en passant par les étapes cellulaires, tissulaires et de l’individu (figure 3). À chaque étape, l’analyse de ces données a nécessité des outils informatiques dédiés (chémoinformatique, bio-informatique, dossiers médicaux informatisés, etc.) de plus en plus puissants, conduisant à une nouvelle discipline, la science des données. Celle-ci doit s’appuyer sur des infrastructures informatiques très complexes et puissantes (cluster computing, cloud computing). Ces outils informatiques permettent désormais la gestion de ces big data transversales à l’aide des réseaux neuronaux de l’intelligence artificielle(3). Figure 3. Les sources des données dans la recherche biomédicale, utilisées par l’intelligence artificielle. Dès lors, un nouveau paradigme de la recherche biomédicale a émergé. Traditionnellement, la recherche part d’une hypothèse formulée par le chercheur qui va établir une expérimentation, génératrice de données confortant ou infirmant l’hypothèse (figure 4). Figure 4. Modèle de la recherche biomédicale traditionnelle (A), et modèles « data-driven » utilisant l’intelligence artificielle (B). Désormais, c’est l’analyse du big data qui conduit à générer une hypothèse. À l’extrême, l’exploitation des données par un système d’IA peut générer une décision médicale, sans connaissance des interconnexions des données ni compréhension des mécanismes physiopathologiques sousjacents(3). On conçoit que cela puisse être perturbant pour un esprit cartésien formé à la recherche traditionnelle. Questions cliniques, réglementaires et éthiques Dans le cadre d’un algorithme explicite, la mise à disposition de simulateurs numériques permet de tester a priori l’impact de telle ou telle modification de l’algorithme sur son comportement décisionnel. Cela est régulièrement utilisé dans la mise au point des dispositifs de délivrance automatisée d’insuline, et permet de faire l’économie d’essais cliniques longs et coûteux. Dans le cadre d’un algorithme implicite, on peut examiner l’impact du changement d’une métadata (âge, genre, antécédents, etc.) sur la décision proposée par l’algorithme. Il est essentiel d’anticiper les conséquences de l’apprentissage sur la décision de l’IA, sa pertinence médicale, mais aussi son équité. C’est ainsi que la prise en compte de certaines métadata sensibles (comme l’ethnie) peut aboutir à des effets pervers (exemple d’un algorithme d’évaluation médico-économique qui, aux USA, avait abouti à un surcoût systématique pour une personne noire)(4). On recommande ainsi que les algorithmes soient co-construits par des ingénieurs et des médecins, et que leur validation fasse appel à des tests d’échantillonnages utilisant des données distinctes des données d’apprentissage d’origine. C’est tout l’enjeu de l’implémentation en Europe et en France (Health Data Hub) de bases de données médicales qui soient propres à notre population. Enfin la reproductibilité des systèmes d’IA en médecine voudrait que leur performance soit validée par plusieurs jeux de données ; or, à ce jour ce n’est le cas que dans moins de 20 % des publications. De même, la comparaison des résultats obtenus par machine learning avec les performances de professionnels de santé n’a été rapportée que dans une très faible minorité des publications actuelles sur l’IA. Deux métaanalyses récentes ont montré que la plupart des publications sur l’IA implicite ne répondaient pas à des critères élémentaires de qualité méthodologique, avec notamment peu de travaux comparant les performances de l’IA avec celles de professionnels de santé, et seulement deux essais randomisés publiés et neuf études prospectives(5,6). Ainsi, si plusieurs études rétrospectives ont montré une grande performance diagnostique de l’approche en réseaux neuronaux pour la rétinopathie diabétique, les essais prospectifs n’ont pas montré une si grande pertinence jusqu’à présent(7). Pour cette raison, des recommandations pour la recherche clinique en IA viennent d’être publiées(8-10). Les réalisations Les applications de l’IA en diabétologie portent sur plusieurs axes thématiques : le dépistage et le diagnostic – la prédiction du risque et la médecine personnalisée – l’aide à la décision thérapeutique(2). Dépistage de la rétinopathie diabétique Un des articles les plus influents a été la première validation d’un algorithme de deep learning pour la détection automatisée de la rétinopathie diabétique et de l’œdème maculaire à partir de photographies du fond d’œil. Le réseau neuronal a suivi un apprentissage à partir d’un jeu de données de près de 130 000 images, labellisées 3 à 7 fois par un panel de 54 ophtalmologistes. L’algorithme résultant a ensuite été validé sur deux nouveaux jeux de données (environ 10 000 et 2 000 images, labellisées par 7 ophtalmologistes)(11). Cette étude a montré une excellente sensibilité (87 à 97 %) et spécificité (93 à 98 %). Une étude plus récente s’est appuyée sur un large jeu de données longitudinales acquis dans un programme de dépistage de la rétinopathie. L’objectif de l’étude était de prédire le développement d’une rétinopathie modérée ou sévère chez des patients indemnes au départ. La validation a été faite sur des jeux de données indépendants provenant de deux pays très distincts (USA et Thaïlande). L’étude a montré que l’IA pourrait permettre de stratifier le risque de rétinopathie de façon très pertinente, ce qui aboutirait à une stratégie de dépistage rythmé et adapté au risque(12). Nous citons une troisième étude montrant que l’œdème maculaire peut être prédit sur des photographies 2D du fond d’œil, à l’aide d’un modèle entraîné avec des données d’OCT, étude dont le premier auteur, employé de Google Health, nouvel acteur de la recherche biomédicale à côté des autres GAFA, nous montre l’usage qui peut être fait des données générées par nos objets connectés(13). À ce jour, même si la FDA a approuvé dès 2018 l’usage de l’IA dans le dépistage de la rétinopathie diabétique, ces données très séduisantes attendent une validation prospective, dans la vraie vie, sur différentes populations. Autres applications de l’IA pour le dépistage des maladies métaboliques L’analyse des dossiers médicaux électroniques près de 600 000 grossesses par une application de deep learning a permis d’élaborer un modèle prédictif de diabète gestationnel très simple, reposant sur un auto-questionnaire de 9 questions, et plus performant que la traditionnelle HGPO(14). L’identification précoce de stéatohépatite non alcoolique (NAFLD) à partir d’un panel de biomarqueurs circulants, permettant d’éviter le recours à la biopsie hépatique, est désormais une réalité clinique(15). À partir des données des essais ACCORD et ALLHAT, il a été possible d’établir un modèle de machine learning permettant d’identifier le risque d’insuffisance cardiaque chez des patients avec diabète de type 2(16). Délivrance automatisée d’insuline L’insulinothérapie automatisée en boucle fermée est l’archétype d’une IA explicite s’appuyant sur une modélisation mathématique de la glycémie, cas des algorithmes de type MPC (model predictive control) qui sont majoritairement utilisés actuellement en clinique. Ce domaine a fait l’objet de nombreuses revues et nous n’y reviendrons pas. Certains systèmes font appel à une IA hybride avec des fonctionnalités d’autoapprentissage(17). Mais l’avenir de ces dispositifs fera très probablement une large place à l’IA implicite et au deep learning, avec une black box de réseaux neuronaux s’appuyant à la fois sur des données antérieures du patient lui-même ou des données générées dans des essais cliniques ou d’autres bases glycémiques. Les données disponibles, de simulation in silico, encore préliminaires, suggèrent une efficacité supérieure à celle des systèmes commercialisés(18). L’insulinothérapie en boucle ouverte, pour les patients réfractaires à la pompe à insuline, n’est pas en reste(19). Médecine personnalisée L’application post-hoc des techniques de machine learning aux données de l’étude ACCORD a permis d’identifier un sous-groupe de patients bénéficiant le plus du traitement intensif(20). Toutefois, les promesses du machine learning, qui permettraient la pratique d’une médecine de précision, se heurtent au principe de réalité, qui est celui de la variabilité interindividuelle de la réponse à un traitement, incompressible même en mettant en œuvre d’immenses bases de données d’apprentissage(21). C’est la raison pour laquelle, de façon pragmatique, certains mettent l’accent sur une médecine stratifiée, passant par l’identification de sous-groupes en fonction de leur réponse thérapeutique. C’est ainsi qu’une équipe suédoise, dans une approche data-driven de clustering hiérarchique conduite sur une cohorte de 20 000 patients, a proposé une nouvelle classification du diabète en cinq clusters à partir de six paramètres clinico-biologiques (âge au diagnostic, HbA1c, anticorps anti-GAD, fonction β-cellulaire [HOMA2-B] et insulinorésistance [HOMA2-R]) et en identifiant que certains de ces clusters présentaient un risque distinct vis-à-vis de la néphropathie et stéatose, ou vis-à-vis de la rétinopathie(22). L’hétérogénéité de la réponse individuelle aux différents traitements hypoglycémiants a fait l’objet de travaux intéressants à partir des bases de données du système de santé britannique, et à partir des données extraites de larges essais thérapeutiques (ADOPT et RECORD), dans une approche suggérant qu’il serait possible de personnaliser le choix du meilleur traitement antidiabétique à une échelle individuelle(23). Toutes ces publications sur la diabétologie personnalisée nous laissent toutefois sur notre faim, car leur valeur ajoutée par rapport au raisonnement du praticien semble faible. Cela pourrait tenir aux variables entrées dans les modèles, ne faisant pas suffisamment appel à de nouveaux marqueurs. Perspectives Les méthodes décrites dans ce manuscrit reposent sur des indicateurs cliniques (poids, âge, antécédents, traitements) et biologiques (glycémie, CGM, HbA1c) traditionnels. La littérature nous montre que de multiples nouveaux marqueurs vont enrichir les bases de données, qu’il s’agisse de nouveaux biomarqueurs, omics, gènes, etc., ou de marqueurs générés par les patients à l’aide de capteurs embarqués (smartphone, smartwatch, etc.). Ainsi, la constitution de bases de données alimentées par les patients eux-mêmes (patientreported observations) et collectées, soit via des applications dédiées (StuffThatWorks, Treato, RDMD, Babylon, Healthyly by Your.MD) selon le principe du crowdsourcing popularisé par Waze, soit via les réseaux sociaux (Twitter, Facebook, Instagram) est un domaine en pleine effervescence(24). Conclusion ◼ Le processus de formation professionnelle du diabétologue comprend de longue date un bagage en sciences fondamentales (biologie, physiologie, génétique, etc.). Plus récemment (et tardivement), le balancier est venu dans le champ des sciences humaines (éducation thérapeutique). ◼  Il appartient désormais au diabétologue honnête du XXe siècle d’appréhender de façon éclairée et critique l’apport extraordinaire de l’IA dans sa discipline, et d’y apporter sa sensibilité.

Attention, pour des raisons réglementaires ce site est réservé aux professionnels de santé.

pour voir la suite, inscrivez-vous gratuitement.

Si vous êtes déjà inscrit,
connectez vous :

Si vous n'êtes pas encore inscrit au site,
inscrivez-vous gratuitement :

publicité
publicité