Développer des références solides pour faire avancer l'innovation de l'IA dans les soins de santé

Nature Machine Intelligence volume 4, pages 916–921 (2022)Citer cet article

5730 accès

2 Citations

21 Altmétrique

Détails des métriques

Les technologies d'apprentissage automatique ont connu une application accrue dans le domaine de la santé. Les principaux moteurs sont des ensembles de données de santé librement disponibles et un intérêt général de la communauté à utiliser ses pouvoirs pour la découverte de connaissances et les avancées technologiques dans ce domaine plus conservateur. Cependant, ce volume supplémentaire s'accompagne d'une série de questions et de préoccupations - les résultats obtenus sont-ils significatifs et les conclusions exactes ; comment savons-nous que nous avons amélioré l'état de l'art ; le problème clinique est-il bien défini et le modèle y répond-il ? Nous réfléchissons aux aspects clés du pipeline de bout en bout qui, selon nous, souffrent le plus dans cet espace, et suggérons quelques bonnes pratiques pour éviter de reproduire ces problèmes.

Notre public cible est toute personne qui effectue des expériences d'analyse comparative sur l'apprentissage automatique (ML) dans le domaine de la santé et soumet ces résultats à des conférences ou à des revues ; et toute personne examinant ces sites. Par analyse comparative clinique, nous nous référons au suivi du processus combiné.

Choisir un problème dans l'espace des soins de santé.

Utiliser ou créer des ensembles de données d'accompagnement.

Développer une suite de modèles ML et leur infrastructure correspondante.

Évaluer ces modèles sur un ensemble de critères pour déterminer dans quelle mesure ils résolvent le problème initial.

Le problème de trouver une bonne référence est beaucoup plus présent dans le domaine de la santé car il n'y a pas assez d'alignement sur ce que cela constitue réellement1. Dans un cycle de recherche typique, lorsque le ML est appliqué pour la première fois à un nouveau domaine médical, il conduit à une publication qui mesure les performances du modèle et définit la barre pour ce problème. L'ensemble de données, la vérité terrain, les métriques ou le code ne sont pas toujours autant examinés que dans le ML traditionnel, car il y a beaucoup d'intérêt à voir ce que la nouvelle technologie peut réellement faire dans la pratique. Nous dirions que les documents d'analyse comparative devraient être encore plus examinés, car la variabilité des définitions, des configurations et de l'évaluation peut entraîner de nombreuses déformations des résultats, ainsi qu'une confusion pour les nouveaux venus dans le domaine sur la façon de comparer leur travail.

Dans les quatre sections suivantes, nous couvrons les domaines où, selon nous, se situent la plupart des écarts entre deux publications d'analyse comparative différentes : les ensembles de données, les outils et les pratiques, la formulation des problèmes et les résultats. À notre avis, de tels changements pourraient avoir un impact sur l'application clinique globale, car les progrès seraient beaucoup plus faciles à quantifier. Inspiré de la réf. 2, nous classons nos suggestions en trois catégories : nécessaires, recommandées et encouragées (Encadré 1–4). Chaque section s'appuie sur la précédente et est placée dans un seau donné en tenant compte d'un mélange de son impact et de sa difficulté de mise en œuvre. Même si certains pourraient ne pas être entièrement d'accord avec la catégorisation, nous nous attendons à entamer une conversation autour de ces sujets qui verra des changements dans le domaine.

Il existe des travaux dans ce domaine visant soit à définir des normes de rapport (par exemple STARD-AI3, TRIPOD-AI4) soit à spécifier les meilleures pratiques en matière de développement de modèles et de rapports techniques5. Ces deux orientations encouragent l'inclusion de détails supplémentaires dans les travaux finaux pour réduire l'incertitude quant aux méthodes employées. Nous pensons que notre travail s'appuie sur ces travaux et les prolonge, en examinant le pipeline de bout en bout et en abordant des sujets moins explorés tels que les outils et l'infrastructure.

Il est difficile d'obtenir des ensembles de données de santé volumineux, de haute qualité, diversifiés et bien documentés, car le partage de données n'est pas la norme en ML pour la recherche en santé6. Premièrement, les ensembles de données de santé contiennent des informations extrêmement sensibles et sont donc strictement réglementés, des recherches récentes cherchant à comprendre l'attitude des patients à l'égard du partage de données de santé7,8. C'est pourquoi ces ensembles de données sont généralement anonymisés avant la diffusion publique, un processus qui implique la suppression du nom du patient, du numéro d'identification, de la date et du lieu de la collecte des données. Même ainsi, il a été récemment démontré que l'imagerie par résonance magnétique (IRM) anonymisée ou les données de tomodensitométrie peuvent être utilisées pour reconstruire le visage d'un patient9, ce qui soulève la question de savoir si les normes actuelles d'anonymisation sont suffisantes pour une diffusion publique sûre des données. Deuxièmement, la collecte, la maintenance et la conservation de ces ensembles de données nécessitent des efforts, du temps et des dépenses considérables. De plus, les ensembles de données sont considérés comme un avantage commercial concurrentiel, avec des cas où des entreprises se forment autour de l'utilisation exclusive d'un seul. Par conséquent, ils ont tendance à avoir une valeur commerciale substantielle, ce qui rend moins attrayant pour les collecteurs de données de partager librement leur travail. Cependant, pour élargir l'impact de la publication de recherches sur des ensembles de données non publics et encourager la reproductibilité, les conservateurs de données pourraient mettre en place une infrastructure permettant à la communauté de développer des modèles en utilisant des techniques de ML préservant la vie privée telles que l'apprentissage fédéré10,11,12. Dans ce cadre, le responsable du traitement définit ses propres processus de gouvernance, les politiques de confidentialité associées et les stratégies de gestion des accès, tant en phase de formation qu'en phase de validation. Cela déverrouille l'exploration des ensembles de données sur la santé par des chercheurs externes tout en préservant la confidentialité des données, accélérant ainsi les progrès. Nous reconnaissons cependant qu'il y a une courbe d'apprentissage abrupte dans la mise en place de cela, et il est difficile de faire confiance à de tels systèmes étant donné que ces méthodes sont relativement nouvelles. Il pourrait alors être préférable, au début, que les conservateurs de données travaillent avec des data scientists externes agréés. Un autre domaine prometteur pour conserver la valeur commerciale est le traçage lorsqu'un membre d'un ensemble de données est utilisé pour former un modèle. Des exemples de ceci incluent des travaux récents sur le « filigranage » d'un ensemble de données donné pour faciliter l'identification des modèles formés sur celui-ci13, ou des techniques telles que l'inférence d'appartenance14. Nous avertissons que ce champ n'est pas encore établi, il faut donc faire attention si vous empruntez cette voie.

La faible disponibilité des ensembles de données de santé publique oblige souvent la communauté à se rassembler autour d'un ou deux qui sont accessibles, se concentrant ainsi trop sur quelques applications. Par exemple, les ensembles de données de dossiers de santé électroniques couramment utilisés tels que la série MIMIC-X15,16,17 contiennent principalement des données sur les unités de soins intensifs, qui sont fréquemment enregistrées mais ne représentent qu'une fraction de la population de patients admis dans les hôpitaux. De plus, MIMIC-X est organisé à partir d'un seul site et est donc moins susceptible de produire des modèles ML équitables et inclusifs. En tant que tels, les modèles développés sur ces ensembles de données ne peuvent pas nécessairement se généraliser à d'autres services ou trouver des applications à l'échelle de l'hôpital. Une caractérisation approfondie des données est nécessaire pour que les chercheurs et développeurs externes évaluent la qualité des données et décident si les méthodologies proposées dans le document peuvent être étendues à leur cas d'utilisation. Cela peut également aider à identifier les biais démographiques indésirables (par exemple, une distribution asymétrique pour l'âge, le sexe, le statut socio-économique). Cette caractérisation des données peut être réalisée par une ventilation des différentes caractéristiques à l'intérieur de l'ensemble de données (officieusement appelées les données du tableau 118) ; nous offrons plus de suggestions sur la façon d'y parvenir dans la section « Nécessaire » de l'encadré 1.

Un autre exemple est qu'en 2020-2021, divers articles ont formé des modèles sur des ensembles de données contenant des radiographies pulmonaires pour la modélisation COVID-19, où les images de patients pédiatriques représentaient le groupe témoin. Cependant, ces modèles sont susceptibles de surperformer car ils ne font que détecter les enfants par rapport aux adultes et sont intrinsèquement biaisés19. La simple disponibilité de cet ensemble de données pendant les premiers jours de la pandémie de COVID-19 a amené la communauté à surindexer sans examiner attentivement si cela était approprié ou non pour leur question de recherche. De tels cas pourraient être évités si les ensembles de données étaient accompagnés d'un artefact de transparence (par exemple Healthsheet20) avec le papier. Le questionnaire Healthsheet, par exemple, contient des questions spécifiques sur différents aspects d'un ensemble de données tels que le processus de collecte, la composition, la distribution, le nettoyage et les cas d'utilisation recommandés. De tels artefacts améliorent considérablement la transparence et la responsabilité des ensembles de données et des conservateurs de données, et mettent en évidence des déséquilibres techniques (par exemple, un protocole d'acquisition inapproprié, un fabricant d'équipement), qui peuvent nuire aux prédictions du modèle. Nous réalisons que la création d'un artefact supplémentaire avec leur manuscrit prend du temps, étant donné que les chercheurs travaillent souvent dans des délais serrés. Pour gérer la charge de travail, les chercheurs peuvent choisir de partager ces artefacts après leur soumission.

Nécessaire

Fournissez une description détaillée de la provenance, des caractéristiques démographiques et du contenu de l'ensemble de données (par exemple, les données du tableau 1).

Appliquer et inclure des analyses de données exploratoires numériques (par exemple, moyenne, variance, min, max et corrélation) et/ou graphiques (par exemple, nuage de points, histogramme, carte thermique et réduction de la dimensionnalité) dans le travail final.

Incluez des détails sur la façon dont la qualité de l'ensemble de données a été vérifiée en décrivant les caractéristiques manquantes, les données déséquilibrées, les instances en double, le biais d'échantillonnage et d'autres problèmes spécifiques à l'ensemble de données.

Recommandé

Libérez un artefact de transparence en utilisant des modèles de questionnaire standardisés (par exemple, Healthsheet20) avec le papier.

Recommandé (ensembles de données privés uniquement)

Utilisez une infrastructure robuste développée par des organisations à but non lucratif telles que Openmined21 pour héberger et gérer des ensembles de données sur la santé.

L'infrastructure est l'un des aspects les plus invisibles et dont on parle le moins de la recherche en ML. Nous utilisons le terme infrastructure pour désigner la conception d'un système, ainsi que le code sous-jacent qui le constitue, y compris l'environnement dans lequel il s'exécute et les bibliothèques de logiciels utilisées. Bien qu'il soit souvent considéré comme peu glamour, il est absolument nécessaire et peut faire ou défaire la qualité et la reproductibilité du résultat.

Alors que le rôle des bonnes pratiques de codage et de conception de système a déjà été exploré pour les configurations de production ou de déploiement21, les descriptions détaillées des bibliothèques ou des pipelines utilisés pour une publication font toujours défaut. Ceci est particulièrement important dans le domaine de la santé, car toute découverte percutante est rapidement reprise par les médias et diffusée comme vérité de terrain, ou utilisée par d'autres chercheurs comme base pour de futures explorations. En parcourant la base de données de rétractation des articles récents sur le ML dans les soins de santé qui contenaient des erreurs, nous pouvons trouver des exemples troublants tels que "un prédicteur exceptionnel de la maladie de Parkinson" qui, selon les auteurs, "a le potentiel de révolutionner le diagnostic de la MP et sa gestion". Lors d'une inspection ultérieure, il s'est avéré qu'il présentait des erreurs dans les données, des erreurs dans les méthodes, des erreurs dans les résultats et des erreurs dans les analyses. Tous ces éléments pourraient être détectés plus tôt dans le processus d'examen si une section détaillée sur «l'infrastructure utilisée» soulevait des signaux d'alarme. Nous aimerions encourager les auteurs à décrire plus en détail leur mise en œuvre et la conception de leur système. Ajouter un diagramme détaillé de leur pipeline de modélisation ou inclure des descriptions rigoureuses des modules de traitement de données, tels que des outils de cartographie qui auraient pu être développés, sont quelques exemples de ce que nous nous attendrions à voir. Il s'agit d'une proposition légère et devrait être assez simple à adopter, avec seulement une petite surcharge pour les auteurs.

Pour appliquer cela plus largement, nous aimerions encourager les conférences à ajouter un « Comment cette mise en œuvre a-t-elle été vérifiée ? section pour les soumissions. Les auteurs seront tenus de décrire les mesures qu'ils ont prises pour garantir l'exactitude de leur travail. Le cas échéant, les révisions de code sont un excellent moyen de vérifier l'intégrité de tout travail, et bien qu'elles ne soient pas infaillibles, elles peuvent toujours aider à détecter les problèmes avant qu'il ne soit trop tard. De plus, nous voulons plaider pour l'ajout de tests unitaires et la vérification de la couverture du code. Outre le bénéfice immédiat de valider le comportement attendu, il est beaucoup plus rapide de comprendre un morceau de code en regardant comment il est utilisé en pratique, et les tests permettent d'en avoir un aperçu. Bien que nos recommandations reposent fortement sur le codage, nous reconnaissons que certaines techniques réutilisent les implémentations existantes. D'autres méthodes de test, telles que la vérification d'une performance correspondant à l'œuvre originale, seraient également couvertes. Alors que l'ajout de cette section introduit une surcharge pour les examinateurs et les auteurs, il contribue à l'objectif global de reproductibilité et propage les bonnes pratiques dans toute la communauté.

Même ainsi, il faut du temps et des ressources pour enquêter sur l'exactitude des conclusions rapportées une fois qu'elles ont été rendues publiques, et cela implique souvent de reconstruire l'ensemble de la configuration du journal à partir de zéro. Pour faciliter cela, les conférences et les revues ont commencé à inclure une section sur la disponibilité du code, encourageant les chercheurs à ouvrir leurs travaux. C'est un grand pas en avant, et même s'il n'est pas encore largement adopté, l'importance de la publication du code est acceptée par la communauté des chercheurs. Par exemple, la conférence Machine Learning for Health (ML4H) recueille des statistiques sur le nombre de soumissions dont le code sera publié. En 2020, seulement 66% des soumissions ont indiqué qu'elles le feraient. Ce nombre est passé en 2021 à 73 %.

Nous pensons qu'en plus de cela, les conférences devraient demander une section supplémentaire appelée "Environnement expérimental", qui ne devrait pas être prise en compte dans la limite de pages. Il s'agirait d'un sur-ensemble de la case à cocher "Disponibilité du code", obligeant les auteurs à répertorier également toutes les bibliothèques accessibles au public utilisées et leur version. Nous pensons que cela est important car la familiarité avec les outils utilisés est un facteur important de fiabilité. Nous comprenons que cela pourrait être une tâche fastidieuse au début, d'autant plus que les projets grandissent et qu'il pourrait y avoir des dizaines, voire des centaines de bibliothèques utilisées, mais sans cela, il n'y a pas de véritable reproductibilité.

Surtout, l'open source du code reste le moyen le plus transparent pour la communauté de vérifier les résultats. Ceci est renforcé s'il est publié avec un script pour exécuter le code, et des données réelles ou synthétiques selon les possibilités. Dans le cas de données synthétiques, nous renvoyons également à la section sur les ensembles de données pour d'autres recommandations.

Nécessaire

Ajoutez une section de mise en œuvre dans le document principal ou dans l'annexe.

Ajoutez un "Comment cette mise en œuvre a-t-elle été vérifiée ?" section pour les soumissions.

Recommandé

Ajoutez une section "Environnement expérimental" dans les travaux finaux, qui ne devrait pas compter dans la limite de pages.

Encouragé

Fournissez des liens vers le code open source et les moyens de l'exécuter.

Nous nous concentrons sur les problèmes cliniques qui ont été posés comme des problèmes de prédiction supervisée, car ceux-ci constituent la majorité de la littérature sur le ML pour les soins de santé.

L'étape la plus importante de l'apprentissage supervisé dans le domaine de la santé consiste à décider quelles étiquettes cliniques prédire. Les erreurs ou les biais dans l'étiquetage sont courants dans le ML et peuvent conduire à des modèles de qualité inférieure. Il a été estimé que les ensembles de tests d'ensembles de données populaires contiennent au moins 3,3 % d'erreurs d'étiquetage en moyenne22. La correction de ces étiquettes permet aux modèles à faible capacité de surpasser les modèles de pointe couramment signalés.

L'annotation correcte des instances dans les ensembles de données de soins de santé dépend généralement des connaissances spécialisées des professionnels de la santé. Les étiquettes sont généralement soit entièrement définies par les cliniciens, soit générées de manière semi-autonome à l'aide de méthodes basées sur des règles intégrant des conseils cliniques. Parmi les premiers exemples figurent la classification de la peau à partir de l'imagerie dermatologique23, la détection des lésions mammaires dans les mammographies24, la recommandation de référence en tomographie par cohérence optique25, la segmentation des ganglions lymphatiques sur l'IRM multiparamétrique26 et la détection des crises à l'aide des données EEG27. Les étiquettes guidées par des experts impliquent généralement le développement d'un ensemble de règles pour identifier certaines conditions et l'utilisation de l'ensemble de règles pour annoter l'ensemble de données complet. Les exemples incluent la prédiction d'événements indésirables ou d'interventions dans les données des dossiers de santé électroniques telles que les lésions rénales aiguës28, la ventilation mécanique29, les ordonnances de médicaments30 et la thérapie de remplacement rénal continu31. Dans les deux cas, les étiquettes refléteraient étroitement le flux de travail d'un clinicien, l'objectif de l'étiquetage étant de documenter le processus dans lequel les professionnels de la santé prennent des décisions. Nous encourageons donc fortement l'utilisation ou l'amélioration des labels existants tels que ceux de la Phenotype KnowledgeBase32.

Pour les étiquettes définies par des experts, il est impératif qu'une description détaillée du processus d'étiquetage utilisé soit incluse dans le document. Notez que même lorsque les étiquettes sont entièrement définies par des experts, il peut y avoir une variabilité entre les professionnels de la santé sur l'annotation d'une instance. Les chercheurs doivent signaler si un seul clinicien/expert ou un comité d'experts a étiqueté les instances, et si ce dernier rapporte alors l'accord inter-juges. Pour faire preuve de minutie, les auteurs doivent indiquer le temps moyen qu'il a fallu pour annoter chaque instance. Les chercheurs peuvent également fournir une référence en partageant les performances au niveau humain. Notez que ces suggestions ne sont pas exhaustives et sont incluses pour guider les chercheurs. Ce rapport saisira la subjectivité de l'étiquetage parmi les évaluateurs et donnera une idée de la robustesse et de la fiabilité du processus d'étiquetage. Il définit également une barre pour la manière dont les études ultérieures devraient aborder l'étiquetage pour d'autres tâches définies sur cet ensemble de données.

Dans le cas d'étiquettes basées sur des règles ou guidées par des experts, un processus robuste est nécessaire pour les valider, car elles contiennent souvent des anomalies dans des cas individuels et/ou souffrent de fuites d'étiquettes. Nous suggérons d'effectuer une analyse de la distribution pour chaque étiquette, y compris les données démographiques des patients pour les cohortes correspondant à chaque classe d'étiquettes, le nombre d'étiquettes par sujet ou instance, et les statistiques de distribution (moyenne, médiane, centiles, variance). En outre, pour les étiquettes continues dans les données temporelles, la distribution du temps d'apparition de l'étiquette et la distribution de la durée de l'étiquette doivent également être signalées. Ceux-ci doivent être recoupés avec des cliniciens experts pour détecter toute anomalie dans la distribution des étiquettes.

Nous suggérons également que les chercheurs étudient s'il existe une fuite potentielle d'étiquettes dans la formulation de leur problème. Cela conduit généralement à de fausses performances élevées et nécessite une connaissance du domaine pour l'identifier et le résoudre. Une fuite d'étiquettes peut se produire pour diverses raisons lorsque des données provenant de l'ensemble de validation ou de test ont fui dans l'ensemble d'apprentissage. Ce problème peut être résolu relativement facilement en vérifiant si les mêmes instances existent dans plusieurs divisions et s'il y a une duplication d'instances, et en s'assurant que l'ensemble de test en aveugle reste verrouillé jusqu'à ce que les résultats finaux soient calculés pour être inclus dans l'article. Une fuite d'étiquette peut également se produire lorsque certaines caractéristiques opérationnelles ou d'observation révèlent de manière indésirable l'état d'une étiquette. Les chercheurs doivent effectuer une analyse de l'importance des caractéristiques pour inspecter les relations suspectes33. Si elles sont identifiées, ces caractéristiques doivent être examinées avec les cliniciens pour déterminer si elles sont effectivement une indication indésirable de la vérité de terrain.

Idéalement, cela devrait être combiné dans un cadre de qualité d'étiquette à plusieurs étapes composé d'une inspection manuelle des caractéristiques, de statistiques d'étiquette et d'examens de cas. Une approche méthodique permet aux chercheurs d'assurer la cohérence tout au long du processus. Cette approche, bien que chronophage, si elle est open source, peut être adaptée par la communauté sur d'autres tâches sur le même jeu de données, voire sur des jeux de données d'autres domaines, réduisant la charge de travail à long terme.

Étiquettes définies par des experts

Nécessaire

Ajoutez une description détaillée du processus d'étiquetage utilisé dans l'article.

Étiquettes guidées par des experts

Nécessaire

Ajouter une section « Analyse des étiquettes » dans le document principal.

Enquêtez sur les « fuites d'étiquettes » dans les données et incluez les résultats dans l'annexe ou des informations supplémentaires.

Recommandé

Mettre en œuvre un cadre de qualité des étiquettes à plusieurs étapes consistant en une inspection manuelle des caractéristiques, des statistiques sur les étiquettes et des examens de cas.

L'étude et la comparaison des résultats des modèles deviennent une étape décisive, car le but ultime de la plupart des recherches sur les soins de santé est d'aider la pratique clinique dans une certaine mesure. Pour que cela se produise, nous devons avoir la certitude que le modèle ne causera aucun dommage, soit en aggravant la situation actuelle, soit en introduisant de nouveaux problèmes. De plus, plus une méthode proposée est éloignée de la pratique clinique, plus nous avons besoin de preuves qu'elle fonctionne réellement.

Un domaine en plein essor s'est penché sur l'évaluation de l'équité et de la robustesse du ML dans les soins de santé, et un certain nombre de travaux ont plaidé en faveur de l'inclusion de davantage de mesures d'équité dans les modèles de rapport. Une façon d'y parvenir serait d'utiliser des outils d'évaluation de modèles tels que TensorFlow Model Analysis. En plus d'ajouter une couche de cohérence en matière d'analyse, ces outils ont l'avantage supplémentaire de fournir des API (interfaces de programmation d'applications) pour les mesures d'équité. En utilisant et en rapportant ces résultats, il peut devenir courant de regarder au-delà des performances de l'ensemble de tests complet. Le rapport complet d'un large ensemble de mesures permettra de remettre en question et de comprendre différents aspects du modèle. Par exemple, il est essentiel d'examiner le déséquilibre de classe et de présenter des mesures basées sur l'asymétrie de l'étiquette (par exemple, signaler la zone sous la courbe précision-rappel à côté de la zone sous la caractéristique de fonctionnement du récepteur), ainsi que d'inclure des mesures cliniquement pertinentes telles que la sensibilité et la spécificité34.

En ce qui concerne l'équité et la robustesse, quelques problèmes clés continuent de surgir : (1) les performances diffèrent d'un sous-groupe à l'autre ; (2) les modèles aux performances similaires se comportent différemment de manière inattendue lorsqu'il y a un changement par rapport à la distribution de formation. Des travaux récents ont montré que les techniques d'atténuation générales développées pour certains problèmes d'équité ne se traduisent pas aussi bien lorsqu'il s'agit d'applications de soins de santé35. Avec la réf. 36, il présente un certain nombre de tests de résistance qui ont été effectués au cours de l'étude du modèle, qui, selon nous, devraient être effectués dans le cadre de la routine habituelle d'analyse comparative pour faire émerger de tels problèmes avant qu'il ne soit trop tard. Une étude comparative populaire sur MIMIC-III1 a récemment révélé des problèmes d'équité et de généralisabilité37. Nous voulons donc souligner l'importance pour la communauté de se familiariser avec les performances du modèle dans différents contextes et d'inclure des tests de résistance. Les améliorations futures pourraient alors non seulement cibler les performances du modèle de base sur l'ensemble d'entraînement, mais également voir quelle technique est la plus résiliente face à des contextes réels.

Outre l'examen des métriques et des tableaux, les visualisations peuvent également aider à étudier les performances du modèle. Quelques suggestions seraient des atlas d'activation38, des cartes thermiques d'attention39, un grand tour40, des gradients intégrés41 ou des vecteurs d'activation de concept42. Ceux-ci peuvent aider à identifier ce que le modèle apprend et aider à tester ces techniques dans différents contextes, fournissant des données précieuses pour de futures directions de recherche. Nous voulons reconnaître que, dans les domaines de l'explicabilité et de l'interprétabilité des modèles, les résultats peuvent être mal interprétés43,44, et exhortons les chercheurs à se familiariser avec les différentes techniques et leurs modes d'échec pour éviter les abus.

Enfin, nous sommes conscients qu'il reste toujours plus de travail à faire lors de la finalisation d'un document de recherche. Le plus souvent, il y a des expériences persistantes que les auteurs voulaient réaliser, mais n'ont pas pu en raison de diverses contraintes. Bien que certaines soient répertoriées dans les sections sur les limitations, elles concernent généralement la poursuite des expériences déjà mentionnées. Nous pensons que demander aux auteurs d'écrire davantage des expériences précises qui ont été omises peut aider à la fois à développer ce travail et à faire connaître les tests clés.

Nécessaire

Incluez des mesures d'équité, des scores d'étalonnage et des métriques dépendantes de l'étiquette lors de l'évaluation du modèle.

Incluez des comparaisons avec des modèles de référence et ajustez le compromis biais-variance en fonction de la complexité du modèle.

Recommandé

Effectuez une analyse des défaillances - identifiez les cas où le modèle échoue et étudiez leurs points communs. Nous recommandons des méthodes telles que le cadre «d'audit algorithmique médical» pour l'analyse structurée des défaillances45.

Encouragé

Inclure des descriptions détaillées des expériences qui doivent être faites, mais qui n'ont pas été réalisées.

Ajoutez des visualisations de modèles à la recherche résultante.

Alors que des modèles ML innovants ont été développés pour les soins de santé, très peu d'entre eux trouvent une application dans le monde réel46,45. Des enquêtes récentes sur les outils cliniques basés sur le ML ont montré que des modèles bien validés, réalisant de bonnes performances au stade du développement, peuvent ne pas montrer de bénéfice clinique pour les patients par rapport aux soins de routine47.

Nous reconnaissons que le déploiement du ML dans les soins de santé pour les chercheurs est difficile, car les obstacles à la mise en œuvre comprennent la réglementation, les incitations, le manque d'appréciation et les problèmes de généralisabilité, pour n'en nommer que quelques-uns. De plus, les études de validation prospectives nécessitent du temps et de l'argent, ce qui peut représenter un défi de taille. Dans ces circonstances, les articles qui vont plus loin47,48 et montrent une certaine forme d'études de validation doivent être positivement distingués.

Les articles étudiant l'efficacité clinique des outils d'apprentissage automatique doivent être rigoureux dans leurs rapports sur divers aspects de l'étude, y compris, mais sans s'y limiter, le cadre de l'étude, les critères d'inclusion, l'interaction homme-algorithme et ses effets en aval, les méthodes d'apprentissage continu et, surtout, une comparaison avec la pratique clinique existante. Pour améliorer la qualité des rapports, nous recommandons aux auteurs de suivre des directives validées telles que des listes de contrôle publiées par les groupes de pilotage CONSORT-AI et SPIRIT-AI45,49.

Alors que les documents de référence actuels se concentrent davantage sur la création d'une référence en science des données en amont pour la recherche clinique en soins de santé, nous croyons fermement que l'avenir de la recherche appliquée en soins de santé mettra beaucoup plus l'accent sur l'aspect du déploiement clinique, à mesure que le domaine passe de la théorie à la pratique et que l'éventail des défis qui y sont associés est exploré plus en profondeur50,51.

Harutyunyan, H., Khachatrian, H., Kale, DC, Ver Steeg, G. & Galstyan, A. Apprentissage multitâche et analyse comparative avec des données de séries chronologiques cliniques. Sci. Données 6, 96 (2019).

Article Google Scholar

Heil, B. et al. Normes de reproductibilité pour l'apprentissage automatique dans les sciences de la vie. Nat. Méthodes 18, 1132–1135 (2021).

Viknesh, S. et al. Élaboration de lignes directrices spécifiques pour les rapports sur les études de précision diagnostique évaluant les interventions d'IA : le groupe de pilotage STARD-AI. Nat. Méd. 26, 807–808 (2020).

Collins, GS et al. Protocole pour l'élaboration d'une ligne directrice de déclaration (TRIPOD-AI) et d'un outil de risque de biais (PROBAST-AI) pour les études de modèles de prédiction diagnostiques et pronostiques basés sur l'intelligence artificielle. BMJ Ouvert 11, e048008 (2021).

Kakarmath, S. et al. Meilleures pratiques pour les auteurs de manuscrits sur l'intelligence artificielle liés aux soins de santé. npj Chiffre. Méd. 3, 134 (2020).

Hulsen, T. Partager, c'est bienveillance—initiatives de partage de données dans le domaine de la santé. Int. J. Environ. Rés. Santé publique 17, 3046 (2020).

Article Google Scholar

Atkin, C. et al. Perceptions de l'utilisation des données anonymisées et sensibilisation à l'opt-out des données du NHS parmi les patients, les soignants et le personnel de santé. Rés. Impliqué Engagem. 7, 40 (2021).

Chico, V., Hunn, A. & Taylor, M. Opinions publiques sur le partage de données anonymisées au niveau des patients lorsqu'il existe un avantage mixte public et privé (Univ. Melbourne, 2019).

Schwarz, CG et al. Identification des participants anonymes à la recherche IRM avec un logiciel de reconnaissance faciale. Nouvel angl. J. Med. 381, 1684-1686 (2019).

Rieke, N. et al. L'avenir de la santé numérique avec l'apprentissage fédéré. npj Chiffre. Méd. 3, 119 (2020).

Kaissis, G. et al. Confidentialité de bout en bout préservant l'apprentissage en profondeur sur l'imagerie médicale multi-institutionnelle. Nat. Mach. Renseignement. 3, 473–484 (2021).

Ngong, I. Maintien de la confidentialité des données médicales avec une confidentialité différentielle. Blog OpenMined https://blog.openmined.org/maintaining-privacy-in-medical-data-with-differential-privacy/ (2020).

Sablayrolles, A., Douze, M., Schmid, C. & Jegou, H. Données radioactives : tracer par la formation. Proc. Mach. Apprentissage Rés. 119, 8326–8335 (2020).

Sablayrolles, A., Douze, M., Schmid, C., Ollivier, Y. & Jegou, H. White-box vs black-box : stratégies optimales de Bayes pour l'inférence d'appartenance. Proc. Mach. Apprentissage Rés. 97, 5558–5567 (2019).

Johnson, A. et al. MIMIC-IV (version 1.0) PhysioNet https://doi.org/10.13026/s6n6-xd98 (2021).

Johnson, AEW et al. MIMIC-III, une base de données de soins intensifs librement accessible. Sci. Données 3, 160035 (2016).

Lee, J. et al. Base de données MIMIC-II en libre accès pour la recherche en soins intensifs. Conf. Proc. IEEE Eng. Méd. Biol. Soc. 2011, 8315–8318 (2011).

Hayes-Larson, E., Kezios, K., Mooney, S. & Lovasi, G. Qui est dans cette étude, de toute façon ? Lignes directrices pour un tableau utile 1. J. Clin. Épidémiol. 114, 125-132 (2019).

Roberts, M. et al. Pièges courants et recommandations pour l'utilisation de l'apprentissage automatique pour détecter et pronostiquer le COVID-19 à l'aide de radiographies thoraciques et de tomodensitogrammes. Nat. Mach. Renseignement. 3, 199-217 (2021).

Rostamzadeh, N. et al. Healthsheet : développement d'un artefact de transparence pour les ensembles de données de santé. En 2022, Conférence ACM sur l'équité, la responsabilité et la transparence 1943–1961 (Association for Computing Machinery, 2022).

Sculley, D. et al. Dette technique cachée dans les systèmes d'apprentissage automatique. Adv. Information neuronale. Processus. Syst. 28, 2503-2511 (2015).

Northcutt, C., Athalye, A. & Mueller, J. Les erreurs d'étiquetage généralisées dans les ensembles de tests déstabilisent les références d'apprentissage automatique. Dans 35th Conference on Neural Information Processing Systems (NeurIPS 2021) Track on Datasets and Benchmarks 1 (2021).

Esteva, A. et al. Classification au niveau dermatologique du cancer de la peau avec des réseaux de neurones profonds. Nature 542, 115-118 (2017).

Kooi, T. et al. Apprentissage profond à grande échelle pour la détection assistée par ordinateur des lésions mammographiques. Méd. Image anale. 35, 303-312 (2017).

De Fauw, J. et al. Apprentissage en profondeur cliniquement applicable pour le diagnostic et l'orientation des maladies rétiniennes. Nat. Méd. 24, 1342–1350 (2018).

Zhao, X. et al. Détection et segmentation entièrement automatisées basées sur l'apprentissage en profondeur des ganglions lymphatiques sur l'IRM multiparamétrique pour le cancer du rectum : une étude multicentrique. eBioMedicine 56, 102780 (2020).

Roy, S. et al. Évaluation des systèmes d'intelligence artificielle pour aider les neurologues avec des annotations rapides et précises des données d'électroencéphalographie du cuir chevelu. eBioMedicine 66, 103275 (2021).

Tomasev, N. et al. Une approche cliniquement applicable à la prédiction continue de futures lésions rénales aiguës. Nature 572, 116-119 (2019).

Wang, S. et al. MIMIC-Extract : un pipeline d'extraction, de prétraitement et de représentation de données pour MIMIC-III. Dans Proc. Conférence ACM sur la santé, l'inférence et l'apprentissage 222–235 (Association for Computing Machinery, 2020).

Rough, K. et al. Prédire les commandes de médicaments des patients hospitalisés à partir des données des dossiers de santé électroniques. Clin. Pharmacol. Là. 108, 145-154 (2020).

Roy, S. et al. Prédiction multitâche du dysfonctionnement d'organe dans l'unité de soins intensifs à l'aide d'un routage séquentiel de sous-réseaux. Confiture. Méd. Informer. Assoc. 28, 1936-1946 (2021).

Kirby, JC et al. PheKB : un catalogue et un flux de travail pour créer des algorithmes de phénotype électronique pour la transportabilité. Confiture. Méd. Informer. Assoc. 23, 1046-1052 (2016).

Kaufman, S., Rosset, S., Perlich, C. & Stitelman, O. Fuites dans l'exploration de données : formulation, détection et évitement. ACM Trans. Savoir. Découvert. Données 6, 15 (2012).

Hicks, SA et al. Sur les métriques d'évaluation des applications médicales de l'intelligence artificielle. Sci. Rep. 12, 12 (2022).

Schrouff, J. et al. Maintenir l'équité tout au long du changement de distribution : avons-nous des solutions viables pour les applications du monde réel ? Préimpression sur arXiv https://arxiv.org/abs/2202.01034 (2022).

D'Amour, A. et al. La sous-spécification présente des défis pour la crédibilité dans l'apprentissage automatique moderne. Journal of Machine Learning Research 23, 1–61 (2022).

Röösli, E., Bozkurt, S. & Hernandez-Boussard, T. Jetant un coup d'œil dans une boîte noire, l'équité et la généralisabilité d'un modèle d'analyse comparative MIMIC-III. Sci. Données 9, 24 (2022).

Carter, S., Armstrong, Z., Schubert, L., Johnson, I. & Olah, C. Exploration des réseaux de neurones avec des atlas d'activation. Distiller https://distill.pub/2019/activation-atlas/ (2019).

Rocktäschel, T., Grefenstette, E., Hermann, KM, Kočiský, T. & Blunsom, P. Raisonnement sur l'implication avec l'attention neurale. Préimpression sur arXiv https://arxiv.org/abs/1509.06664 (2016).

Li, M., Zhao, Z. & Scheidegger, C. Visualisation des réseaux de neurones avec le grand tour. Distiller https://distill.pub/2020/grand-tour/ (2020).

Sundararajan, M., Taly, A. & Yan, Q. Attribution axiomatique pour les réseaux profonds. Actes de la 34e Conférence internationale sur l'apprentissage automatique, PMLR https://doi.org/10.48550/arXiv.1703.01365 (2017).

Mincu, D. et al. Explications du modèle basé sur le concept pour les dossiers de santé électroniques. Dans Proc. Conférence sur la santé, l'inférence et l'apprentissage 36–46 (Association for Computing Machinery, 2021).

Adebayo, J. et al. Sanity vérifie les cartes de saillance. Dans Actes de la 32e Conférence internationale sur les systèmes de traitement de l'information neuronale (2018).

Arun, N. et al. Évaluation de la fiabilité des cartes de saillance pour la localisation d'anomalies en imagerie médicale. Radiol. Artef. Renseignement. 3, e200267 (2021).

Liu, X. et al. Des lignes directrices sur les rapports d'essais cliniques évaluant les interventions d'intelligence artificielle sont nécessaires. Nat. Méd. 25, 1467-1468 (2019).

Lu, C. et al. Déployer l'apprentissage automatique clinique ? Considérer ce qui suit…. Préimpression sur arXiv https://arxiv.org/abs/2109.06919 (2021).

Zhou, Q., Chen, ZH, Cao, YH et Peng, S. Impact clinique et qualité des essais contrôlés randomisés impliquant des interventions évaluant les outils de prédiction de l'intelligence artificielle : une revue systématique. npj Chiffre. Méd. 4, 12 (2021).

Biswal, S. et al. SLEEPNET : système automatisé de stadification du sommeil via le deep learning. Préimpression sur arXiv https://arxiv.org/abs/1707.08262 (2017).

Liu, X. et al. Lignes directrices pour les rapports d'essais cliniques pour les interventions impliquant l'intelligence artificielle : l'extension CONSORT-AI. Nat. Méd. 26, 1364-1374 (2020).

Ryffel, T. et al. Un cadre générique pour l'apprentissage en profondeur préservant la confidentialité. Préimpression sur arXiv https://arxiv.org/abs/1811.04017 (2018).

Liu, X., Glocker, B., McCradden, MM, Ghassemi, M., Denniston, AK et Oakden-Rayner, L. L'audit algorithmique médical. Chiffre Lancette. Santé 4, e384–e397 (2022).

Article Google Scholar

Télécharger les références

Nous remercions les cliniciens qui ont offert leur aide et leurs opinions lors de la révision de cet article : L. Hartsell et M. Seneviratne. Nous remercions également nos collègues et collaborateurs, N. Tomasev, K. Heller, J. Schrouff, N. Rostamzadeh, C. Ghate, L. Proleev, L. Hartsel, N. Broestl, G. Flores et S. Pfohl, pour leur aide et leur soutien dans la révision et le bêta-test de nos avis.

Recherche Google, Londres, Royaume-Uni

Diana Mincu et Subhrajit Roy

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Correspondance à Diana Mincu ou Subhrajit Roy.

Les deux auteurs sont employés par Google UK.

Nature Machine Intelligence remercie les relecteurs anonymes pour leur contribution à la relecture par les pairs de ce travail.

Note de l'éditeur Springer Nature reste neutre en ce qui concerne les revendications juridictionnelles dans les cartes publiées et les affiliations institutionnelles.

Springer Nature ou son concédant (par exemple une société ou un autre partenaire) détient les droits exclusifs sur cet article en vertu d'un accord de publication avec le ou les auteurs ou autre(s) titulaire(s) des droits ; l'auto-archivage par l'auteur de la version manuscrite acceptée de cet article est uniquement régi par les termes de cet accord de publication et la loi applicable.

Réimpressions et autorisations

Mincu, D., Roy, S. Développer des références solides pour faire avancer l'innovation de l'IA dans les soins de santé. Nat Mach Intelligence 4, 916–921 (2022). https://doi.org/10.1038/s42256-022-00559-4

Télécharger la citation

Reçu : 01 juin 2022

Accepté : 07 octobre 2022

Publié: 15 novembre 2022

Date d'émission : novembre 2022

DOI : https://doi.org/10.1038/s42256-022-00559-4

Toute personne avec qui vous partagez le lien suivant pourra lire ce contenu :

Désolé, aucun lien partageable n'est actuellement disponible pour cet article.

Fourni par l'initiative de partage de contenu Springer Nature SharedIt