banner

Blog

Nov 08, 2023

L'impact des annotations humaines incohérentes sur la prise de décision clinique basée sur l'IA

npj Digital Medicine volume 6, Article number: 26 (2023) Citer cet article

2596 accès

18 Altmétrique

Détails des métriques

Dans le développement de modèles d'apprentissage supervisé, les experts du domaine sont souvent utilisés pour fournir les étiquettes de classe (annotations). Des incohérences d'annotation se produisent fréquemment lorsque même des experts cliniques très expérimentés annotent le même phénomène (par exemple, image médicale, diagnostic ou statut pronostique), en raison de biais d'experts inhérents, de jugements et de dérapages, entre autres facteurs. Bien que leur existence soit relativement bien connue, les implications de telles incohérences sont largement sous-étudiées dans des contextes réels, lorsque l'apprentissage supervisé est appliqué sur de telles données étiquetées « bruyantes ». Pour faire la lumière sur ces questions, nous avons mené des expériences et des analyses approfondies sur trois ensembles de données d'unités de soins intensifs (USI) du monde réel. Plus précisément, des modèles individuels ont été construits à partir d'un ensemble de données commun, annoté indépendamment par 11 consultants en soins intensifs de l'hôpital universitaire Queen Elizabeth de Glasgow, et les estimations de performance des modèles ont été comparées par validation interne (Fleiss' κ = 0,383, c'est-à-dire un accord équitable). En outre, une large validation externe (sur des ensembles de données statiques et chronologiques) de ces 11 classificateurs a été effectuée sur un ensemble de données externes HiRID, où les classifications des modèles se sont avérées avoir de faibles accords par paires (moyenne de Cohen κ = 0,255, c'est-à-dire un accord minimal). De plus, ils ont tendance à être plus en désaccord sur la prise de décisions de sortie (Fleiss' κ = 0,174) que sur la prédiction de la mortalité (Fleiss' κ = 0,267). Compte tenu de ces incohérences, d'autres analyses ont été menées pour évaluer les meilleures pratiques actuelles pour obtenir des modèles de référence et déterminer un consensus. Les résultats suggèrent que : (a) il n'y a peut-être pas toujours un « super expert » dans les contextes cliniques aigus (en utilisant les performances des modèles de validation internes et externes comme proxy) ; et (b) la recherche d'un consensus standard (comme le vote à la majorité) conduit systématiquement à des modèles sous-optimaux. Une analyse plus approfondie, cependant, suggère que l'évaluation de l'aptitude à l'apprentissage des annotations et l'utilisation uniquement d'ensembles de données annotés « apprenables » pour déterminer le consensus permettent d'obtenir des modèles optimaux dans la plupart des cas.

L'apprentissage automatique supervisé classique suppose que les étiquettes des exemples de formation sont toutes correctes, ignorant la présence de bruit de classe et d'inexactitudes1. Dans le domaine de la santé, cette hypothèse peut ne pas tenir même lorsque des cliniciens très expérimentés fournissent ces étiquettes, en raison du degré de bruit, de la subjectivité de l'observateur et des préjugés impliqués. Si elles sont négligées dans la formation d'un système d'aide à la décision d'apprentissage automatique (ML-DSS), les incohérences d'annotation peuvent entraîner une version arbitrairement partielle de la vérité terrain et des conséquences cliniques imprévisibles ultérieures, y compris des classifications erronées2,3,4.

Idéalement, les étiquettes de classe sont obtenues via un processus d'acquisition de connaissances, impliquant le choix du "gold-standard" approprié sur lequel baser ces étiquettes de classe de vérité terrain, pour construire un système basé sur les connaissances (KBS). Dans le milieu des soins de santé et biomédical, des experts du domaine clinique sont souvent utilisés pour fournir ces étiquettes5. Cependant, dans de nombreux domaines cliniques, ces vérités fondamentales sont difficiles à trouver et à définir, en raison des incertitudes physiopathologiques, diagnostiques et pronostiques inhérentes à la médecine2,6.

La psychologie cognitive a montré expérimentalement que les humains (et donc les experts) font des "glissades", par exemple, en raison d'une surcharge cognitive et de préjugés. D'autre part, le domaine des systèmes experts et des KBS a supposé que pour (la plupart) des disciplines, des experts hautement qualifiés "sans glissement" existent, et la tâche clé est de savoir comment ces experts peuvent être identifiés objectivement ou subjectivement. Cependant, de plus en plus de preuves issues de la littérature montrent que, sur des ensembles communs de tâches (par exemple, la classification), des groupes d'experts sont souvent en désaccord significatif les uns avec les autres5,7,8. En 2021, Kahneman et al.9 ont publié une contribution majeure à ce sujet intitulée Noise: a fault in Human Judgment, qui démontre de manière convaincante que les autres experts de nombreuses disciplines diffèrent. Ces auteurs9 font des distinctions entre jugements et opinions où, avec les premiers, les experts sont censés fournir une réponse à partir d'un ensemble (fixe) d'alternatives, alors que les opinions sont beaucoup plus ouvertes. Dans cet article, nous traitons des tâches qui nécessitent que les différents experts portent des jugements.

Il existe quatre sources principales d'incohérences dans les annotations2,8,10,11,12,13,14,15,16,17 : (a) informations insuffisantes pour effectuer un étiquetage fiable (par exemple, données de mauvaise qualité ou directives peu claires) ; (b) Expertise insuffisante dans le domaine ; (c) erreur humaine (c.-à-d., glissades et bruit); (d) La subjectivité dans la tâche d'étiquetage (c'est-à-dire le jugement et les préjugés). Dans cette étude, où des annotateurs cliniques hautement expérimentés ont été utilisés et où la tâche d'étiquetage était bien comprise avec 60 instances à annoter, nous pensons que la principale source d'incohérence étudiée est la variabilité inter-évaluateurs résultant du biais, du jugement et du bruit de l'observateur. Tout au long de cet article, nous définissons le « bruit » comme le bruit du système, c'est-à-dire la variabilité indésirable des jugements qui devraient idéalement être identiques9.

Kahneman et al.9 note que le bruit entre les personnes (c'est-à-dire la variabilité inter-juges) dans la profession médicale est plus courant lorsque les cliniciens sont tenus de porter des jugements, par opposition à suivre un diagnostic de routine ou en grande partie mécanique (c'est-à-dire consistant en des tests prédéfinis ou des règles quantitatives) ; Kahneman et al. présenter une série d'exemples. Jain et al.18. ont constaté que dans le diagnostic des lésions prolifératives du sein, l'accord entre les pathologistes n'avait qu'un accord « équitable » (Fleiss' κ = 0,34). Regier et al.19 ont montré que des psychiatres hautement qualifiés n'étaient d'accord sur un diagnostic de « trouble dépressif majeur » que 4 à 15 % du temps (Fleiss' κ = 0,28)20. Halford et al.21 ont montré un accord minimal entre les experts EEG pour l'identification des décharges périodiques dans les enregistrements EEG continus de l'USI (κ moyen de Cohen par paires = 0,38). Moor et al.22 décrivent les problèmes importants de désaccords sur la définition de la septicémie - l'une des principales causes de décès dans les USI du monde entier. Zhang et al.23 ont enquêté sur les renvois des cliniciens des services d'urgence (SU) vers des équipes de patients hospitalisés et ont constaté que pour 39,4 % des admissions, les patients étaient admis dans une équipe de patients hospitalisés différente de celle initialement désignée par le SU. Xia et Yetisgen-Yildiz24 n'ont montré presque aucun accord entre les annotateurs cliniques identifiant la pneumonie à partir des rapports de radiographie pulmonaire (Cohen's κ = 0,085), et que "la formation médicale seule n'est pas suffisante pour obtenir un accord inter-annotateur élevé". La présence de bruit est clairement omniprésente dans une variété de domaines médicaux, y compris les paramètres de soins intensifs.

L'utilisation de ces cliniciens pour établir la base de connaissances entraîne une vérité de terrain « changeante », selon le ou les experts utilisés. Il a été démontré empiriquement que le bruit des étiquettes dans les données d'apprentissage entraîne4,11,25,26,27,28 : une précision de classification réduite, une complexité accrue des modèles inférés (par exemple, une augmentation de la taille des arbres de décision), un nombre accru d'échantillons d'apprentissage nécessaires et une difficulté de sélection des caractéristiques. À notre connaissance, cet article est l'une des premières études qui étudie les biais/incohérences parmi un nombre important (11) de cliniciens dans des scénarios de prise de décision clinique aiguë (environnements de soins intensifs), à l'aide d'un ensemble de données de validation externe.

Souvent, deux approches sont utilisées pour traiter le bruit des étiquettes de classe dans le développement ML. La première consiste à utiliser des méthodes de nettoyage des données, où les étiquettes bruyantes sont identifiées et réétiquetées/supprimées avant la formation. La seconde consiste à utiliser des algorithmes tolérants au bruit des étiquettes, où le bruit des étiquettes est pris en compte lors de l'apprentissage10,12,29. De plus, l'application de ces méthodes peut entraîner la perte de différences subtiles et potentiellement importantes entre les étiquettes de classe des annotateurs. (Cette dernière question est traitée dans la section Travaux supplémentaires). Il existe une documentation informative sur les méthodes d'amélioration de la qualité des étiquettes cliniques, y compris l'établissement de directives d'annotation claires24 et la modélisation des erreurs d'annotation des experts humains30. Cependant, la plupart de cette littérature considère les tâches de classification d'images - il y a un manque d'études empiriques sur l'amélioration de la qualité des étiquettes symboliques dans les tâches d'annotation médicale.

Le but de cette étude est d'évaluer la (in)cohérence des annotations humaines pour le développement de modèles d'IA et l'impact sur la prise de décision clinique dans le monde réel dans les environnements de soins intensifs. La qualité globale de l'étiquette de classe est fortement impactée par les désaccords entre les annotateurs. L'objectif de cette étude est d'étudier l'impact et l'utilisation efficace des désaccords des experts (via leurs annotations) dans le développement de modèles ML plutôt que de résoudre la déviation de leurs jugements pour former une "vérité terrain". Nous menons des expériences approfondies démontrant comment les différences de jugement entre les annotateurs experts cliniques peuvent conduire à des modèles de classification avec des performances variables (donc une utilité clinique variable), et comment obtenir un consensus optimal à partir de ces différences, pour faciliter la prise de décision clinique basée sur l'IA. Plus précisément, Sleeman et al.5,7 ont rapporté que les experts cliniques sont parfois en désaccord lorsqu'ils étiquettent la gravité d'un patient en unité de soins intensifs (USI) sur une échelle à cinq points (AE), basée sur les valeurs de six variables cliniques. L'étude actuelle aborde la question : "Quelles sont les implications de ces différences de jugement sur les performances du modèle de classificateur résultant et la prise de décision clinique en USI dans le monde réel ?" Nous avons donc proposé l'hypothèse que les classificateurs M, dérivés d'ensembles de données étiquetés individuellement par des experts cliniques M, produisent des classifications cohérentes lorsqu'ils sont appliqués à un ensemble de données externes pertinent. Les objectifs de cette étude sont les suivants : 1) Construire des classificateurs à partir des 11 ensembles de données ICU annotés individuellement du Queen Elizabeth University Hospital (QEUH). 2) Évaluer les performances des classificateurs sur les résultats de décharge dans le monde réel (sortis vivants des soins intensifs et décédés aux soins intensifs) dans un ensemble de données externe aux soins intensifs : HiRID. 3) Évaluer diverses approches pour traiter les incohérences d'annotation, car celles-ci créent souvent des modèles d'IA sous-optimaux.

Cette étude se concentre sur un scénario d'utilisation des technologies d'IA pour faciliter un problème de prise de décision clinique que les consultants en soins intensifs rencontrent au quotidien, comme décrit ci-dessous.

Pouvons-nous utiliser une échelle (AE) en cinq points du système de notation des patients en soins intensifs (ICU-PSS) pour répondre à la question « Dans quelle mesure le patient est-il malade ? », où E représente une instabilité cardiovasculaire grave et A représente un patient relativement stable. La figure 1a fournit une description de l'échelle ICU-PSS et le tableau supplémentaire 1 contient plus de détails.

a Catégories d'annotations ICU-PSS. b Exemples d'instances d'un ensemble de données annoté QEUH ICU.

L'ensemble de données de formation a été obtenu à partir du système de gestion des patients de l'USI de l'hôpital universitaire Queen Elizabeth de Glasgow (QEUH). Il contient 60 instances de données décrites par six caractéristiques cliniques : deux variables médicamenteuses (adrénaline et noradrénaline) et quatre paramètres physiologiques (FiO2, SpO2, pression artérielle moyenne (MAP) et fréquence cardiaque (FC)). Notez que les six variables sont celles que les cliniciens utilisent régulièrement aux soins intensifs pour évaluer l'état de santé d'un patient particulier. Des exemples d'annotations sont illustrés à la Fig. 1b. L'ensemble de données QUEH peut contenir des données de patients de soins intensifs traumatisés et non traumatisés.

Notre objectif principal est d'évaluer la (in)cohérence des annotations humaines pour le développement de modèles d'IA et l'impact sur la prise de décision clinique dans le monde réel dans les environnements de soins intensifs. Celle-ci se décline selon les aspects suivants.

Configuration de l'évaluation : (a) les modèles ML sont développés à l'aide des ensembles de données annotés QEUH ; (b) des ensembles de données de validation externes sont préparés et toutes les évaluations de performance du modèle doivent être effectuées sur ces ensembles de données.

Quantification de la cohérence : Nous choisissons l'échelle κ de Cohen31,32 et κ33,34 de Fleiss pour mesurer dans quelle mesure les modèles d'IA des annotateurs attribuent la même catégorie à la même instance. Des valeurs plus élevées sur ces échelles suggèrent des niveaux d'accord plus élevés. L'échelle de Cohen peut être résumée comme suit : 0,0–0,20 (aucun ); 0,21 à 0,39 (minimale) ; 0,40–0,59 (faible); 0,60 à 0,79 (modéré) ; 0,80–0,90 (Fort); > 0,90 (presque parfait).

Impact sur la prise de décision dans le monde réel : nous avons choisi deux scénarios réels de prise de décision en USI, qui sont tous deux des tâches de classification binaires. Premièrement, si un patient doit sortir des soins intensifs dans l'heure qui suit ; deuxièmement, si un patient va mourir aux soins intensifs dans l'heure qui suit. Nous étudions deux méthodes de validation externe - une utilisant des instantanés horaires des données des patients (c'est-à-dire des données statiques) et une autre utilisant des données de séries chronologiques (c'est-à-dire des données temporelles).

Évaluer les « meilleures pratiques » actuelles pour obtenir l'étalon-or : nous évaluons (a) s'il existe un « super expert » dont le jugement devrait être utilisé comme étalon-or en cas de désaccord ; (b) si un consensus peut être obtenu à partir de tous les jugements d'experts pour atteindre l'étalon-or ?

Un aperçu de l'approche expérimentale décrite ci-dessus se trouve dans la Fig. 2.

Le composant de gauche (avec trois cases) illustre la dérivation du modèle, y compris l'ensemble de données, les modèles et les méthodes de validation internes. Le composant supérieur avec deux cases vertes indique la sélection et la préparation de l'ensemble de données de validation externe. Le composant du milieu (entouré d'une ligne pointillée) montre les expériences de validation externe. Le composant de droite (avec quatre cases roses) décrit les détails de l'expérience de validation externe, y compris les mesures incohérentes, les méthodes de recherche de consensus et la prise de décision en tenant compte des modèles changeants.

Rappelons que l'hypothèse centrale de cette étude est la suivante : les classificateurs M, dérivés des jeux de données étiquetés individuellement par les experts cliniques M, produisent des classifications identiques lorsqu'ils sont appliqués à un jeu de données externe pertinent.

Les classificateurs d'arbre de décision (DT) et de forêt aléatoire (RF) ont été construits à partir des ensembles de données annotés QEUH, en partie parce que les deux sont des choix populaires dans la littérature clinique sur l'apprentissage automatique. DT a été sélectionné car les graphiques arborescents résultants peuvent être utilisés pour déduire le processus de prise de décision des modèles appris, ainsi que pour comparer les différentes complexités entre les modèles d'annotateur. RF a été utilisé pour comparer si des modèles plus puissants (par rapport à DT) rendraient l'incohérence moins significative - ce que nous montrons dans les sous-sections suivantes n'est pas le cas.

11 classificateurs ont été dérivés de chacun des ensembles de données annotés des 11 consultants, qui contenaient des données pour 6 variables cliniques (adrénaline, noradrénaline, FiO2, SpO2, MAP, HR) et les étiquettes de classe de gravité (AE). L'étiquetage d'annotation (AE) sur les 60 instances de formation diffère sur les 11 annotateurs, comme le montre la figure 3a. Notez que nous avons essayé des techniques d'équilibrage des classes pour équilibrer les étiquettes de classe dans les ensembles de données annotés avant la formation, mais cela n'a pas entraîné de différence de performances significative (voir le tableau supplémentaire 2). Par conséquent, nous avons décidé de construire des classificateurs en utilisant les ensembles de données annotés d'origine. Les 11 consultants qui ont annoté les ensembles de données QEUH se sont vu attribuer au hasard des noms de code anonymes (C1-C11) à la suite de l'exercice d'annotation de l'étude précédente de Sleeman et al.5. Ces noms de code sont mentionnés tout au long de ce document. Le classificateur RF correspondant de chaque consultant est appelé Cn-RF, où n désigne les consultants 1 à 11.

a Distributions des annotations dans tous les ensembles de données de formation QEUH libellés par les consultants (C1-C11). b Distributions d'étiquettes prévues dans les modèles RF multiclasses des consultants, exécutés sur l'ensemble de données de validation HiRID. c Valeurs κ de Cohen par paires sur toutes les paires de consultants pour les étiquettes prédites faites par les modèles RF multiclasses sur l'ensemble de données de validation HiRID externe.

Les modèles formés prédisent les étiquettes ICU-PSS (AE) pour un patient, indiquant leur niveau de gravité. Une expérience de validation interne standard sur plusieurs ensembles de données annotés implique d'abord d'établir une vérité de terrain, très probablement en prenant un vote à la majorité parmi tous les annotateurs pour chaque instance. Ensuite, chaque modèle de consultant formé serait exécuté par rapport à cette vérité de terrain pour établir les performances de validation interne. Nous avons développé et utilisé une méthode différente, plus pertinente pour cette étude, dans laquelle chaque modèle entraîné a été exécuté sur les annotations d'origine dont il a tiré les leçons. Ainsi, ces résultats de validation interne indiquent la "capacité d'apprentissage" des ensembles de données annotés d'origine, c'est-à-dire dans quelle mesure les associations entre les variables d'attribut et les annotations fournies peuvent être apprises, et à son tour avec quelle facilité la prise de décision de l'annotateur peut être reproduite. Ce score F1 (micro) de validation interne varie entre 0,50 et 0,77 sur les 11 classificateurs RF, comme le montre la Fig. 5a. L'importance des caractéristiques dans les six variables prédictives diffère selon les classificateurs, comme le montre la figure 4.

L'axe des x répertorie les 11 classificateurs et l'axe des y est la valeur d'importance avec une plage de 0 à 1, où 1 indique la plus grande importance.

Avec toutes les expériences de validation externe, l'accent est mis sur la prédiction des deux scénarios cliniques extrêmes (sorti vivant des soins intensifs ou décédé en soins intensifs). Dans cette première expérience de validation externe, les modèles formés ont été exécutés sur un ensemble de données de test HiRID, pour prédire les étiquettes de gravité (AE) sur 2600 instances contenant des données pour les mêmes 6 variables cliniques (1300 de ces instances correspondent à des patients qui sont sortis vivants de cette unité de soins intensifs, et 1300 autres patients décédés dans cette unité de soins intensifs). Étant donné que nous nous concentrons sur une tâche de classification binaire (état de sortie), nous avons mappé les classifications d'étiquettes de gravité d'AE multiclasses aux classifications binaires congédiées/décédées comme suit :

Au cours de la dernière heure précédant la sortie (vivante) d'un patient des soins intensifs, sa classification sur l'échelle ICU-PSS est « A ».

Au cours de la dernière heure précédant le décès d'un patient en soins intensifs, sa classification sur l'échelle ICU-PSS est « E ».

Notez que dans l'ensemble de données HiRID, tous les patients classés « A » n'ont pas reçu leur congé dans l'heure qui a suivi. De même, tous les patients classés « E » ne sont pas décédés dans l'heure qui a suivi ; de nombreux patients à leur arrivée aux soins intensifs sont extrêmement malades et sont souvent classés «E».

Les étiquettes prédites sur les 2600 instances de test HiRID diffèrent d'un annotateur à l'autre, comme le montre la figure 3b. Il ressort clairement de l'examen de ce diagramme qu'il existe une grande variation dans les classifications des modèles d'experts, seuls quelques modèles ayant des étiquettes comparables. Les accords inter-annotateurs (IAA) correspondants par paires pour ces étiquettes prédites par AE, en utilisant l'échelle de Cohen, se situent entre -0, 01 (faible / aucun) et 0, 48 (faible) dans les modèles d'annotateurs et sont illustrés à la figure 3c. Le score κ moyen de Cohen par paires est de 0,255 (accord minimal). Le κ de Fleiss pour ces étiquettes prédites est de 0,236 (Accord juste). Notez que IAA est utilisé comme abréviation pour "Accord inter-annotateurs" tout au long de ce document.

Ces résultats ont été obtenus à l'aide des classificateurs Random Forest35, entraînés sur les jeux de données annotés des 11 consultants. Les classificateurs correspondants obtenus à l'aide de l'algorithme Decision Tree25 ont donné des résultats comparables, voir réf. 36. Les classificateurs formés à l'aide de XGBoost et SVM ont également donné des résultats comparables aux modèles RF, comme le montre la Fig. 3 supplémentaire.

De plus, nous considérons les décisions réelles que les classificateurs des 11 consultants QEUH ont prises concernant l'ensemble de données de validation HiRID dont vous vous souviendrez, contenant 1300 cas qui correspondent au patient sortant vivant dans l'heure suivante (c'est-à-dire, ICU-PSS label 'A', comme indiqué dans la cartographie ci-dessus) et 1300 cas où le patient est décédé en USI dans l'heure suivante (c'est-à-dire, ICU-PSS label 'E'). Ces résultats sont résumés sur la figure 5a. Rappelons que les classificateurs formés prédisent les étiquettes de classification ICU-PSS (AE) pour un patient, indiquant leur niveau de gravité. Dans cette première expérience de validation externe, nous traitons les modèles entraînés comme prédisant trois classes : CL1 = A, CL2 = B/C/D et CL3 = E. Les scores de validation externe F1 rapportés à la Fig. 5a sont calculés à l'aide de la moyenne micro F1 - en calculant un score F1 moyen global en comptant les sommes des vrais positifs, des faux négatifs et des faux positifs. Le score F137 est la moyenne harmonique de la précision et de la sensibilité du classificateur, où un score plus élevé indique un modèle plus performant.

a Performances de validation interne et externe des modèles RF des consultants. Pour chaque classificateur, le nombre d'étiquettes "Discharged Alive" et "Discharged Dead" correctement classées sur l'ensemble de données externe HiRID est rapporté. b Diagramme de matrice de confusion de validation externe pour le consultant 1, montrant les véritables étiquettes de l'ensemble de données HiRID et les étiquettes prédites par le modèle RF dans les cinq classes (AE) : 0 = étiquette ICU-PSS « A », 4 = étiquette ICU-PSS « E ».

La figure 5a indique le nombre d'étiquettes "Discharged Alive" et "Discharged Dead" correctement classées dans les 11 classificateurs. Ces résultats suggèrent que C10 est le patient « le plus réticent » à sortir les patients, avec le plus petit nombre de classifications correctes « sorties vivantes », se référant au nombre d'admissions correctement prédites sorties vivantes en 1 heure. En revanche, C2 et C4 sont les patients « les plus susceptibles » de sortir, avec le plus grand nombre de cas corrects de « sorties vivantes ».

En se concentrant uniquement sur les cas où le patient est sorti vivant, nous observons que la concordance moyenne entre annotateurs par paires (κ de Cohen) est de 0,21 (concordance minimale). Le κ de Fleiss pour ces étiquettes prédites est de 0,174 (accord léger).

En nous concentrant maintenant sur les cas où le patient est décédé en soins intensifs, nous observons que la concordance moyenne entre annotateurs par paires (κ de Cohen) est de 0,28 (concordance minimale). Le κ de Fleiss pour ces étiquettes prédites est de 0,267 (Accord juste).

Cela suggère que les experts du domaine clinique s'accordent davantage pour prédire la mortalité que pour prendre des décisions de sortie. Notez qu'en raison du faible nombre d'étiquettes « E » dans les ensembles de données annotés, des informations et des comparaisons limitées peuvent être déduites pour ces étiquettes « décédées » prédites. Dans de futures études connexes, nous acquerrons davantage d'ensembles de données équilibrés en classes pour résoudre ce problème.

La figure 5b montre un exemple de diagramme de matrice de confusion d'un consultant (C1), décrivant la distribution des étiquettes prédites RF lorsqu'elles sont exécutées sur l'ensemble de données de validation HiRID. Les étiquettes prédites 0 à 4 correspondent respectivement aux étiquettes ICU-PSS AE. L'étiquette vraie = 0 correspond au patient sortant vivant de l'USI dans l'heure qui suit (c'est-à-dire l'étiquette ICU-PSS « A » ); et véritable étiquette = 4 correspond au patient décédé en soins intensifs dans l'heure qui suit (c'est-à-dire, étiquette ICU-PSS 'E'). Cette matrice de confusion montre que le C1-RF a correctement classé le patient comme « libéré vivant » pour 337 cas, et correctement classé le patient comme « libéré mort » pour 229 cas. Les modèles formés ont été traités comme prédisant trois classes : CL1 = A, CL2 = B/C/D et CL3 = E.

Comme les données de formation QEUH consistent en des instantanés horaires des lectures physiologiques/pharmacologiques des patients, nous avons mené cette expérience de validation externe avec un ensemble de données de validation HiRID contenant des données statiques similaires. Cependant, la figure 5a montre que les performances de validation externe sont nettement inférieures aux performances de validation interne. Cela pourrait indiquer que la prise de décision extrême dans les unités de soins intensifs (prédire la sortie/le décès) peut nécessiter une surveillance continue (c'est-à-dire en utilisant des données de séries chronologiques) - cela est exploré plus en détail dans la sous-section suivante «Évaluer les méthodes de validation externe des séries chronologiques». De plus, les distributions d'annotations illustrées à la Fig. 3a suggèrent que les annotateurs humains peuvent être moins susceptibles de choisir des catégories d'étiquettes extrêmes (c'est-à-dire A ou E) lorsqu'ils sont confrontés à une tâche d'étiquetage multiclasse, ce qui entraîne à son tour de mauvaises performances lors de la prédiction de ces scénarios.

Pour les classificateurs qui avaient des performances de validation internes élevées (C2-RF, C4-RF, C8-RF), nous pouvons en déduire que les ensembles de données annotés de ces consultants étaient hautement apprenables (rappel, « apprenabilité » indique à quel point les associations entre les variables d'entrée et les annotations fournies peuvent être apprises, et à son tour avec quelle facilité la justification clinique de l'annotateur peut être reproduite). Malgré des performances de validation internes tout aussi élevées, les consultants C2 et C8 diffèrent dans leurs distributions d'annotations QEUH initiales et les distributions d'importance des caractéristiques ultérieures, comme indiqué dans les Fig. 3a et Fig. 4, ce qui entraîne des distributions différentes dans leurs étiquettes prédites sur l'ensemble de données de validation HiRID. Comme le montrent les Fig. 6a et 6b, l'ensemble de données annoté C2 QEUH comprend 3,3 % d'étiquettes « C » et 10,0 % d'étiquettes « E », tandis que l'ensemble de données annoté C8 comprend 36,7 % d'étiquettes « C » et 1,7 % d'étiquettes « E ». Les étiquettes prédites du classificateur C2-RF inférées se composent de 1,4 % d'étiquettes "C" et de 11,2 % d'étiquettes "E", tandis que les étiquettes prédites du classificateur C8-RF inférées consistent en 12,5 % d'étiquettes "C" et 1,5 % d'étiquettes "E". Dans l'ensemble, les classificateurs C2-RF et C8-RF ont un accord minimal entre leurs classifications lorsqu'ils sont exécutés sur l'ensemble de données HiRID (Cohen par paires κ = 0,27).

a Distributions d'annotations dans les ensembles de données étiquetés QEUH pour C2, C4 et C8. b Distributions d'étiquettes prévues générées par les classificateurs C2-RF, C4-RF et C8-RF lorsqu'ils sont exécutés sur l'ensemble de données de validation HiRID.

Dans cette sous-section, nous évaluons deux types de meilleures pratiques pour obtenir l'étalon-or de plusieurs experts de domaine :

(a) Super expert : utilisez les étiquettes d'un annotateur plus expérimenté ou utilisez les décisions d'un arbitre en cas de désaccord ; (b) Vote à la majorité : rechercher le consensus de tous les différents jugements comme vérité de terrain38,39,40.

Concernant l'hypothèse "super expert", nous n'avons pas pu faire cette évaluation directement, car nous ne savons pas quels annotateurs sont les plus expérimentés, en raison de l'anonymisation de l'ensemble de données. Pour contourner ce problème, nous utilisons la corrélation entre les performances des modèles internes et externes comme indicateur proxy. En effet, si l'hypothèse du super-expert se vérifie, on pourrait supposer que les modèles avec des performances supérieures (ou inférieures) en interne sont susceptibles d'avoir des performances supérieures (ou inférieures) dans les validations externes. La figure 5a répertorie les résultats de validation interne et externe. La corrélation de Pearson entre les deux résultats est de 0,51, ce qui signifie qu'ils ne sont pas fortement associés. Les résultats de cette analyse suggèrent que l'hypothèse du super-expert, c'est-à-dire que l'étalon-or peut toujours être fourni par le collègue le plus ancien, n'est pas toujours vraie. Nous observons que même les modèles performants en validation interne ne fonctionnent pas aussi bien dans les ensembles de données externes (par exemple, C4-RF et C8-RF). En fait, les annotations initiales de l'ensemble de données QEUH montrent des niveaux de désaccord similaires entre les consultants, comme indiqué sur l'ensemble de données de validation HiRID. Comme nous le montrerons plus loin, un modèle supérieur peut souvent être obtenu en tenant compte de divers jugements dans une approche sélective du vote à la majorité.

De plus, nous avons étudié la prise d'un consensus des annotations de tous les experts (une pratique courante). La figure 5a montre les performances de validation interne variées dans les ensembles de données QEUH, indiquant une différence d'apprentissage entre les 11 ensembles de données annotés. Les modèles avec des performances de validation internes plus élevées indiquent une facilité d'apprentissage (par exemple, C8), ce qui reflète potentiellement des règles d'annotation plus cohérentes et un processus de prise de décision plus simple. Les modèles avec des performances internes inférieures indiquent une capacité d'apprentissage plus faible, avec des règles de classification potentiellement moins cohérentes / plus complexes (par exemple, C7).

Pour évaluer la fiabilité de la prise d'un consensus, nous avons comparé les performances de validation externe d'un modèle de consensus Majority Vote (MV), construit à partir des étiquettes de vote majoritaire dans les 11 ensembles de données annotés, à un modèle Top Majority Vote (TMV), construit à partir des étiquettes de vote majoritaire parmi les modèles de consultants les plus performants (où la validation interne F1 micro > 0,7). La figure 7 montre que le TMV (F1 micro = 0,438) fonctionne nettement mieux que le MV (F1 micro = 0,254). En fait, TMV surpasse presque tous les modèles de consultants. Cela indique qu'il est important d'évaluer la capacité d'apprentissage des jugements d'experts de chaque domaine avant de créer un consensus, car les jugements mal apprenables (d'experts) conduisent souvent à de mauvaises performances.

Le vote majoritaire (MV) fait référence à un modèle de consensus par vote majoritaire total. Top Majority Vote (TMV) a été créé à partir des étiquettes de vote majoritaire des modèles de consultants les plus performants.

Après de nouvelles discussions avec les professionnels de l'USI, nous avons établi que la prise de décision clinique des consultants de l'USI tient généralement compte de la tendance des paramètres physiologiques et pharmacologiques du patient sur la période précédant l'évaluation (par exemple, sur les 5 à 10 heures précédentes). Nous avons donc incorporé une composante de série chronologique dans cette deuxième expérience de validation externe et étudié son impact sur les performances des classificateurs QEUH. Nous pensons que cette expérience est une évaluation plus pertinente sur le plan clinique des modèles experts, car elle fournit la tâche plus réaliste de classer l'état de sortie en fonction des lectures des paramètres du patient sur une période de temps (plutôt qu'un seul instantané).

Dans cette deuxième expérience de validation externe, nous avons comparé les performances des classificateurs DT, entraînés sur les jeux de données annotés QEUH, sur des jeux de données HiRID statiques et temporels. L'ensemble de données de validation HiRID statique contient 1064 enregistrements (sur 1064 patients uniques), où toutes les instances de données sont des lectures dans l'heure qui précède la sortie du patient vivant (c'est-à-dire l'étiquette ICU-PSS « A ») ou dans l'heure précédant le décès du patient (c'est-à-dire l'étiquette ICU-PSS « E »). Les ensembles de données de validation HiRID temporelles contiennent 5320 enregistrements (sur les mêmes 1064 patients uniques), composés de cinq enregistrements par patient - une lecture pour chacune des 5 heures avant la sortie/le décès.

Pour évaluer les performances des classificateurs DT formés sur les ensembles de données de validation temporelle, pour chaque point temporel du patient, la somme pondérée des cinq prédictions ICU-PSS (horaires) a été calculée et une valeur moyenne a été obtenue (résultant en 1 064 classifications de gravité dans les ensembles de données temporelles). Ces étiquettes prédites AE ont été traitées comme une échelle ordinale de 1 à 5, par conséquent, les valeurs de somme pondérée étaient toutes comprises entre 1 et 5. Encore une fois, les modèles formés ont été traités comme prédisant trois classes : CL1 = A, CL2 = B/C/D et CL3 = E. Nous avons exploré deux méthodes pour mapper les valeurs de somme pondérée (1 à 5) à ces trois classes, avec des seuils différents, comme indiqué ci-dessous. De plus amples détails sont présentés dans la section Méthodes.

« Extrême » : CL1 = 1, CL2 = > 1–4, CL3 = > 4.

'Neutre' : CL1 = ≤ 3, CL2 = > 3-<4, CL3 = ≥ 4.

Dans le cadre de cette expérience, en plus des modèles de consensus MV et TMV, un modèle supplémentaire de «consensus flou» (FC) a été construit. Ce modèle FC a été construit en combinant les sorties des modèles individuels en considérant leurs sorties comme des valeurs de confiance pour la tâche de classification binaire sur les ensembles de données de validation externe temporelle (déchargé vivant vs décédé). Nous avons traité les étiquettes prédites AE comme des prédictions sur une échelle ordinale de 1 à 5 (c'est-à-dire, A = 1, B = 2, C = 3, D = 4, E = 5). Dans cette échelle, A représente le congédiement vivant dans l'heure qui suit et E représente le décès dans l'heure qui suit. Dans cette méthode de consensus, toutes les prédictions sont capturées et interprétées comme des étiquettes « floues »41 lors du calcul de la prédiction globale de l'état de sortie pour chaque patient. Pour chaque prédiction horaire, par patient, les sorties du modèle (1 à 5) ont été moyennées, mais en excluant toute étiquette prédite « 3 » (c'est-à-dire « C ») dans ce calcul. « 3 » est exclu car cette valeur de confiance se situe directement au centre de l'échelle de 1 à 5 et est donc interprétée comme « incertaine ». Suite à ce calcul de moyenne, pour chaque point temporel du patient, la somme pondérée des cinq prédictions ICU-PSS (horaires) a été calculée, en utilisant à la fois les seuils « extrême » et « neutre » décrits ci-dessus. Les résultats sont présentés sur la figure 8a. De plus amples détails sur le calcul du modèle FC se trouvent dans la section Méthodes. Un modèle « Top Fuzzy Consensus » (TFC) a également été construit à partir des étiquettes de vote majoritaire sur les modèles de consultants les plus performants (où la validation interne F1 micro > 0,7).

a Comparaison des performances de validation externe sur les jeux de données de validation HiRID statiques et temporels. b Étiquettes correctement classées « déchargé vivant » et « déchargé mort » faites sur des ensembles de données de validation externes HiRID statiques et temporelles. c Distributions des rapports de cotes du modèle de régression logistique formé sur les étiquettes prédites par HiRID 1 à 5 h avant la sortie/le décès.

La figure 8a montre que tous les modèles d'annotateur fonctionnent mieux sur l'ensemble de données de validation temporelle (neutre), par rapport aux ensembles de données temporelles (extrêmes) et statiques. Les modèles ont de meilleures performances sur l'ensemble de données généré avec une cartographie de classification plus neutre, par rapport à la cartographie plus extrême, car la méthode de cartographie extrême exclut un nombre beaucoup plus grand de points de données de patients des classes CL1 et CL3 (rappel, seules les classes CL1 et CL3 sont présentes dans les ensembles de données de validation HiRID). Une cartographie supplémentaire a été étudiée en utilisant les seuils suivants : CL1 = ≤ 2, CL2 = > 2-< 4, CL3 = ≥ 4, voir la Fig. 1 supplémentaire pour ces résultats.

Comme le montre la figure 8a, nous observons que les modèles performants en validation interne (C4-RF et C8-RF) ne fonctionnent pas aussi bien lorsqu'ils sont exécutés sur les ensembles de données externes temporelles externes. La corrélation de Pearson entre les résultats de la validation interne et les résultats de la validation externe temporelle (extrême) est de 0,64, ce qui signifie qu'ils ne sont pas fortement associés. De même, la corrélation de Pearson entre le résultat de la validation interne et les résultats de la validation externe temporelle (neutre) est de -0,51. Cela fournit une preuve supplémentaire que l'hypothèse du super-expert peut ne pas toujours tenir dans les contextes cliniques aigus.

La figure 8a montre que le modèle Top Majority-Vote (TMV) fonctionne nettement mieux que le modèle consensus Majority-Vote (MV) sur l'ensemble de données de validation statique, comme observé dans l'expérience précédente. TMV fonctionne également nettement mieux que MV sur le jeu de données temporel (extrême) et légèrement supérieur à MV sur le jeu de données temporel (neutre). Cela suggère en outre l'importance d'évaluer la capacité d'apprentissage des jugements des experts du domaine et d'exclure les annotations d'experts peu apprenables avant d'obtenir un consensus comme vérité de terrain. Le modèle Top Fuzzy Consensus (TFC) fonctionne également bien, ce qui indique que le consensus est constamment amélioré après la sélection de modèles en fonction de la capacité d'apprentissage des modèles individuels.

La figure 8b indique le nombre d'étiquettes "Discharged Alive" et "Discharged Dead" correctement classées dans les 11 classificateurs, exécutés sur les ensembles de données de validation HiRID statiques et temporels.

En nous concentrant uniquement sur les cas où le patient est sorti vivant, nous observons que l'IAA moyen par paire, c'est-à-dire le κ de Cohen, est de 0,239 (Accord minimal) sur l'ensemble de données temporelles (extrêmes), où le κ de Fleiss pour ces étiquettes prédites est de 0,211 (Accord juste). Lorsqu'il est exécuté sur l'ensemble de données temporel (neutre), l'IAA moyen par paire est de 0,284 (accord minimal) et le κ de Fleiss est de 0,294 (accord équitable).

En nous concentrant maintenant sur les cas où le patient est décédé en soins intensifs, nous observons que l'IAA moyen par paire est de 0,327 (accord minimal) sur l'ensemble de données temporelle (extrême), où le κ de Fleiss pour ces étiquettes prédites est de 0,326 (accord équitable). Lorsqu'il est exécuté sur l'ensemble de données temporel (neutre), l'IAA moyen par paire est de 0,587 (accord faible) et le κ de Fleiss est de 0,579 (accord modéré). Cela indique en outre que les experts du domaine clinique peuvent être plus d'accord lorsqu'il s'agit de prédire la mortalité, par rapport à la prise de décisions de sortie.

Nous avons effectué une analyse supplémentaire pour étudier les performances des modèles d'apprentissage supervisé lors de la classification de l'état de sortie du patient, après une formation sur les étiquettes prédites (AE) générées (par les classificateurs DT) sur l'ensemble de données temporelles HiRID. Cela impliquait de former des modèles d'arbre de décision et de régression logistique (LR) sur les étiquettes prédites (AE) du classificateur DT de chaque consultant au cours des cinq heures précédant la sortie / le décès de chaque patient (c'est-à-dire 5 caractéristiques prédictives), voir Fig. 2 supplémentaire.

Les distributions des rapports de cotes indiquent la différence de pondération (c'est-à-dire l'importance) entre les cinq variables horaires, en faisant la classification de l'état de sortie du patient (sortie vivante ou décédée). Les prédictions à 5 h avant la sortie/le décès étaient les plus importantes dans la classification de l'état de sortie du modèle LR dans la plupart des modèles de consultants, ainsi que pour MV et TMV. Pour la majorité des modèles, les prédictions à 1 h avant la sortie/le décès étaient les moins importantes dans la classification de l'état de sortie final, ce qui est remarquable car cela contredit une hypothèse intuitive selon laquelle les prédictions de sortie plus proches du moment de la sortie/du décès sont indicatives de l'état de sortie final.

Cette étude s'est concentrée sur l'évaluation des désaccords entre les annotateurs cliniques et l'évaluation de l'impact de ces désaccords sur la performance des modèles ML résultants, dans les paramètres de soins intensifs. En particulier, nous avons évalué les « meilleures pratiques » actuelles en matière de recherche de consensus, et nos résultats suggèrent qu'elles pourraient ne pas bien fonctionner dans les contextes cliniques aigus. Notre analyse met en évidence une nouvelle approche plus fiable - évaluer la capacité d'apprentissage avant de rechercher un consensus.

Les classifications d'étiquettes variées illustrées à la Fig. 3b et le faible accord par paires à la Fig. 3c (moyenne de Cohen κ = 0,255, c'est-à-dire accord minimal) sont suffisantes pour rejeter l'hypothèse centrale - concluant que les classificateurs, dérivés d'ensembles de données étiquetés individuellement par les 11 experts cliniques, ne produisent pas de classifications cohérentes lorsqu'elles sont appliquées à un ensemble de données externes pertinent. Une analyse plus approfondie de deux scénarios de prise de décision en soins intensifs a montré que l'incohérence varie selon les situations : ces experts du domaine clinique semblent être plus d'accord sur des situations plus critiques comme la prédiction de la mortalité.

Une analyse approfondie de l'évaluation des pratiques actuelles d'obtention de la vérité sur le terrain fait deux suggestions exploitables : (a) les super experts (qui sont plus fiables que tout le monde) peuvent ne pas exister dans les contextes cliniques aigus, et diverses réponses pourraient être plus fiables pour obtenir des modèles optimaux ; (b) la capacité d'apprentissage (quantifiée en tant que performances de validation interne) est une mesure clé à évaluer sur les jugements des experts du domaine, et éviter les jugements peu apprenables pourrait conduire à de meilleures vérités de terrain, donc à de meilleures performances de validation externe.

Suite au point b), une approche pour détecter et exclure les experts qui appliquent leurs règles d'annotation de manière incohérente est résumée comme suit : tous les experts doivent annoter le même ensemble d'instances (de formation) ; à partir de ces ensembles de données annotés, un classificateur serait déduit pour chaque expert. L '« apprenabilité » de chaque classificateur est obtenue par une méthode appropriée, par exemple la validation croisée k-fold, où les modèles formés sont exécutés sur leurs annotations d'origine - il s'agit d'une vérification de la cohérence des règles d'annotation de chaque expert. Ensuite, excluez tous les modèles qui ne fonctionnent pas au-dessus d'un seuil prédéfini (c'est-à-dire les modèles construits à partir d'ensembles de données annotés à faible capacité d'apprentissage). Les résultats montrés dans les Fig. 7 et 8a indiquent que cette méthode peut être appliquée pour utiliser les désaccords entre les annotateurs cliniques dans la génération de modèles de consensus plus performants (c'est-à-dire, TMV et TFC).

Après avoir exclu les modèles difficilement apprenables, nous observons qu'il peut y avoir des différences significatives dans les classifications faites par les modèles experts distincts (par exemple, C2-RF et C8-RF), comme indiqué dans la section Résultats. Cela concorde avec l'observation faite par Welinder et al.42 selon laquelle certains annotateurs ont tendance à être plus extrêmes dans leur étiquetage, tandis que d'autres sont plus modérés. Comme les classificateurs C2-RF et C8-RF ont été déduits d'ensembles de données annotées apprenables (indiquées par de bonnes performances de validation interne), cela suggère que les différences dans les distributions d'étiquettes prévues résultantes peuvent provenir de différences dans les jugements des consultants. Par conséquent, il peut s'agir de différences valides et cliniquement utiles que nous ne voulons peut-être pas ignorer. Les approches ML actuelles pour traiter le bruit des étiquettes dans les ensembles de données de formation incluent le nettoyage des données (c'est-à-dire la suppression des étiquettes bruyantes) ou l'utilisation d'algorithmes robustes/tolérants au bruit. L'application de ces méthodes peut entraîner la perte des différences granulaires utiles entre les jugements des annotateurs. De plus, l'application de l'approche du vote à la majorité ou du vote à la majorité supérieure (décrite dans la section Résultats) peut entraîner une perte de différences subtiles entre les jugements des annotateurs. Cette question doit être traitée dans la section Travaux supplémentaires.

La plupart des classificateurs construits dans cette étude ont des performances de validation internes et externes médiocres, reflétant une mauvaise prise de décision dans le monde réel. Cependant, ces mauvaises performances peuvent être dues à diverses raisons : ensemble de données d'entraînement petit/déséquilibré, certaines caractéristiques ne sont pas les plus prédictives, la nécessité d'évaluer les patients à plusieurs moments, les différences entre les paramètres de soins intensifs, etc. ). Cela devrait inclure une très grande cohorte d'annotateurs cliniques d'un nombre important d'unités de soins intensifs britanniques, afin de fournir un ensemble diversifié de jugements, ainsi que de multiples ensembles de données de validation externes de différents pays, afin d'évaluer les performances des modèles dans différents contextes.

À l'aide de ces ensembles de données annotés plus vastes, une analyse plus approfondie devrait être menée autour des raisonnements derrière les incohérences entre les annotateurs, par exemple, les biais, les jugements, le bruit, la sélection limitée des fonctionnalités - ainsi que les moyens de les résoudre. Cela devrait impliquer d'analyser la manière dont les consultants sont en désaccord, y compris les caractéristiques des cas faciles (fort accord entre les annotateurs) et des cas difficiles (fort désaccord entre les annotateurs). De plus, des études visant à réduire les niveaux de désaccords entre les experts (cliniques) en améliorant la description/présentation de la ou des tâches d'étiquetage devraient être envisagées5.

Suite aux résultats discutés, d'autres recherches pour détecter et étudier la cohérence intra-annotateur expert sont prévues. La cohérence intra-annotateur peut être détectée facilement en incluant des éléments répétés dans les ensembles de données à annoter - après cela, les experts incohérents peuvent être supprimés des analyses ultérieures. De plus, nous explorerons plus avant si la suppression des ensembles de données annotés « peu apprenables » avant la formation augmente l'accord entre annotateurs et produit de meilleurs résultats de validation externe, ainsi qu'une prise de décision plus cohérente. Si cela s'avérait vrai, cela vérifierait que l'évaluation de la capacité d'apprentissage des jugements d'experts individuels est une étape importante dans la formation des modèles ML, ce qui signifie que les pratiques actuelles consistant à rechercher un consensus directement auprès de tous les jugements d'experts disponibles pour obtenir l'"étalon-or" doivent être révisées - car des jugements mal apprenables peuvent entraîner des problèmes pour atteindre un véritable étalon-or.

De plus, dans la pratique, les gens ont tendance à faire davantage confiance à des experts très expérimentés ("super"), par conséquent, leurs jugements jouent un rôle plus important dans l'obtention d'un "étalon-or". Une enquête plus approfondie est nécessaire pour confirmer si les modèles d'ensemble fonctionnent mieux que les experts de domaine expérimentés.

De plus, dans une étude ultérieure, la tâche d'annotation pourrait être modifiée en demandant à chaque consultant d'attribuer un facteur de confiance, entre 0 et 1, à chacune de ses annotations. De plus, le niveau de compétence (basé sur des années d'expérience ou de spécialité) de chaque annotateur peut être saisi. Ceux-ci pourraient ensuite être utilisés comme facteurs de pondération lors de la formation du modèle, réduisant l'effet des étiquettes de faible confiance et augmentant la contribution d'experts plus qualifiés dans le calcul du consensus. De plus, ces valeurs de confiance faciliteront l'analyse autour des cas faciles/difficiles. Nettleton et al.41,43 ont mené des expériences approfondies en utilisant des facteurs de pondération et de confiance pour saisir les réponses.

Si le système d'aide à la décision ML est considéré comme un système critique pour la sécurité, il est alors essentiel d'inclure des analyses supplémentaires pour déterminer quel(s) classificateur(s) expert(s) distinct(s) utiliser. Par exemple, exécutez chacun des classificateurs par rapport à un ensemble de paires tâche-solution prédéfinies par un panel d'experts et éliminez les classificateurs/experts qui résolvent correctement moins d'un pourcentage prédéfini. L'efficacité de ces filtres dépend essentiellement des instances choisies par le panel. Ceci, cependant, est une approche appropriée à utiliser lorsque vous travaillez dans des zones (critiques pour la sécurité) où les différences entre deux classes (ou plus) sont légères, mais où les conséquences d'une mauvaise classification sont élevées. Cette approche a été largement utilisée dans le système Jeopardy d'IBM44 et plus tôt dans le système KRUST45. (Cette étape doit être exécutée en même temps que les étapes statistiques/numériques décrites précédemment.)

La figure 8c fournit un aperçu très intéressant, à savoir que les étiquettes de gravité prédites (AE) à 5 h avant la sortie/le décès étaient les plus importantes dans la classification de l'état de sortie du modèle LR dans la plupart des modèles experts, alors que les prédictions 1 h avant la sortie/le décès étaient les moins importantes - une conclusion quelque peu contre-intuitive. Des recherches supplémentaires sont nécessaires ici, en collaboration avec des professionnels des soins intensifs, pour étudier comment les tendances des lectures physiologiques sur une période précédant la sortie/le décès peuvent être utilisées pour éclairer les prévisions de l'état de sortie.

Cette étude se concentre sur la simulation d'un scénario de prise de décision en USI dans le monde réel, où les désaccords sont assez courants et inévitables, et sur l'étude de l'impact de ces désaccords entre cliniciens sur les modèles d'apprentissage automatique qui en résultent. Pour atteindre cet objectif, tous les aspects de l'approche expérimentale (décrits à la Fig. 2) ont été soigneusement examinés. Les principaux facteurs sont discutés ci-dessous.

L'ensemble de données de formation de l'hôpital universitaire Queen Elizabeth se compose de 60 instances de données de patients en soins intensifs, réparties sur 6 variables descriptives. Comme les désaccords sont courants entre les cliniciens (les raisons sont multifactorielles et résumées dans la section Introduction), afin de minimiser les incohérences intra- et inter-annotateurs, nous avons sélectionné une tâche de classification simple consistant en un ensemble limité de caractéristiques et d'instances de données. La tâche d'annotation sélectionnée pour la base de cette recherche était donc cliniquement pertinente, mais plus axée sur la recherche - permettant de capturer correctement le processus de prise de décision des cliniciens.

L'échelle ICU PSS (développée entre 2000 et 2005)46 permet aux cliniciens de porter un jugement sur l'état d'un patient, à des moments précis, sur la base d'un nombre limité de six descripteurs. Il existe de nombreuses situations en médecine où des décisions / jugements doivent être rendus sur la base d'informations partielles - c'est ce scénario que cet article aborde. L'échelle ICU-PSS comporte cinq catégories d'annotations qui, bien que catégoriques, peuvent être considérées comme des scores de confiance de chaque annotateur concernant l'état de gravité du patient (où A = plus stable susceptible de sortir bientôt et E = patient très instable nécessitant un soutien pharmacologique important). Cette échelle de confiance peut AE peut donc être appliquée à une tâche de validation externe binaire, comme indiqué dans la sous-section « Évaluer les méthodes de validation externe des séries chronologiques ». De plus, cette échelle ICU-PSS est plus simple et plus facile à comprendre par rapport aux autres outils de notation clinique (par exemple, SOFA47), ce qui se traduit par une tâche de classification plus simple qui permet de mieux saisir et comparer les règles de prise de décision/d'annotation de chaque clinicien.

Les six variables cliniques ont été sélectionnées et la description qualitative en cinq points des patients en soins intensifs (EI) a été élaborée, en collaboration avec plusieurs spécialistes des soins intensifs dans une étude précédente. Les quatre paramètres physiologiques de base (FiO2, SpO2, pression artérielle moyenne, fréquence cardiaque) sont utilisés par les cliniciens comme indicateurs de toute amélioration ou détérioration appréciable de l'état du patient. Les champs de médicament (adrénaline et noradrénaline) indiquent la quantité de soutien pharmacologique requis par le patient. Une description détaillée de ces catégories ICU-PSS se trouve dans le tableau supplémentaire 1.

Il existe plusieurs algorithmes de classification ML tolérants au bruit10,12, qui peuvent résoudre les problèmes de bruit d'étiquette pendant l'apprentissage. Dans cette étude, les classificateurs d'arbre de décision (DT) et de forêt aléatoire (RF) étaient des sélections plus appropriées, en partie parce que les deux sont largement utilisés en milieu clinique. Plus important encore, DT a été sélectionné car les graphiques arborescents résultants peuvent être utilisés pour déduire le processus de prise de décision des modèles appris, ainsi que pour comparer les différentes règles d'annotation et les complexités entre les modèles d'annotateur. RF a été utilisé pour comparer si des modèles plus puissants rendraient ces incohérences moins significatives (ce que nous avons montré n'est pas le cas).

Pour comparer les performances du modèle des consultants, une validation externe du modèle a été effectuée à l'aide d'ensembles de données de validation HiRID. Les classificateurs QEUH ont été construits pour prédire les jugements sur une échelle AE ICU-PSS à 5 points. Cependant, les ensembles de données de validation HiRID se sont concentrés sur une tâche de classification binaire consistant à prédire la sortie/le décès dans l'heure suivante (c'est-à-dire les valeurs A ou E sur l'échelle ICU-PSS). La base de données HiRID ne contient pas de valeurs de vérité terrain ICU-PSS, ni d'indices de gravité multi-classes similaires. Par conséquent, l'état de sortie de vérité au sol a été sélectionné comme tâche de classification de validation puisque l'EI de l'ICU-PSS est comparable à un score de confiance pour l'état de sortie du patient (où A = sorti vivant en 1 h et E = décédé en 1 h). Comme l'objectif de cette étude est d'étudier l'impact des désaccords des annotateurs cliniques sur les performances du modèle, plutôt que sur l'amélioration de la qualité de l'étiquette/performance du modèle, la différence entre la tâche d'annotation initiale et la tâche de validation du modèle a un impact minimal sur les résultats de l'expérience.

Les données de formation du Glasgow Queen Elizabeth University Hospital sont anonymisées. Les 60 instances ont été sélectionnées au hasard à partir d'un pool de 80 291 dossiers patients horaires obtenus à partir du système de gestion des patients QEUH (contenant des données de patients traumatisés et non traumatisés).

Notez qu'aucune donnée de vérité au sol sur la gravité ou l'état de sortie des patients de cet ensemble de données QEUH n'a été capturée dans l'étude précédente de Sleeman et al.5. Ces données n'ont pas pu être récupérées ultérieurement en raison de l'anonymisation des patients.

Nous avons étudié les méthodes d'équilibrage des classes pour équilibrer les étiquettes de classe dans les ensembles de données annotés pendant la formation, en ajoutant le paramètre RandomForestClassifier class_weight = balancing. Cela n'a pas entraîné de différence de performances significative par rapport à l'utilisation des ensembles de données annotés d'origine. Les résultats de la validation interne et externe avec cette condition de poids de classe équilibrée sont décrits dans le tableau supplémentaire 2.

Les métriques de validation interne ont été obtenues par une validation croisée quintuple, en utilisant l'ensemble de données de formation complet. Chaque modèle entraîné a été exécuté par rapport aux annotations d'origine à partir desquelles il a appris. Ainsi, ces résultats de validation interne indiquent la "capacité d'apprentissage" des ensembles de données annotés d'origine, c'est-à-dire la qualité de l'apprentissage des associations entre les variables d'attribut et les annotations fournies, et la facilité avec laquelle la prise de décision de l'annotateur peut être reproduite. La figure 5a montre les performances du modèle RF optimal pour chacun des 11 annotateurs consultants. Ces modèles ont été optimisés sur F1 micro.

Les distributions d'importance des caractéristiques, illustrées à la Fig. 4, ont été obtenues à l'aide de scikit learn feature_importances_property. Ceci est calculé comme la réduction totale normalisée de l'impureté du nœud (gini ou entropie) apportée par la caractéristique. Pour les modèles avec de bonnes performances de validation interne (F1 micro > 0,7), les différentes distributions d'importance des caractéristiques reflètent les différents raisonnements et processus de prise de décision entre les annotateurs. Pour certains annotateurs (C4), nous pouvons en déduire que la noradrénaline est la caractéristique la plus importante lors de la décision d'annoter une classification d'étiquette « A ». Pour certains (C2), FiO2 est le plus important lors de cette classification. Pour les autres (C10), le rationnel est plus équilibré sur Noradrénaline et FiO2.

Une large validation externe, utilisant des données provenant de participants similaires mais d'un hôpital ou d'un pays différent, est considérée comme la référence en matière d'estimations fiables des performances et de la généralisabilité/transportabilité du modèle48,49,50,51,52,53,54,55,56. Deux ensembles de données externes aux soins intensifs ont été étudiés, à savoir :

HiRID (v1.1.1) : un ensemble de données de soins intensifs librement accessible contenant des données anonymisées pour 33 000 admissions en soins intensifs à l'hôpital universitaire de Berne, en Suisse, entre 2008 et 201657,58.

MIMIC-III (v1.4) : une base de données librement disponible contenant des données anonymisées pour 40 000 patients en soins intensifs du Beth Israel Deaconess Medical Center, Boston, États-Unis, entre 2001 et 201258,59.

Les deux bases de données contiennent des données sur les patients en soins intensifs d'un hôpital et d'un pays différents, par rapport aux données de formation de Glasgow QEUH, répondant ainsi aux critères d'une large validation externe. Comme les classificateurs extraits des jeux de données annotés, produits par les cliniciens du QEUH, contiennent certains descripteurs, il était essentiel de s'assurer que ceux-ci soient présents dans les jeux de données externes. Plus précisément, les vérifications suivantes ont été effectuées sur les jeux de données HiRID et MIMIC-III :

Les ensembles de données contenaient les mêmes 6 descripteurs, et les unités associées à chacune de ces variables étaient soit identiques, soit, du moins connues, de sorte qu'une mise à l'échelle numérique pouvait être appliquée, si nécessaire.

Des efforts considérables ont été nécessaires pour trouver tous les synonymes utilisés dans ces deux ensembles de données pour les 6 descripteurs utilisés dans les ensembles de données QEUH (annotés). De plus, comme les valeurs rapportées pour les deux variables médicamenteuses utilisées dans QEUH sont pour une administration continue et non pour des bolus occasionnels, il était important de déterminer que les modes d'administration de médicaments sont équivalents.

Les ensembles de données QEUH rapportent des informations sur une base horaire, alors que la communication des données dans les ensembles de données externes est à la fois plus fréquente et à intervalles irréguliers, donc des efforts considérables ont été déployés pour transformer les ensembles de données HiRID et MIMIC-III en ensembles de données « horaires », de sorte que ces ensembles de données seraient compatibles avec les classificateurs dérivés pour les consultants QEUH. Voir la section "Disponibilité du code" pour plus de détails sur l'accès aux étapes complètes de prétraitement HiRID.

L'accord inter-annotateurs (IAA), également appelé fiabilité inter-évaluateurs, est une mesure de la mesure dans laquelle les annotateurs attribuent la même catégorie à la même instance. IAA représente la cohérence des annotations, ainsi que la reproductibilité de la tâche d'étiquetage. Une cohérence élevée est privilégiée car cela minimise les erreurs dues à la subjectivité et augmente la fiabilité des données de formation.

There are multiple statistics used to measure IAA, including Cohen's κ, Fleiss’ κ and Krippendorff's α. All three statistics were calculated within Python 3.0 using: cohen_kappa_score from sklearn.metrics60, fleiss_kappa from statsmodels.stats.inter_rater61, simpledorff (2020)." href="/articles/s41746-023-00773-3#ref-CR62" id="ref-link-section-d58063440e1597">62.

Le κ de Cohen mesure la fiabilité entre deux annotateurs, compte tenu de la possibilité que l'accord se produise par hasard. L'échelle de Cohen peut être résumée comme suit : 0,0–0,20 (aucun ); 0,21 à 0,39 (minimale) ; 0,40–0,59 (faible); 0,60 à 0,79 (modéré) ; 0,80–0,90 (Fort); > 0,90 (presque parfait)32.

Le κ de Fleiss est une extension du κ de Cohen qui considère la cohérence des accords d'annotateur, par opposition aux accords absolus. Il évalue la fiabilité de l'accord entre plusieurs annotateurs. L'échelle de Fleiss peut être résumée comme suit : < 0 (médiocre) ; 0,0 à 0,20 (léger) ; 0,21–0,40 (passable) ; 0,41 à 0,60 (modéré) ; 0,61 à 0,80 (substantiel) ; 0,81–1,0 (presque parfait)34.

L'α63 de Krippendorff considère la cohérence des accords d'annotateur, par opposition aux accords absolus. Il évalue la fiabilité de l'accord entre plusieurs annotateurs.

Les examens systématiques des études de validation des modèles ont montré un manque d'études de validation externes bien menées et clairement rapportées55,56. Une enquête détaillée de la compatibilité entre les ensembles de données de formation et de validation, y compris les populations de patients, est rare, mais nécessaire pour améliorer la fiabilité de la validation externe.

Dans cette étude, pour évaluer la compatibilité de la population de patients entre les ensembles de données de formation et de validation, l'administration d'adrénaline/noradrénaline a été étudiée. L'adrénaline/noradrénaline est administrée aux patients dont le système cardiovasculaire est instable et indique un état de gravité élevé. Seulement 5,9 % des admissions en USI MIMIC-III ont reçu de l'adrénaline/noradrénaline, contre 31,5 % des admissions en USI HiRID. Cela indique que la gravité des patients en soins intensifs à l'hôpital universitaire de Berne, en Suisse, était plus élevée qu'au Beth Israel Deaconess Medical Center, aux États-Unis. De plus, 40 % des instances de formation en soins intensifs du QEUH ont reçu de l'adrénaline/noradrénaline. Cela indique que la population de patients de l'USI dans les données de formation a des conditions de gravité plus élevée et a donc une bonne compatibilité avec HiRID, alors qu'une mauvaise compatibilité avec MIMIC-III. Nous avons donc décidé d'utiliser HiRID comme ensemble de données de validation dans cette étude. (Remarque, parce que nous entreprenons une étude pour prédire si les patients sortent vivants ou meurent aux soins intensifs, il est important d'avoir un nombre significatif de ces deux événements dans l'ensemble de données de validation).

Cette expérience teste la capacité des classificateurs à classer les résultats de sortie des patients (vivants ou morts), en supposant que l'état physiologique/pharmacologique du patient au cours de la dernière heure avant la sortie/le décès est un bon indicateur de son état de sortie. L'ensemble de données HiRID « complet » résultant du prétraitement décrit ci-dessus contient 2 022 313 instances provenant de 20 073 admissions uniques en soins intensifs. Seuls les points temporels enregistrés dans l'ensemble de données comme correspondant à une sortie vivante ou morte dans l'heure suivante étaient éligibles pour la sélection. 1 300 instances « Discharged Alive from ICU » et 1 300 « Dead in ICU » ont été sélectionnées au hasard comme ensemble de données de validation.

Après discussion avec des professionnels de l'USI, nous avons établi que « sorti vivant de l'USI » indique généralement que le patient est sorti de l'USI vers un service hospitalier non-USI (plutôt que sorti de l'hôpital). Les données sur le lieu de sortie ou la réadmission aux soins intensifs n'ont pas été fournies dans la base de données HiRID. Dans notre étude, le lieu de sortie n'a pas d'impact sur notre approche ou nos résultats expérimentaux, car la cohorte « Sortis vivants des soins intensifs en moins d'une heure » représente toujours les patients les plus stables (c'est-à-dire, ICU-PSS = A).

En réalité, les consultants en soins intensifs examinent la tendance des paramètres physiologiques et pharmacologiques du patient sur la période de temps avant de procéder à leur évaluation. Pour saisir plus précisément cette tâche de classification de la gravité des patients en soins intensifs dans le monde réel, nous avons mené une deuxième expérience de validation externe sur des données de séries chronologiques HiRID et comparé les performances des 11 classificateurs DT (formés sur les ensembles de données annotés QEUH) sur des ensembles de données de validation HiRID statiques et temporelles. Tous les jeux de données de validation contiennent les mêmes 6 variables que dans le jeu de données d'entraînement (adrénaline, noradrénaline, FiO2, SpO2, MAP, fréquence cardiaque).

Pour évaluer les performances des classificateurs sur les ensembles de données de validation temporelle HiRID, la somme pondérée des cinq prédictions ICU-PSS (horaires) par patient. Les poids horaires ont été définis comme suit, donnant plus de poids aux lectures plus proches de la sortie/du décès : (a) 5 h avant la sortie/le décès : 0,1, (b) 4 h avant la sortie/le décès : 0,1, (c) 3 h avant la sortie/le décès 0,2, (d) 2 h avant la sortie/le décès : 0,3, (e) 1 h avant la sortie/le décès : 0,3. Notez que des périodes de temps supérieures à 5 h ont été étudiées pour être utilisées dans cette expérience, mais elles ont abouti à des ensembles de données de validation plus petits - une période de 5 h a fourni un équilibre optimal entre suffisamment de points de données de séries chronologiques par patient et la taille de l'ensemble de données de validation.

Les étiquettes prédites AE ont été traitées comme une échelle ordinale de 1 à 5, par conséquent, les valeurs de somme pondérée étaient toutes comprises entre 1 et 5. Les modèles formés ont été traités comme prédisant trois classes : CL1 = A, CL2 = B/C/D et CL3 = E.

Dans la section Résultats, deux méthodes de mappage des valeurs de somme pondérée (1 à 5) à ces trois classes ont été signalées, avec des seuils différents :

« Extrême » : CL1 = 1, CL2 = > 1–4, CL3 = > 4.

'Neutre' : CL1 = ≤ 3, CL2 = > 3-<4, CL3 = ≥ 4.

Nous avons également étudié un seuil supplémentaire « Extreme (2) » avec une cartographie de somme pondérée illustrée ci-dessous. Ces résultats sont décrits dans la Fig. 1 supplémentaire.

iii. 'Extrême (2)' : CL1 = ≤ 2, CL2 = > 2-<4, CL3 = ≥ 4.

Dans une analyse plus approfondie, les modèles DT et LR ont été formés sur les étiquettes prédites faites par les 11 classificateurs QEUH DT sur l'ensemble de données de validation temporelle HiRID, pour chacune des cinq heures avant la sortie/le décès (c'est-à-dire, en combinant les étiquettes ICU-PSS sur cinq heures consécutives). Il s'agit d'une approche simple mais interprétable pour imiter le processus décisionnel des médecins des soins intensifs, qui tient compte des modèles de changement des paramètres pharmacologiques/physiologiques du patient, avant de prendre une décision de sortie. Des modèles plus complexes avec des noyaux non linéaires, tels que SVM, peuvent être utilisés pour cette analyse - mais cela perdrait l'interprétabilité des résultats. Les modèles DT et LR ont été optimisés sur F1 micro et évalués via une validation croisée de 5 fois, où la variable dépendante est l'état de décharge réel (voir Fig. 2 supplémentaire).

Dans le cadre de cette deuxième expérience de validation externe, en plus des modèles de consensus MV et TMV, un modèle supplémentaire de «consensus flou» (FC) a été construit. Le but de ce modèle FC de construction est d'étudier la combinaison des sorties des modèles individuels en considérant leurs sorties comme des valeurs de confiance pour la tâche de classification binaire sur l'ensemble de données de validation externe (déchargé vs décès). Dans cette méthode de consensus, toutes les prédictions sont saisies et interprétées comme des étiquettes « floues », sur une échelle ordinale de 1 à 5 (c'est-à-dire, AE), lors du calcul de la prédiction globale de l'état de sortie pour chaque patient. La figure 9 illustre l'échelle utilisée.

Plus précisément, les étiquettes prédites 1 à 5 (c'est-à-dire A à E) sur une échelle ordinale où les deux extrêmes représentent la tâche de classification binaire : 1 = sorti vivant de l'USI dans l'heure suivante, 5 = décédé à l'USI dans l'heure suivante.

Les données de formation QEUH qui appuient les conclusions de cette étude peuvent être disponibles sur demande auprès du responsable du traitement des données et co-auteur, Malcolm Sim. Les données ne sont pas accessibles au public car les données de santé au niveau individuel sont protégées par les lois sur la confidentialité. Le HiRID et le MIMIC-III sont accessibles publiquement aux URL suivantes :

1. Base de données MIMIC-III : https://mimic.mit.edu/docs/gettingstarted/.

2. Base de données HiRID : https://www.physionet.org/content/hirid/1.1.1/.

Pour la reproductibilité, tous les codes de modèle de prétraitement et d'apprentissage automatique des ensembles de données pour cette étude sont accessibles ici : https://github.com/aneeta-sylo/npjDigitalMedicine. Les ensembles de données de validation externes et les modèles d'apprentissage automatique ont été construits à l'aide de Python 3.6.

Bootkrajang, J. & Kabán, A. Classification multi-classes en présence d'erreurs d'étiquetage. Actes du Symposium européen 2011 sur les réseaux de neurones artificiels, l'intelligence computationnelle et l'apprentissage automatique (ESANN 2011), 345–350 (2011).

Cabitza, F., Ciucci, D. & Rasoini, R. Un géant aux pieds d'argile : sur la validité des données qui alimentent l'apprentissage automatique en médecine. Organe. Monde numérique 28, 121–136 (2019).

Article Google Scholar

Mahato, D., Dudhal, D., Revagade, D. Bhargava, Y. Une méthode pour détecter les annotations incohérentes dans un document médical à l'aide d'UMLS. Actes du 11e Forum pour l'évaluation de la recherche d'informations. 47–51, https://doi.org/10.1145/3368567.3368577 (2019).

Garcia, LPF, De Carvalho, AC & Lorena, AC Effet du bruit d'étiquette dans la complexité des problèmes de classification. Neuroinformatique 160, 108-119 (2015).

Article Google Scholar

Sleeman, D., Kostadinov, K., Moss, L. et Sim, M. Résoudre les différences d'opinion entre les experts médicaux : une étude de cas avec le système IS-DELPHI. Proc. 13e Int. Jt. Conf. Biomédical. Ing. Syst. Technol. 5, 66–76 (2020).

Article Google Scholar

Bachmann, LM et al. Conséquences de différents "étalons-or" de diagnostic dans la recherche sur la précision des tests : le syndrome du canal carpien par exemple. J.Clin. Épidémiol. 34, 953–955 (2005).

Google Scholar

Sleeman, D. et al. Détecter et résoudre les incohérences entre les différentes perspectives des experts du domaine sur les tâches (de classification). Artef. Renseignement. Méd. 55, 71-86 (2012).

Article PubMed Google Scholar

Rogers, S., Sleeman, D. et Kinsella, J. Enquête sur le désaccord entre les évaluations des patients par les cliniciens dans les USI. IEEE J. Biomed. Informer sur la santé. 17, 843–852 (2013).

Article PubMed Google Scholar

Kahneman, D., Sibony, O., Sunstein, CR Bruit : une faille dans le jugement humain. 124–127 (Londres, William Collins, p. 124–127, première édition. 2021).

Frénay, B. & Verleysen, M. Classification en présence de bruit d'étiquette : une enquête. IEEE Trans. Réseau neuronal. Apprendre. Syst. 25, 845–869 (2014).

Article PubMed Google Scholar

Zhu, X. & Wu, X. Bruit de classe vs bruit d'attribut : une étude quantitative de leurs impacts. Artef. Renseignement. Rév. 22, 177–210 (2004).

Article Google Scholar

Frénay, B., Kabán, A. Une introduction complète au bruit des étiquettes : Actes du Symposium européen 2014 sur les réseaux de neurones artificiels, l'intelligence informatique et l'apprentissage automatique (ESANN 2014). Actes du Symposium européen 2014 sur les réseaux de neurones artificiels, l'intelligence computationnelle et l'apprentissage automatique (ESANN 2014) (2014).

Yin, H., Dong, H. Le problème du bruit dans la classification : travaux passés, actuels et futurs. 2011 IEEE 3rd International Conference on Communication Software and Networks (ICCSN), 412–416 (2011).

Indrayan, A., Holt, MP Encyclopédie concise de la biostatistique pour les professionnels de la santé. 44 (CRC Press, 2017).

Sun, DQ et al. Améliorer les données étiquetées par l'homme grâce à la résolution automatique dynamique des conflits. Actes de la 28e Conférence internationale sur la linguistique computationnelle, 3547–3557, (2020).

Cabitza, F., Rasoini, R. & Gensini, GF Conséquences involontaires de l'apprentissage automatique en médecine. JAMA 318, 517–518 (2017).

Article PubMed Google Scholar

Fischhoff, B. Obtenir des connaissances pour la représentation analytique. IEEE Trans. Syst., Homme, Cybern. 19, 448-461 (1989).

Article Google Scholar

Jain, RK et al. Hyperplasie canalaire atypique : variabilité inter- et intra-observateur. Mod. Pathol. 24, 917–923 (2011).

Article PubMed Google Scholar

Regier, DA et al. Essais sur le terrain du DSM-5 aux États-Unis et au Canada, partie II : fiabilité test-retest de diagnostics catégoriels sélectionnés. Suis. J. Psychiatry 170, 59–70 (2013).

Article PubMed Google Scholar

Lieblich, S. et al. Une grande hétérogénéité et une faible fiabilité dans le diagnostic de la dépression majeure entraveront le développement de nouveaux médicaments. Br. J. Psychiatry Open 1, e5–e7 (2015).

Article Google Scholar

Halford, JJ Accord inter-évaluateurs sur l'identification des crises électrographiques et des décharges périodiques dans l'enregistrement EEG des soins intensifs. Clin. Neurophysiol. 126, 1661-1669 (2015).

Article CAS PubMed Google Scholar

Moor, M., Rieck, B., Horn, M., Jutzeler, CR, Borgwardt, K. Prévision précoce de la septicémie en USI à l'aide de l'apprentissage automatique : une revue systématique. Seconde. Maladies infectieuses – Surveillance, prévention et traitement, Front. Méd. https://doi.org/10.3389/fmed.2021.607952 (2021).

Zhang, W., Wong, LY, Liu, J. & Sarkar, S. MONitoring Knockbacks in EmergencY (MONKEY) - Un audit des résultats de disposition chez les patients d'urgence avec des demandes d'admission rejetées. Urgence libre accès. Méd. 14, 481–490 (2022).

Article PubMed PubMed Central Google Scholar

Xia, F., Yetisgen-Yildiz, M. Annotation du corpus clinique : défis et stratégies. Actes du troisième atelier sur la construction et l'évaluation des ressources pour l'exploration de textes biomédicaux (BioTxtM'2012) en collaboration avec la conférence internationale sur les ressources linguistiques et l'évaluation (LREC) (2012).

Quinlan, JR Induction d'arbres de décision. Mach. Apprendre. 1, 81-106 (1986).

Article Google Scholar

Quinlan, JR Apprendre à partir de données bruitées. Actes du deuxième atelier international sur l'apprentissage automatique 58–64 (1983).

Nettleton, DF, Orriols-Puig, A. & Fornells, A. Une étude de l'effet de différents types de bruit sur la précision des techniques d'apprentissage supervisé. Artef. Renseignement. Rév. 33, 275–306 (2010).

Article Google Scholar

Svensson, CM, Hubler, R., Figge, MT Classification automatisée des cellules tumorales circulantes et impact de la variabilité interobsever sur la formation et les performances des classificateurs. J. Immunol. Rés. https://doi.org/10.1155/2015/573165 (2015).

Johnson, MJ & Khoshgoftaar, MT Une enquête sur la classification des mégadonnées avec le bruit des étiquettes. J. Les données informent la qualité. 14, 1–43 (2022).

Karimi, D., Dou, H., Warfield, SK & Gholipour, A. Apprentissage en profondeur avec des étiquettes bruyantes : exploration de techniques et de remèdes dans l'analyse d'images médicales. Méd. Image anale. 65, 101759 (2019).

Article Google Scholar

Cohen, J. Un coefficient d'accord pour les échelles nominales. Éduc. Psychol. Mes. 20, 37-46 (1960).

Article Google Scholar

McHugh, ML Interrater fiabilité : La statistique kappa. Biochemia Med. 22, 276-282 (2012).

Article Google Scholar

Fleiss, JL, Levin, B., Paik, MC Méthodes statistiques pour les taux et les proportions. (John Wiley & Sons, Inc., 2003).

Landis, JR & Koch, GG La mesure de l'accord des observateurs pour les données catégorielles. Biometrics 33, 159-174 (1977).

Article CAS PubMed Google Scholar

Breiman, L. Forêts aléatoires. Mach. Apprendre. 45, 5–32 (2001).

Article Google Scholar

Sylolypavan, A. L'impact des annotations incohérentes sur la prise de décision clinique basée sur l'apprentissage automatique (University College London, 2021).

Raschka, S., Mirjalili, V. Apprentissage automatique Python. (Packt Publishing Ltd, troisième édition. 2019).

Sheng, VS, Provost, F., Ipeirotis, PG Obtenir une autre étiquette ? améliorer la qualité des données et l'exploration de données à l'aide de plusieurs étiqueteurs bruyants. Actes de la conférence internationale ACM SIGKDD sur la découverte de connaissances et l'exploration de données, 614–622, (2008).

Snow, R., O'Connor, B., Jurafsky, D. & Yg, AY Pas cher et rapide — Mais est-ce bon ? évaluer des annotations non expertes pour des tâches en langage naturel. Actes de la conférence de 2008 sur les méthodes empiriques en traitement du langage naturel (EMNLP 2008). 254–263 (2008).

Yang, H., Mityagin, A., Svore, KM et Markov, S. Collecte d'étiquettes superposées de haute qualité à faible coût. Actes de la 33e conférence internationale ACM SIGIR sur la recherche et le développement en recherche d'information (SIGIR 2010). 459–466 (2010).

Nettleton, DF & Muñiz, J. Traitement et représentation des métadonnées pour le diagnostic de l'apnée du sommeil avec une approche d'intelligence artificielle. Int. J. Med. Informer. 63, 77–89 (2001).

Article CAS PubMed Google Scholar

Welinder, P., Branson, S., Perona, P. & Belongie, S. La sagesse multidimensionnelle des foules. Proc. 23e Int. Conf. Information neuronale. Processus. Syst. 2, 2424-2432 (2010).

Google Scholar

Nettleton, DF & Hernández, L. In Proc. Atelier : Analyse intelligente des données en médecine et pharmacologie, IDAMAP. 91–102.

Ferruci, D. et al. Construire Watson : un aperçu du projet DeepQA. Revue IA. 31, 59-79 (2010).

Craw, S., Sleeman, D. Automatisation du raffinement des systèmes basés sur la connaissance. Actes de l'ECCAI-90, 167–172 (1990).

Sim, M. Le développement et l'application de nouveaux systèmes de notation intelligents dans les maladies graves (Université de Glasgow, 2015).

Vincent, JL Le score SOFA (Sepsis.related Organ Failure Assessment) pour décrire le dysfonctionnement/la défaillance d'un organe. Au nom du groupe de travail sur les problèmes liés au sepsis de la Société européenne de médecine de soins intensifs. Soins Intensifs Méd. 22, 707-710 (1996).

Article CAS PubMed Google Scholar

Collins, GS, Reitsma, JB, Altman, DG & Moons, KGM Rapport transparent d'un modèle de prédiction multivariable pour le pronostic ou le diagnostic individuel (TRIPOD): la déclaration TRIPOD. Br. J. Surg. 102, 148-158 (2015).

Article CAS PubMed Google Scholar

Steyerberg, EW & Vergouwe, Y. Vers de meilleurs modèles de prédiction clinique : sept étapes pour le développement et un ABCD pour la validation. EUR. Coeur J. 35, 1925-1931 (2014).

Article PubMed PubMed Central Google Scholar

Rivera, SC, Liu, X., Chan, A., Denniston, AK et Calvert, MJ Lignes directrices pour les protocoles d'essais cliniques pour les interventions impliquant l'intelligence artificielle : l'extension SPIRIT-AI. Nat. Méd. 26, 1351-1363 (2020).

Article Google Scholar

Luo, W. et al. Lignes directrices pour le développement et la communication de modèles prédictifs d'apprentissage automatique dans la recherche biomédicale : une vision multidisciplinaire. J. Med. Rés Internet. 18, 323 (2016).

Article Google Scholar

Steyerberg, EW & Harrell, FE Jr Les modèles de prédiction nécessitent une validation interne, interne-externe et externe appropriée. J.Clin. Épidémiol. 69, 245-247 (2016).

Article PubMed Google Scholar

Altman, DG & Royston, P. Qu'entendons-nous par valider un modèle pronostique ? Statistique Méd. 19, 453–473 (2000).

3.0.CO;2-5" data-track-action="article reference" href="https://doi.org/10.1002%2F%28SICI%291097-0258%2820000229%2919%3A4%3C453%3A%3AAID-SIM350%3E3.0.CO%3B2-5" aria-label="Article reference 53" data-doi="10.1002/(SICI)1097-0258(20000229)19:43.0.CO;2-5">Article CAS PubMed Google Scholar

Bleeker, SE et al. La validation externe est nécessaire dans la recherche prédictive : un exemple clinique. J.Clin. Épidémiol. 56, 826–832 (2003).

Article CAS PubMed Google Scholar

Collins, GS et al. Validation externe des modèles de prédiction multivariables - une revue systématique de la conduite méthodologique et des rapports. BMC Med. Rés. Méthodologie. 14 https://doi.org/10.1186/1471-2288-14-40. (2014).

Siontis, GC et al. La validation externe des nouveaux modèles de prédiction des risques est peu fréquente et révèle une moins bonne discrimination pronostique. J.Clin. Épidémiol. 68, 25–34 (2015).

Article PubMed Google Scholar

Faltys, M. et al. HiRID, un ensemble de données ICU à haute résolution temporelle (version 1.1.1). Physio. Filet. https://doi.org/10.13026/nkwc-js72 (2021).

Goldberger, A. et al. PhysioBank, PhysioToolkit et PhysioNet : composants d'une nouvelle ressource de recherche pour les signaux physiologiques complexes. Circulation 101, 215-220 (2000).

Article Google Scholar

Johnson, AEW et al. MIMIC-III (v.1.4), une base de données de soins intensifs librement accessible. Données scientifiques. https://doi.org/10.1038/sdata.2016.35. (2016).

Pedregosa, F. et al. Scikit-learn : Apprentissage automatique en Python. J.Mach. Apprendre. Rés. 12, 2825–2830 (2011).

Google Scholar

Seabold, S., Perktold, J. Statsmodels : modélisation économétrique et statistique avec python. 9e conférence Python en sciences (2010).

Perry, T. SimpleDorff - Calculer l'alpha de Krippendorff sur un DataFrame, (2020).

Zapf, A., Castell, S., Morawietz, L., Karch, A. Mesure de la fiabilité inter-juges pour les données nominales – quels coefficients et intervalles de confiance sont appropriés ? BMC Med. Rés. Méthodologie. 16https://doi.org/10.1186/s12874-016-0200-9 (2016).

Télécharger les références

Nous remercions tous les consultants du QEUH qui ont annoté l'ensemble des instances qui ont constitué une partie importante de l'analyse décrite dans cet article. Nous reconnaissons également les discussions utiles avec le professeur Hugh Montgomery (Faculté des sciences médicales, UCL). HW est soutenu par le Medical Research Council (MR/S004149/1, MR/S004149/2) ; Institut national de recherche en santé (NIHR202639); British Council (Collaboration internationale UCL-NMU-SEU sur l'intelligence artificielle en médecine : relever les défis de la faible généralisabilité et des inégalités en matière de santé) ; Bienvenue Trust ITPA (PIII0054/005); L'Institut Alan Turing, Londres, Royaume-Uni. HW est l'auteur correspondant de cet article - basé à l'UCL, Gower St, Londres, WC1E 6BT et joignable par e-mail : [email protected].

Institute of Health Informatics, University College London, Londres, Royaume-Uni

Sylolypavan & Honghan Wu

École des sciences naturelles et informatiques, Université d'Aberdeen, Aberdeen, Écosse, Royaume-Uni

Derek Sleeman

Institut Alan Turing, Londres, Royaume-Uni

Honghan Wu

École de médecine, d'infirmières et de dentisterie, Université de Glasgow, Aberdeen, Écosse, Royaume-Uni

Malcom Sim

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

AS a passé en revue la littérature, effectué le prétraitement des données, les analyses et rédigé le manuscrit. DS et HW ont conçu et conçu le projet, supervisé le projet et contribué à la rédaction du manuscrit. La SP a contribué à la conception de l'étude d'un point de vue clinique.

Correspondance à Honghan Wu.

Les auteurs ne déclarent aucun intérêt concurrent.

Les méthodes ont été réalisées conformément aux directives et réglementations en vigueur et approuvées par le comité d'éthique de la recherche de l'University College London. L'autorisation a été accordée par les contrôleurs de données d'utiliser les ensembles de données (complètement anonymisés) QEUH ICU, MIMIC-III et HiRID. Aucune donnée personnelle n'a été traitée dans cette étude. Les consultants qui ont annoté les ensembles de données QEUH ont été identifiés à l'aide de noms de code anonymes.

Note de l'éditeur Springer Nature reste neutre en ce qui concerne les revendications juridictionnelles dans les cartes publiées et les affiliations institutionnelles.

Libre accès Cet article est sous licence Creative Commons Attribution 4.0 International License, qui permet l'utilisation, le partage, l'adaptation, la distribution et la reproduction sur n'importe quel support ou format, tant que vous donnez le crédit approprié à l'auteur ou aux auteurs originaux et à la source, fournissez un lien vers la licence Creative Commons et indiquez si des modifications ont été apportées. Les images ou tout autre matériel tiers dans cet article sont inclus dans la licence Creative Commons de l'article, sauf indication contraire dans une ligne de crédit au matériel. Si le matériel n'est pas inclus dans la licence Creative Commons de l'article et que votre utilisation prévue n'est pas autorisée par la réglementation légale ou dépasse l'utilisation autorisée, vous devrez obtenir l'autorisation directement du détenteur des droits d'auteur. Pour voir une copie de cette licence, visitez http://creativecommons.org/licenses/by/4.0/.

Réimpressions et autorisations

Sylolypavan, A., Sleeman, D., Wu, H. et al. L'impact des annotations humaines incohérentes sur la prise de décision clinique basée sur l'IA. npj Chiffre. Méd. 6, 26 (2023). https://doi.org/10.1038/s41746-023-00773-3

Télécharger la citation

Reçu : 07 août 2022

Accepté : 07 février 2023

Publié: 21 février 2023

DOI : https://doi.org/10.1038/s41746-023-00773-3

Toute personne avec qui vous partagez le lien suivant pourra lire ce contenu :

Désolé, aucun lien partageable n'est actuellement disponible pour cet article.

Fourni par l'initiative de partage de contenu Springer Nature SharedIt

PARTAGER