OpenAI a utilisé des travailleurs kényans avec moins de 2 $ de l'heure : exclusif

Avertissement relatif au contenu : cette histoire contient des descriptions d'abus sexuels

ChatGPT a été salué comme l'une des innovations technologiques les plus impressionnantes de 2022 lors de sa sortie en novembre dernier. Le puissant chatbot d'intelligence artificielle (IA) peut générer du texte sur presque n'importe quel sujet ou thème, d'un sonnet shakespearien réinventé dans le style de Megan Thee Stallion, à des théorèmes mathématiques complexes décrits dans un langage qu'un enfant de 5 ans peut comprendre. En une semaine, il comptait plus d'un million d'utilisateurs.

Le créateur de ChatGPT, OpenAI, serait actuellement en pourparlers avec des investisseurs pour lever des fonds à une valorisation de 29 milliards de dollars, dont un investissement potentiel de 10 milliards de dollars par Microsoft. Cela ferait d'OpenAI, qui a été fondée à San Francisco en 2015 dans le but de construire des machines super intelligentes, l'une des sociétés d'IA les plus précieuses au monde.

Mais l'histoire du succès n'est pas seulement celle du génie de la Silicon Valley. Dans sa quête pour rendre ChatGPT moins toxique, OpenAI a fait appel à des travailleurs kenyans externalisés gagnant moins de 2 dollars de l'heure, a révélé une enquête de TIME.

Le travail était vital pour OpenAI. Le prédécesseur de ChatGPT, GPT-3, avait déjà montré une capacité impressionnante à enchaîner les phrases. Mais c'était une vente difficile, car l'application était également encline à laisser échapper des remarques violentes, sexistes et racistes. En effet, l'IA a été entraînée sur des centaines de milliards de mots extraits d'Internet, un vaste référentiel du langage humain. Cet énorme ensemble de données de formation était la raison des capacités linguistiques impressionnantes de GPT-3, mais était peut-être aussi sa plus grande malédiction. Étant donné que certaines parties d'Internet regorgent de toxicité et de biais, il n'y avait pas de moyen facile de purger ces sections des données d'entraînement. Même une équipe de centaines d'humains aurait mis des décennies à parcourir manuellement l'énorme ensemble de données. Ce n'est qu'en construisant un mécanisme de sécurité supplémentaire alimenté par l'IA qu'OpenAI serait en mesure de limiter ce préjudice, en produisant un chatbot adapté à un usage quotidien.

En savoir plus: Les chatbots IA s'améliorent. Mais une interview avec ChatGPT révèle leurs limites

Pour construire ce système de sécurité, OpenAI s'est inspiré du livre de jeu des entreprises de médias sociaux comme Facebook, qui avaient déjà montré qu'il était possible de construire des IA capables de détecter un langage toxique comme le discours de haine pour aider à le supprimer de leurs plateformes. Le principe était simple : alimenter une IA avec des exemples étiquetés de violence, de discours de haine et d'abus sexuels, et cet outil pourrait apprendre à détecter ces formes de toxicité dans la nature. Ce détecteur serait intégré à ChatGPT pour vérifier s'il faisait écho à la toxicité de ses données d'entraînement et le filtrer avant qu'il n'atteigne l'utilisateur. Cela pourrait également aider à éliminer les textes toxiques des ensembles de données de formation des futurs modèles d'IA.

Pour obtenir ces étiquettes, OpenAI a envoyé des dizaines de milliers d'extraits de texte à une entreprise de sous-traitance au Kenya, à partir de novembre 2021. Une grande partie de ce texte semblait avoir été extraite des recoins les plus sombres d'Internet. Certains d'entre eux décrivaient des situations avec des détails graphiques comme l'abus sexuel d'enfants, la bestialité, le meurtre, le suicide, la torture, l'automutilation et l'inceste.

Le partenaire d'externalisation d'OpenAI au Kenya était Sama, une entreprise basée à San Francisco qui emploie des travailleurs au Kenya, en Ouganda et en Inde pour étiqueter les données de clients de la Silicon Valley tels que Google, Meta et Microsoft. Sama se présente comme une entreprise "IA éthique" et prétend avoir aidé à sortir plus de 50 000 personnes de la pauvreté.

Les étiqueteurs de données employés par Sama pour le compte d'OpenAI recevaient un salaire net compris entre 1,32 $ et 2 $ de l'heure environ, en fonction de l'ancienneté et des performances. Pour cette histoire, TIME a examiné des centaines de pages de documents internes Sama et OpenAI, y compris les fiches de paie des travailleurs, et a interrogé quatre employés de Sama qui ont travaillé sur le projet. Tous les employés ont parlé sous couvert d'anonymat par souci pour leurs moyens de subsistance.

L'histoire des travailleurs qui ont rendu ChatGPT possible offre un aperçu des conditions dans cette partie peu connue de l'industrie de l'IA, qui joue néanmoins un rôle essentiel dans les efforts visant à rendre les systèmes d'IA sûrs pour la consommation publique. "Malgré le rôle fondamental joué par ces professionnels de l'enrichissement de données, un nombre croissant de recherches révèle les conditions de travail précaires auxquelles ces travailleurs sont confrontés", déclare le Partnership on AI, une coalition d'organisations d'IA à laquelle appartient OpenAI. "Cela peut être le résultat d'efforts pour cacher la dépendance de l'IA à cette importante main-d'œuvre lors de la célébration des gains d'efficacité de la technologie. Loin des yeux, c'est aussi loin du cœur." (OpenAI ne divulgue pas les noms des sous-traitants avec lesquels il s'associe, et il n'est pas clair si OpenAI a travaillé avec d'autres entreprises d'étiquetage de données en plus de Sama sur ce projet.)

Dans un communiqué, un porte-parole d'OpenAI a confirmé que les employés de Sama au Kenya avaient contribué à un outil qu'il construisait pour détecter le contenu toxique, qui a finalement été intégré à ChatGPT. La déclaration indique également que ce travail a contribué aux efforts visant à supprimer les données toxiques des ensembles de données de formation d'outils tels que ChatGPT. "Notre mission est de garantir que l'intelligence générale artificielle profite à toute l'humanité, et nous travaillons dur pour construire des systèmes d'IA sûrs et utiles qui limitent les préjugés et les contenus préjudiciables", a déclaré le porte-parole. "Classer et filtrer [textes et images] nuisibles est une étape nécessaire pour minimiser la quantité de contenu violent et sexuel inclus dans les données de formation et créer des outils capables de détecter les contenus nuisibles."

Alors même que l'économie technologique au sens large ralentit dans l'anticipation d'un ralentissement, les investisseurs se précipitent pour injecter des milliards de dollars dans "l'IA générative", le secteur de l'industrie technologique dont OpenAI est le leader incontesté. Le texte, les images, la vidéo et l'audio générés par ordinateur transformeront la façon dont d'innombrables industries font des affaires, pensent les investisseurs les plus optimistes, en augmentant l'efficacité partout, des arts créatifs au droit en passant par la programmation informatique. Mais les conditions de travail des étiqueteurs de données révèlent une partie plus sombre de cette image : que malgré tout son glamour, l'IA repose souvent sur un travail humain caché dans les pays du Sud, qui peut souvent être dommageable et exploiteur. Ces travailleurs invisibles restent en marge alors même que leur travail contribue à des industries d'un milliard de dollars.

En savoir plus: L'IA a aidé à écrire cette pièce. Il peut contenir du racisme

Un employé de Sama chargé de lire et d'étiqueter du texte pour OpenAI a déclaré à TIME qu'il souffrait de visions récurrentes après avoir lu une description graphique d'un homme ayant des relations sexuelles avec un chien en présence d'un jeune enfant. "C'était de la torture", a-t-il dit. "Vous lirez un certain nombre de déclarations comme celle-là tout au long de la semaine. Au moment où il arrive à vendredi, vous êtes dérangé de penser à cette image." La nature traumatisante du travail a finalement conduit Sama à annuler tout son travail pour OpenAI en février 2022, huit mois plus tôt que prévu.

Les documents examinés par TIME montrent qu'OpenAI a signé trois contrats d'une valeur totale d'environ 200 000 dollars avec Sama fin 2021 pour étiqueter les descriptions textuelles d'abus sexuels, de discours de haine et de violence. Environ trois douzaines de travailleurs ont été répartis en trois équipes, une se concentrant sur chaque sujet. Trois employés ont déclaré à TIME qu'ils devaient lire et étiqueter entre 150 et 250 passages de texte par quart de travail de neuf heures. Ces extraits peuvent aller d'environ 100 mots à plus de 1 000. Les quatre employés interrogés par TIME ont tous décrit avoir été marqués mentalement par le travail. Bien qu'ils aient eu le droit d'assister à des séances avec des conseillers en "bien-être", tous les quatre ont déclaré que ces séances étaient inutiles et rares en raison des exigences élevées pour être plus productifs au travail. Deux ont déclaré qu'ils n'avaient eu que la possibilité d'assister à des séances de groupe, et un a déclaré que leurs demandes de voir des conseillers en tête-à-tête avaient été refusées à plusieurs reprises par la direction de Sama.

Dans un communiqué, un porte-parole de Sama a déclaré qu'il était "incorrect" que les employés n'aient accès qu'aux sessions de groupe. Les employés avaient droit à des séances individuelles et de groupe avec "des thérapeutes en santé mentale formés et agréés par des professionnels", a déclaré le porte-parole. Ces thérapeutes étaient accessibles à tout moment, a ajouté le porte-parole.

Les contrats stipulaient qu'OpenAI paierait un taux horaire de 12,50 $ à Sama pour le travail, ce qui représentait entre six et neuf fois le montant horaire que les employés de Sama sur le projet rapportaient à la maison. Les agents, les étiqueteurs de données les plus juniors qui constituaient la majorité des trois équipes, recevaient un salaire de base de 21 000 shillings kenyans (170 dollars) par mois, selon trois employés de Sama. Ils recevaient également des primes mensuelles d'une valeur d'environ 70 $ en raison de la nature explicite de leur travail, et recevaient une commission pour répondre aux indicateurs de performance clés comme la précision et la rapidité. Un agent travaillant des quarts de neuf heures pourrait s'attendre à gagner au moins 1,32 $ de l'heure après impôt, pouvant atteindre 1,44 $ de l'heure s'il dépassait tous ses objectifs. Les analystes de la qualité - des étiqueteurs plus expérimentés dont le travail consistait à vérifier le travail des agents - pouvaient rapporter jusqu'à 2 $ de l'heure s'ils atteignaient tous leurs objectifs. (Il n'y a pas de salaire minimum universel au Kenya, mais à l'époque où ces travailleurs étaient employés, le salaire minimum d'un réceptionniste à Nairobi était de 1,52 $ de l'heure.)

Dans un communiqué, un porte-parole de Sama a déclaré que les travailleurs devaient étiqueter 70 passages de texte par quart de neuf heures, pas jusqu'à 250, et que les travailleurs pouvaient gagner entre 1,46 et 3,74 dollars de l'heure après impôts. Le porte-parole a refusé de dire quels postes gagneraient des salaires vers le haut de cette fourchette. « Le tarif de 12,50 $ pour le projet couvre tous les coûts, comme les dépenses d'infrastructure, ainsi que le salaire et les avantages sociaux des associés et de leurs analystes d'assurance qualité et chefs d'équipe entièrement dédiés », a ajouté le porte-parole.

Lire la suite : Les applications d'IA amusantes sont partout en ce moment. Mais un « compte » de sécurité arrive

Un porte-parole d'OpenAI a déclaré dans un communiqué que l'entreprise n'avait fixé aucun objectif de productivité et que Sama était responsable de la gestion des paiements et des dispositions relatives à la santé mentale des employés. Le porte-parole a ajouté : « nous prenons très au sérieux la santé mentale de nos employés et de celles de nos sous-traitants. Notre compréhension antérieure était que [chez Sama] des programmes de bien-être et des conseils individuels étaient proposés, les travailleurs pouvaient se retirer de tout travail sans pénalisation, l'exposition à un contenu explicite aurait une limite et les informations sensibles seraient traitées par des travailleurs spécialement formés pour le faire.

Dans le travail quotidien d'étiquetage des données au Kenya, des cas extrêmes apparaissaient parfois, montrant la difficulté d'apprendre à une machine à comprendre les nuances. Un jour, début mars de l'année dernière, un employé de Sama était au travail et lisait une histoire explicite sur l'acolyte de Batman, Robin, violée dans l'antre d'un méchant. (Une recherche en ligne du texte révèle qu'il provient d'un site érotique en ligne, où il est accompagné d'images sexuelles explicites.) Le début de l'histoire indique clairement que le sexe n'est pas consensuel. Mais plus tard, après une description graphiquement détaillée de la pénétration, Robin commence à rendre la pareille. L'employé de Sama chargé d'étiqueter le texte a semblé confus par le consentement ambigu de Robin et a demandé aux chercheurs d'OpenAI des éclaircissements sur la façon d'étiqueter le texte, selon les documents vus par TIME. Le passage devrait-il être qualifié de violence sexuelle, a-t-elle demandé, ou non? La réponse d'OpenAI, si elle arrive, n'est pas enregistrée dans le document ; la société a refusé de commenter. L'employé de Sama n'a pas répondu à une demande d'entretien.

En février 2022, la relation entre Sama et OpenAI s'est brièvement approfondie, pour ensuite faiblir. Ce mois-là, Sama a commencé un travail pilote pour un projet distinct pour OpenAI : collecter des images sexuelles et violentes, dont certaines sont illégales en vertu de la loi américaine, pour les livrer à OpenAI. Le travail d'étiquetage des images semble être sans rapport avec ChatGPT. Dans un communiqué, un porte-parole d'OpenAI n'a pas précisé le but des images que la société recherchait auprès de Sama, mais a déclaré que l'étiquetage des images nuisibles était "une étape nécessaire" pour rendre ses outils d'IA plus sûrs. (OpenAI construit également une technologie de génération d'images.) En février, selon un document de facturation examiné par TIME, Sama a livré à OpenAI un échantillon de 1 400 images. Certaines de ces images ont été classées dans la catégorie "C4" - l'étiquette interne d'OpenAI désignant les abus sexuels sur des enfants - selon le document. Le lot comprenait également des images "C3" (y compris la bestialité, le viol et l'esclavage sexuel) et des images "V3" représentant des détails graphiques de décès, de violence ou de blessures physiques graves, selon le document de facturation. OpenAI a payé à Sama un total de 787,50 $ pour la collecte des images, indique le document.

En quelques semaines, Sama avait annulé tout son travail pour OpenAI, huit mois plus tôt que prévu dans les contrats. La société de sous-traitance a déclaré dans un communiqué que son accord de collecte d'images pour OpenAI ne comportait aucune référence à des contenus illégaux, et ce n'est qu'après le début des travaux qu'OpenAI a envoyé des "instructions supplémentaires" faisant référence à "certaines catégories illégales". "L'équipe d'Afrique de l'Est a immédiatement fait part de ses inquiétudes à nos dirigeants. Sama a immédiatement mis fin au projet pilote de classification d'images et a annoncé que nous annulerions tous les [projets] restants avec OpenAI", a déclaré un porte-parole de Sama. "Les personnes travaillant avec le client n'ont pas examiné la demande par les voies appropriées. Après un examen de la situation, les personnes ont été licenciées et de nouvelles politiques de vérification des ventes et des garde-fous ont été mis en place."

Dans un communiqué, OpenAI a confirmé avoir reçu 1 400 images de Sama qui "incluaient, mais sans s'y limiter, les images C4, C3, C2, V3, V2 et V1". Dans une déclaration de suivi, la société a déclaré: "Nous avons engagé Sama dans le cadre de notre travail continu pour créer des systèmes d'IA plus sûrs et empêcher les sorties nuisibles. Nous n'avons jamais eu l'intention de collecter du contenu dans la catégorie C4. Ce contenu n'est pas nécessaire comme entrée pour nos filtres de pré-formation et nous demandons à nos employés de l'éviter activement. nous n'avons pas ouvert ni affiché le contenu en question — nous ne pouvons donc pas confirmer s'il contenait des images de la catégorie C4."

La décision de Sama de mettre fin à son travail avec OpenAI signifiait que les employés de Sama n'avaient plus à faire face à des textes et des images dérangeants, mais cela avait également un impact important sur leurs moyens de subsistance. Les travailleurs de Sama disent avoir été convoqués fin février 2022 à une réunion avec des membres de l'équipe des ressources humaines de l'entreprise, où ils ont appris la nouvelle. "On nous a dit qu'ils [Sama] ne voulaient plus exposer leurs employés à un contenu [dangereux]", a déclaré un employé de Sama sur les projets d'étiquetage de texte. "Nous avons répondu que pour nous, c'était une façon de subvenir aux besoins de nos familles." La plupart des quelque trois douzaines de travailleurs ont été transférés vers d'autres flux de travail moins bien rémunérés sans le bonus de contenu explicite de 70 $ par mois; d'autres ont perdu leur emploi. Sama a livré son dernier lot de données étiquetées à OpenAI en mars, huit mois avant la fin du contrat.

Parce que les contrats ont été annulés tôt, OpenAI et Sama ont déclaré que les 200 000 $ qu'ils avaient précédemment convenus n'avaient pas été payés en totalité. OpenAI a déclaré que les contrats valaient "environ 150 000 dollars au cours du partenariat".

Les employés de Sama disent qu'on leur a donné une autre raison pour l'annulation des contrats par leurs managers. Le 14 février, TIME a publié un article intitulé Inside Facebook's African Sweatshop. L'enquête a détaillé comment Sama employait des modérateurs de contenu pour Facebook, dont le travail consistait à visionner des images et des vidéos d'exécutions, de viols et de maltraitance d'enfants pour aussi peu que 1,50 $ de l'heure. Quatre employés de Sama ont déclaré avoir été informés que l'enquête avait incité l'entreprise à mettre fin à ses travaux pour OpenAI. (Facebook indique qu'il exige de ses partenaires d'externalisation qu'ils "fournissent un salaire, des avantages et une assistance parmi les meilleurs de l'industrie".)

Lire la suite : À l'intérieur du sweatshop africain de Facebook

Les communications internes après la publication de l'histoire de Facebook, examinées par TIME, montrent que les dirigeants de Sama à San Francisco se bousculent pour faire face aux retombées des relations publiques, notamment en obligeant une entreprise, une filiale de Lufthansa, qui voulait que la preuve de sa relation commerciale avec Sama soit effacée du site Web de l'entreprise de sous-traitance. Dans une déclaration à TIME, Lufthansa a confirmé que cela s'était produit et a ajouté que sa filiale zeroG avait par la suite mis fin à ses activités avec Sama. Le 17 février, trois jours après la publication de l'enquête de TIME, la PDG de Sama, Wendy Gonzalez, a envoyé un message à un groupe de cadres supérieurs via Slack : "Nous allons mettre fin au travail d'OpenAI."

Le 10 janvier de cette année, Sama est allé plus loin en annonçant qu'il annulait tout le reste de son travail avec un contenu sensible. L'entreprise a déclaré qu'elle ne renouvellerait pas son contrat de modération de contenu de 3,9 millions de dollars avec Facebook, entraînant la perte de quelque 200 emplois à Nairobi. "Après de nombreuses discussions avec notre équipe mondiale, Sama a pris la décision stratégique de quitter tous les travaux [de traitement du langage naturel] et de modération de contenu pour se concentrer sur les solutions d'annotation de données de vision par ordinateur", a déclaré la société dans un communiqué. "Nous avons passé l'année dernière à travailler avec des clients pour faire la transition de ces engagements, et la sortie sera terminée en mars 2023."

Mais la nécessité pour les humains d'étiqueter les données pour les systèmes d'IA demeure, du moins pour l'instant. "Ils sont impressionnants, mais ChatGPT et d'autres modèles génératifs ne sont pas magiques - ils s'appuient sur des chaînes d'approvisionnement massives de travail humain et de données récupérées, dont une grande partie n'est pas attribuée et utilisée sans consentement", a récemment écrit Andrew Strait, un éthicien de l'IA, sur Twitter. "Ce sont des problèmes graves et fondamentaux que je ne vois pas OpenAI aborder."

Avec le reportage de Julia Zorthian/New York

Écrire àBilly Perrigo à [email protected].

Lire la suite : Lire la suite : Lire la suite : À l'intérieur de l'atelier de misère africain de Facebook, le prince Harry rompt la sécurité de la convention royale Le réseau ferroviaire indien est-il ? Comment le monde doit réagir à l'IA Elliot Page : Adopter mon identité trans m'a sauvé Le sauteur en hauteur du Texas a gagné près d'un million de dollars.

Blog

OpenAI a utilisé des travailleurs kényans avec moins de 2 $ de l'heure : exclusif