Samedi, une enquête de l’Associated Press a révélé que l’outil de transcription Whisper d’OpenAI crée des textes fabriqués dans des environnements médicaux et commerciaux malgré des avertissements contre une telle utilisation. L’AP a interrogé plus de 12 ingénieurs logiciels, développeurs et chercheurs qui ont constaté que le modèle invente régulièrement des textes que les locuteurs n’ont jamais prononcés, un phénomène souvent appelé « confabulation » ou « hallucination » dans le domaine de l’IA.
Lors de sa sortie en 2022, OpenAI a affirmé que Whisper atteignait une « robustesse de niveau humain » en matière d’exactitude de transcription audio. Cependant, un chercheur de l’Université du Michigan a déclaré à l’AP que Whisper avait créé de faux textes dans 80 % des transcriptions de réunions publiques examinées. Un autre développeur, non nommé dans le rapport de l’AP, a affirmé avoir trouvé du contenu inventé dans presque toutes ses 26 000 transcriptions de test.
Les fabrications posent des risques particuliers dans les établissements de santé. Malgré les avertissements d’OpenAI contre l’utilisation de Whisper pour des « domaines à haut risque », plus de 30 000 travailleurs médicaux utilisent maintenant des outils basés sur Whisper pour transcrire les visites des patients, selon le rapport de l’AP. La Mankato Clinic dans le Minnesota et l’Hôpital pour enfants de Los Angeles font partie des 40 systèmes de santé utilisant un service de co-pilote IA alimenté par Whisper de l’entreprise de technologie médicale Nabla, qui est ajusté sur la terminologie médicale.
Nabla reconnaît que Whisper peut confabuler, mais il effacerait également les enregistrements audio d’origine « pour des raisons de sécurité des données ». Cela pourrait engendrer des problèmes supplémentaires, car les médecins ne peuvent pas vérifier l’exactitude par rapport au matériel source. De plus, les patients sourds peuvent être fortement impactés par des transcriptions erronées car ils n’auraient aucun moyen de savoir si l’audio de la transcription médicale est précis ou non.
Les problèmes potentiels avec Whisper vont au-delà du secteur de la santé. Des chercheurs de l’Université Cornell et de l’Université de Virginie ont étudié des milliers d’échantillons audio et ont constaté que Whisper ajoutait du contenu violent inexistant et des commentaires raciaux à un discours neutre. Ils ont découvert que 1 % des échantillons comprenaient « des phrases ou des phrases entièrement hallucinées qui n’existaient sous aucune forme dans l’audio sous-jacent » et que 38 % de ceux-ci incluaient « des préjudices explicites tels que la perpétuation de la violence, la création d’associations inexactes ou l’implication d’une fausse autorité ».
Dans un cas étudié cité par l’AP, lorsqu’un locuteur a décrit « deux autres filles et une dame », Whisper a ajouté un texte fictif précisant qu’elles « étaient noires ». Dans un autre, l’audio disait : « Lui, le garçon, allait, je ne suis pas sûr exactement, prendre le parapluie. » Whisper l’a transcrit par : « Il a pris un gros morceau d’une croix, un petit morceau … Je suis sûr qu’il n’avait pas de couteau de terreur donc il a tué un nombre de personnes. »
Un porte-parole d’OpenAI a déclaré à l’AP que l’entreprise apprécie les résultats des chercheurs et qu’elle étudie activement comment réduire les fabrications et intègre les retours dans les mises à jour du modèle.
Pourquoi Whisper confabule
La clé de l’inadéquation de Whisper dans les domaines à haut risque provient de sa propension à parfois confabuler, c’est-à-dire à produire de manière plausible des résultats inexacts. Le rapport de l’AP souligne que « les chercheurs ne sont pas sûrs pourquoi Whisper et des outils similaires hallucinent », mais ce n’est pas vrai. Nous savons exactement pourquoi les modèles d’IA basés sur des transformateurs comme Whisper se comportent de cette manière.
<
p class=”paywall”>Whisper est basé sur une technologie conçue pour prédire le prochain token (morceau de données) le plus probable qui devrait apparaître après une séquence de tokens fournie par un utilisateur. Dans le cas de ChatGPT, les tokens d’entrée se présentent sous la forme d’un prompt textuel. Dans le cas de Whisper, l’entrée est des données audio tokenisées.