Pourquoi mesurer la précision des IA renforce leurs hallucinations

Date:

1. Un phénomène perturbant : quand les modèles inventent avec assurance

Les grands modèles de langage peuvent produire des réponses convaincantes mais incorrectes, appelées hallucinations, ce qui réduit leur fiabilité. Ces erreurs surviennent même dans des modèles performants : par exemple, un assistant peut inventer l’existence d’un article scientifique ou donner une date erronée pour un événement historique lorsque la réponse lui semble plausible.

  • Exemple précis : un modèle qui, face à une question très spécifique sur une découverte obscure, génère un titre et une référence bibliographique inexistants plutôt que d’indiquer une incertitude.
  • Problème clé : la confiance affichée par le modèle trompe l’utilisateur et peut entraîner des décisions erronées.

2. Mécanique sous-jacente : la pression statistique du pré-entraînement

La phase de pré-entraînement par prédiction du prochain mot crée une pression statistique à « deviner » la suite la plus probable, ce qui favorise des réponses générées plutôt que des abstentions quand les données sont rares. Les règles récurrentes (grammaire, expressions fréquentes) sont apprises aisément, alors que les faits uniques ou peu représentés dans les données (détails « one-off ») restent vulnérables aux erreurs inévitables selon des principes d’apprentissage statistique.

  • Exemple précis : une propriété chimique très spécifique mentionnée une seule fois dans le corpus a peu de chances d’être modélisée fidèlement, contrairement aux structures grammaticales répétées.
  • Conséquence : même sans bruit dans les données d’entraînement, l’algorithme favorise la génération d’une réponse plausible plutôt que l’absence de réponse.

3. Les métriques classiques : quand l’évaluation encourage le risque

Les métriques dominantes, centrées sur l’exactitude (accuracy), récompensent les réponses correctes mais ne pénalisent pas suffisamment les erreurs graves, ce qui crée une incitation à répondre plutôt qu’à reconnaître l’incertitude. En pratique, un modèle optimisant l’accuracy moyenne favorise le « pari » sur une réponse probable même si elle est risquée.

  • Exemple précis : dans un benchmark QA sans pénalité d’erreur, deviner une réponse (avec chance d’être correcte) obtient une meilleure note que s’abstenir et fournir une estimation prudente.
  • Effet indésirable : les tableaux de classement (leaderboards) valorisent les systèmes qui « couvrent » plus de questions par des réponses plutôt que ceux qui donnent des réponses fiables.

4. Deux changements d’évaluation pour réaligner les incitations

Pour réduire les hallucinations, il faut adapter les critères d’évaluation afin d’encourager l’abstention lorsque le modèle est incertain. Deux propositions concrètes : (1) des évaluations à rubrique ouverte (open-rubric) qui déclarent explicitement comment les erreurs et les abstentions sont pénalisées ; (2) des variantes ouvertes des évaluations existantes qui intègrent ces pénalités pour inverser l’incitation à deviner.

  • Exemple précis : un benchmark médical où une fausse affirmation coûte beaucoup plus qu’une abstention ; le score final combine la précision avec une pénalité d’erreur explicite.
  • Recommandation : publier les règles de pénalisation dans les rubriques d’évaluation pour que les modèles puissent s’optimiser en connaissance de cause.

5. Cas d’usage concrets : où l’abstention vaut mieux que l’invention

Certaines applications exigent une prudence extrême : médecine, droit, fact-checking et recommandations financières. Dans ces domaines, une erreur peut être coûteuse, donc l’incitation à s’abstenir doit être intégrée au moment de l’évaluation et du déploiement.

  • Exemple médical : un assistant diagnostique devrait pouvoir répondre « je n’ai pas suffisamment d’information » plutôt que de proposer un diagnostic non vérifié.
  • Exemple factuel : pour la vérification d’une statistique rare, le système devrait signaler le besoin d’une source au lieu d’inventer un chiffre.

6. Avantages et perspectives : repenser les hallucinations comme un problème d’incitations

Reformuler les hallucinations en termes d’incitations ouvre une voie pragmatique pour améliorer la fiabilité : en modifiant les métriques et les rubriques d’évaluation, on oriente l’apprentissage et l’optimisation des systèmes vers la prudence et la transparence. Les bénéfices attendus comprennent une baisse des erreurs fabricatives et une meilleure adéquation entre comportement du modèle et attentes humaines.

  • Bénéfices pratiques : réduction des affirmations inventées, meilleure calibration de la confiance, évaluations plus représentatives des risques réels.
  • Perspective : combiner pénalités d’erreur, rubriques ouvertes et adaptation des leaderboards pour encourager des modèles qui savent dire « je ne sais pas » quand c’est approprié.

En savoir plus sur L'ABESTIT

Subscribe to get the latest posts sent to your email.

Share post:

Popular

More like this
Related

Canicule : 54 départements en vigilance rouge dès mardi midi

Alors que l’épisode caniculaire se poursuit, la vigilance rouge est étendue par Météo-France aux départements du Calvados, de l’Eure, de la Manche, de la Seine-Maritime et de l’Oise, à compter de mardi, à midi....

Guerre au Moyen-Orient : l’Iran veut administrer le détroit d’Ormuz

« Tout le monde doit savoir que l’administration du détroit d’Ormuz ne redeviendra jamais ce qu’elle était avant la guerre », a affirmé Mohammad Bagher Ghalibaf lundi....

Roumanie : Adrian Vestea recalé, l’AUR réclame des élections anticipées

Alors que la crise politique se poursuit, le parti d’extrême droite AUR, qui progresse dans les sondages, plaide pour des élections anticipées....

Double accident sur l’A9 à Fabrègues : sept blessés, trafic coupé

Un double accident sur l'autoroute A9 a perturbé la circulation toute la matinée, ce lundi, sur la commune de Fabrègues, en direction de Béziers. Le bilan total s'élève à sept blessés....