On ne remarque jamais autant les autocorrecteurs que lorsqu’ils ne fonctionnent pas : les petites dentelures rouges des logiciels de traitement de texte sont prodigieusement irritantes et les erreurs de correction automatique des smartphones ont causé bien des moments d’embarras. Reste que ces systèmes ont sans doute épargné de nombreuses catastrophes à leurs utilisateurs : une faute énorme dans une lettre de motivation, un message rendu indéchiffrable par un état d’ivresse avancé… Qui devons-nous remercier pour ces entités technologiques tout à la fois miraculeuses et démoniaques ? 

L’histoire des correcteurs automatiques a commencé chez Microsoft au début des années 90, entre les mains d’un certain Dean Hachamovitch. Une dizaine d’années après son lancement, Word, le fameux logiciel de traitement de texte de l’entreprise, ne disposait que d’un « autoexpander » qui permettait d’insérer automatiquement un mot ou un élément dans le document en tapant une commande pré-programmée. Hachamovitch s’est inspiré de ce système pour coder le premier mécanisme de correction automatique connu : une pression simultanée sur la flèche gauche et F3 pour remplacer « teh » par « the ». 

Hachamovitch et ses valeureux collègues ont vite senti que cette idée pouvait développer des ramifications intéressantes. Au fil des années suivantes, l’équipe de Microsoft a donc patiemment répertorié les erreurs orthographiques et typographiques les plus courantes, mais aussi simplifié l’utilisation du système. Une simple pression sur la barre d’espace permettait désormais de corriger les majuscules mal placées et les fautes les plus manifestes. Cependant, le logiciel ne pouvait corriger que les coquilles qui lui avaient été signalées par ses maîtres humains. Et les choses se sont vite compliquées. 

Tous les mots qui composent une langue ne peuvent pas nécessairement être considérés comme justes ou faux. De plus, les règles de correction automatiques « hard-codées » dans Word entraient parfois en conflit avec la réalité : pour faire comprendre à la machine qu’elle ne devait pas corriger « RADAR » ou « CD » car il s’agissait d’acronymes et non d’erreurs de Caps Lock, Hachamovitch et ses collègues ont dû coder des exceptions. Malheureusement, graver tous ces cas uniques dans la tête de la machine aurait demandé un travail assommant et permanent. Il fallait trouver autre chose.

Le bouillonnement technologique de la fin des années 90 a vite apporté un début de solution au problème de Hachamovitch. Le fameux T9 ou « Texte sur neuf touches » de Cliff Kushler, le co-fondateur de l’entreprise Tegic Communications, mêlait le système de dictionnaire des logiciels de traitement de texte à des formules d’apprentissage des habitudes rédactionnelles des utilisateurs des premiers téléphones portables. La saisie intuitive était née. Taper des messages sur un clavier à neuf touches devenait soudain plus facile et rapide, juste à temps pour l’explosion de la popularité des SMS : en 1999, un Américain envoyait en moyenne 0,4 messages par mois… Et 35 cinq ans plus tard.

Sur ordinateur comme sur téléphone portable, les systèmes de correction de l’époque fixaient essentiellement leur attention sur des fautes orthographiques ou typographiques qui ne concernaient que des mots uniques. Pour corriger des erreurs de grammaire, les dispositifs de correction automatiques allaient devoir apprendre à « saisir » le contexte d’une phrase toute entière. Plusieurs chercheurs ont proposé des modes de résolution de ce problème dès les années 80, mais la première incarnation notable de leurs idées est sans doute le LanguageTool, un outil développé dans le cadre d’une thèse par Daniel Naber au milieu des années 2000

S’il est difficile de maintenir un dictionnaire orthographique à jour, fabriquer un dictionnaire grammatical « à la main » est probablement impossible, car cela impliquerait de graver toutes les relations potentielles entre tous les mots d’une langue dans la tête de la machine. Les chercheurs en linguistique ont donc opté pour des approches statistique ou analytique du problème, comme ces systèmes conçus pour estimer la « justesse » d’une phrase en comparant la nature et l’ordre de ses mots à des modèles préalablement appris. Employées seules, ces méthodes sont faillibles car elles ignorent les ambiguïtés de la grammaire en la considérant comme immuable. Daniel Naber a donc choisi de marier cette approche de « marquage » avec un ensemble de règles rédigées manuellement. 

« Cette approche basée sur des règles est assez simple pour permettre aux utilisateurs de rédiger leurs propres règles, mais aussi assez puissante pour repérer de nombreuses erreurs habituelles », écrit Naber en introduction de sa thèse. Et son idée à fait recette. Olivier R., le créateur du correcteur grammatical open-source Grammalecte, explique qu’il préfère lui aussi les règles dans un entretien pour VICE France : « Grammalecte n’utilise pas d’intelligence artificielle et ne se base pas sur des calculs statistiques non plus, mais sur une très grande liste de “règles” prédéfinies : des règles de détection d’erreur, de transformation interne du texte, de désambiguïsation et d’étiquetage des mots, ainsi que des règles d’immunité. »

Les règles de grammaire de LanguageTool ont vite été adoptées par nombreux systèmes de correction automatique, comme son équivalent néerlandais OpenTaal. Après sa sortie, le système de saisie prédictive T9 a également connu son heure de gloire : Sony Ericsson, Nokia, Samsung, Siemens, et de nombreux autres constructeurs majeurs ont adopté la technologie de Tegic Communications. Au milieu des années 2000, le T9 comptait également de nombreux concurrents. Puis, soudain, les smartphones et leurs claviers complets sont arrivés sur le dos des entreprises géantes de la Silicon Valley. 

Dans une confession publiée en 2018 sur Wired, Ken Kocienda, le concepteur du système de correction automatique des premiers iPhone, explique : « Le code pour l’autocorrecteur du iPhone est basé sur une analyse des mots que nous tapons le plus souvent, la fréquence des mots les uns par rapport aux autres, et les erreurs que nous sommes les plus à même de commettre sur un clavier tactile. » C’était en 2005. Doucement mais sûrement, le monde de l’autocorrection s’engageait sur le chemin des modèles de langage et de la prédiction. Mais pour un temps encore, il allait rester une affaire de dictionnaire

À l’aube des années 2010, les fabricants de smartphone ses gardaient bien de partager les secrets de leurs systèmes d’autocorrection. Nuance, le nouveau propriétaire du T9, était au contraire fort heureux de révéler les rouages de son système, désormais adapté aux claviers tactiles. Après vingt ans de travail, le principe demeurait le même : chaque fois que l’utilisateur tapait un mot, le téléphone le comparait à un dictionnaire d’expressions. Cependant, le nouveau T9 avait également été entraîné à reconnaître la structure du langage et les mots les plus courants en parcourant de grandes quantités de texte. C’est le principe du machine learning

Les techniques de machine learning ont considérablement évolué ces dernières années, et particulièrement dans le domaine du langage. Ces « ordinateurs qui apprennent » sont désormais capables de traiter des quantités considérables d’information pour en extraire des connaissances – comment fonctionne une langue, par exemple. Les monstres de la Silicon Valley ont vite compris que les quantités gargantuesques de données qu’ils tiraient de leurs utilisateurs pouvaient servir au développement de nouvelles technologies potentiellement lucratives : sans lire vos mails, par exemple, Google n’aurait pas pu développer Smart Compose, ce système qui complète vos phrases avant vous. 

Le glissement de la correction à la prédiction suppose de passer d’une appréhension « localisée » de la langue – une simple connaissance des mots – à une compréhension de ces vastes systèmes que sont les phrases. Pour acquérir une telle capacité, les systèmes de machine learning de Google et Apple, entre autres, ont dû lire des quantités considérables de textes. À force d’analyse, ils en ont déduit des règles statistiques sur l’organisation de notre langue : la machine « sait » que si vous tapez tel mot à tel moment, tel mot sera le plus susceptible de le suivre, ou que le nom qui suit l’article défini « les » sera toujours au pluriel.

Apple a intégré un système d’autocorrection basé sur le machine learning à ses iPhone à partir de 2017. L’année suivante, Google a lancé Smart Compose pour Gmail et Docs en assumant son entraînement sur « une grande quantités de données e-mail ». En février 2021, Microsoft a finalement rejoint le mouvement en lançant Text Predictions. Ces produits forment la tête de pont grand public de systèmes encore plus performants mais toujours prisonniers de leurs laboratoires de naissance. Le GPT-3 d’OpenAI, par exemple, est assez performant pour vous entraîner dans des aventures textuelles interactives et proposer de nouvelles idées aux créatifs en galère. En général, ce modèle fascinant écrit sans fautes. Malheureusement, il ne comprend rien à ce qu’il raconte.

Aussi perfectionnés soient-ils, les derniers systèmes de correction et de suggestion ne connaissent pas le sens des mots – seulement leur orthographe et les relations qui les unissent. Ancrer une compréhension sémantique de la plus simple des langues dans la cervelle figée d’une machine est encore impossible. 

Un jour, peut-être, les ordinateurs maîtriseront mieux les règles du langage que les êtres humains eux-même. Reste qu’ils ne pourront jamais prédire vos intentions avec précision : aussi augmentée et surveillée soit-elle, votre écriture sera toujours la votre. Les petites entreprises de correction automatique le savent bien. « Nous avons fait un choix éditorial, explique Kevin Comte, le responsable communication du logiciel français Cordial. Quand quelque chose pose un doute, nous le soulignons et nous proposons des explications à l’utilisateur. Il lui appartient de corriger s’il en a envie. » Les grosses boîtes américaines qui favorisent volontiers la facilité à la liberté devraient en prendre de la graine. 

VICE France est aussi sur Twitter, Instagram, Facebook et sur Flipboard.
VICE Belgique est sur Instagram et Facebook.

Source


En savoir plus sur L'ABESTIT

Subscribe to get the latest posts sent to your email.

Share this post

Articles similaires

23 NOVEMBRE 2024

Cop29 en direct : des groupes représentant des nations vulnérables quittent la réunion alors que les craintes...

L'Alliance des Petits États Insulaires et des Pays les Moins Avancés a déclaré qu'elle voulait une garantie de 30 % du financement climatique, puis a quitté la réunionMarchant en silence les bras croisés, des militants du monde entier ont protesté contre le projet d'accord au lieu de la...

0

23 NOVEMBRE 2024

Des gang masqués ont fait irruption dans la maison de l’accusateur de Conor McGregor, a déclaré le tribunal de...

L'incident a été révélé après que le tribunal civil a découvert que le combattant de MMA avait agressé Nikita Hand en décembre 2018Un groupe d'hommes masqués a fait irruption dans la maison d'une femme qui a intenté une action civile contre le combattant d'arts martiaux mixtes Conor...

0

23 NOVEMBRE 2024

Guerre Russie-Ukraine en direct : Moscou affirme que l’avancée dans l’est de l’Ukraine s’est...

Le ministère russe de la Défense a déclaré que ses forces avaient capturé le village de Novodmytrivka dans la région de Donetsk, dans l'est de l'Ukraine Continue reading...

0

23 NOVEMBRE 2024

‘Des vagues de chaleur marines « catastrophiques » tuent la vie marine et provoquent des perturbations massives...

Une recherche ciblée doit être lancée d'urgence pour sauver les créatures marines et la vie végétale, avertit le centre d'océanographieLa Grande-Bretagne est confrontée à un avenir de vagues de chaleur marines de plus en plus catastrophiques qui pourraient détruire les colonies de...

0

23 NOVEMBRE 2024

Le patron de Jaguar défend la nouvelle publicité et le rebranding au milieu de la « haine vile » en ligne.

Le clip sur les réseaux sociaux présente des modèles en vêtements colorés mais sans voiture dans ce que Rawdon Glover décrit comme un « réimaginaire »Le patron de Jaguar a défendu le choix de l'entreprise de s'éloigner des « stéréotypes automobiles traditionnels » après qu'un...

0

23 NOVEMBRE 2024

KFC abandonne son engagement à ne plus utiliser de ‘Frankenchickens’ au Royaume-Uni

Chain dit qu'elle ne pourra pas cesser d'acheter des races à croissance rapide d'ici 2026, car l'industrie avicole ne peut pas fournir suffisamment d'animaux à bien-être supérieurLa chaîne de restauration rapide KFC a abandonné son engagement au Royaume-Uni d'améliorer le bien-être animal...

0

En savoir plus sur L'ABESTIT

Abonnez-vous pour poursuivre la lecture et avoir accès à l’ensemble des archives.

Continue reading