Introduction aux modèles de langage : une tendance en pleine expansion

Les modèles de langage ont récemment pris de l’ampleur, en particulier avec l’avènement des modèles massifs comme ceux d’OpenAI, Meta ou DeepSeek. Ceux-ci reposent sur des centaines de milliards de paramètres, des ajustements qui déterminent les relations entre les données et permettent aux modèles d’apprendre efficacement. Plus un modèle possède de paramètres, mieux il identifie les motifs et les connexions. Mais cette puissance a un coût considérable en termes de ressources informatiques et d’énergie.

Le coût énergétique et financier des modèles à grande échelle

L’entraînement de modèles contenant des centaines de milliards de paramètres exige des ressources computationnelles énormes. Par exemple, Google aurait dépensé environ 191 millions de dollars pour entraîner son modèle Gemini 1.0 Ultra. De plus, l’impact environnemental est significatif puisque, selon l’Electric Power Research Institute, une seule requête à ChatGPT consomme dix fois plus d’énergie qu’une simple recherche sur Google. Cela soulève des préoccupations grandissantes quant à la durabilité des grandes infrastructures de calcul.

La réponse : des modèles de langage plus petits

Face à ces défis, certains chercheurs se tournent vers les modèles de langage petits (SLM), qui se limitent à quelques milliards de paramètres. Les géants comme IBM, Google, Microsoft et OpenAI ont récemment lancé de tels modèles. Bien qu’ils ne soient pas destinés à des tâches générales comme leurs homologues plus grands, ils excellent dans des missions plus ciblées : résumer des conversations, répondre à des questions de patients dans le cadre de chatbots de santé, ou collecter des données dans des appareils intelligents.

Optimiser l’entraînement des modèles de petite taille

Pour améliorer l’entraînement des petits modèles, les chercheurs utilisent des stratégies d’optimisation. Par exemple, les grands modèles peuvent générer des ensembles de données de haute qualité à partir de données brutes récupérées sur Internet, souvent désorganisées. Cette méthode, appelée distillation des connaissances, permet au modèle plus grand d’enseigner efficacement à un modèle plus petit, assurant ainsi un meilleur apprentissage avec des données de qualité.

Pruning : l’art d’affiner les modèles

Une autre approche pour créer des modèles de petite taille consiste à élaguer les grands modèles. Ce processus, inspiré de la manière dont le cerveau humain devient plus efficace avec l’âge en supprimant les connexions synaptiques, consiste à enlever des parties inutiles d’un réseau de neurones. Cette technique, nommée “optimal brain damage” par le scientifique Yann LeCun, pourrait permettre de retirer jusqu’à 90 % des paramètres d’un réseau sans compromettre son efficacité.

Un avenir prometteur pour les petits modèles de langage

Pour les scientifiques, les modèles plus petits représentent une manière abordable d’expérimenter de nouvelles idées, car leur structure plus simple rend leur raisonnement plus transparent. Ils offrent un cadre d’expérimentation avec moins de risques. Alors que les grands modèles continueront d’être utiles pour des applications à large échelle comme les chatbots généralistes ou la découverte de médicaments, les modèles ciblés sont souvent tout aussi efficaces, tout en étant plus faciles à entraîner. Comme le souligne Leshem Choshen, ces modèles efficaces peuvent permettre d’économiser temps, argent et ressources.


En savoir plus sur L'ABESTIT

Subscribe to get the latest posts sent to your email.

Share this post

En savoir plus sur L'ABESTIT

Abonnez-vous pour poursuivre la lecture et avoir accès à l’ensemble des archives.

Poursuivre la lecture