Quels critères de référence utiliser pour évaluer les performances des LLMs ?
Pour élaborer et mettre en œuvre des solutions d’IA, il est essentiel de réaliser des tests et des évaluations comparatives de chaque modèle. Ces essais permettent effectivement de mesurer objectivement l’efficacité de diverses configurations. Cela inclut notamment le choix de l’architecture, les techniques d’apprentissage et les stratégies de déploiement. Ces analyses permettront ensuite d’identifier les solutions les plus adéquates aux exigences spécifiques du projet et de son cadre opérationnel. C’est ce que l’on désigne couramment par les Benchmarks en machine learning, absolument cruciaux dans le secteur de l’IA.
Dans ce guide, nous allons examiner les outils principaux d’évaluation utilisés en apprentissage automatique, ainsi que les approches recommandées pour effectuer des comparaisons pertinentes.
Nous tenterons aussi de comprendre comment tirer parti des résultats pour améliorer les modèles et maximiser les performances globales.
Ces ressources ont pour but de doter les professionnels des compétences requises pour analyser et perfectionner leurs systèmes, avec un accent particulier sur les LLM.
Quel benchmark pour évaluer la maîtrise des mathématiques ?
L’évaluation des capacités mathématiques des LLMs constitue un défi particulier, notamment à travers deux benchmarks principaux qui se distinguent par leur approche et leur complexité.
Le premier, GSM-8K, s’affirme comme une référence essentielle dans l’évaluation des compétences mathématiques élémentaires.
Ce benchmark, qui comprend 8 500 problèmes mathématiques soigneusement choisis, teste la capacité des modèles à résoudre des exercices nécessitant entre deux et huit étapes de résolution.
Or, ces problèmes, bien que paraissant simples à première approche, demandent une compréhension approfondie des notions d’arithmétique, d’algèbre et de géométrie.
La performance d’un modèle sur GSM-8K se mesure simplement par le taux de réponses correctes. C’est ainsi qu’une métrique claire et objective est obtenue.
En parallèle, le benchmark MATH élève l’évaluation à des niveaux de sophistication plus élevés. Avec ses 12 500 problèmes de niveau compétitif, il ne se contente pas d’évaluer la capacité à trouver la bonne réponse.
Ce benchmark analyse également la qualité du raisonnement à travers des solutions détaillées étape par étape.
Cela représente donc une approche plus raffinée qui couverture sept domaines différents en mathématiques. Notamment l’algèbre, les statistiques et le calcul différentiel, le tout réparti sur cinq niveaux de difficulté croissante.
Le benchmark MATH se démarque par sa capacité à évaluer non seulement la justesse des réponses, mais aussi la profondeur de la compréhension mathématique des modèles.
Contexte, ambiguïtés et vérification
En explorant le domaine des connaissances générales, le benchmark MMLU (Massive Multitask Language Understanding) se pose comme une référence essentielle pour évaluer les modèles de langages tels que GPT-4.
Avec environ 16 000 questions couvrant 57 domaines variés, le benchmark MMLU propose une évaluation exhaustive des capacités de compréhension et de raisonnement des modèles.
Il va ainsi au-delà d’une simple répétition en demandant une véritable compréhension contextuelle. Mais aussi une capacité à appliquer les connaissances de manière nuancée.
Néanmoins, ce benchmark n’est pas exempt de défauts. Les critiques soulignent notamment un manque de contexte dans certaines questions.
Il peut également présenter, parfois, des ambiguïtés et des erreurs dans ses réponses.
Dans ce cadre, TriviaQA ajoute une dimension supplémentaire à l’évaluation en mettant l’accent sur la véracité des réponses générées.
Ce benchmark met en lumière un paradoxe fascinant. Les modèles plus volumineux, ayant accès à davantage d’informations durant leur apprentissage, peuvent parfois s’avérer moins fiables à cause de l’absorption de données incorrectes.
Le défi principal de TriviaQA réside toutefois dans la capacité des modèles à parcourir les documents fournis pour extraire et vérifier les informations pertinentes.
À l’image de Claude AI qui permet aujourd’hui d’analyser des documents en format PDF simplement en téléchargeant le fichier dans l’interface web du chatbot.
Quels benchmarks pour tester la génération de code des LLMs ?
D’un point de vue programmation et codage, l’évaluation des capacités des LLMs s’articule principalement autour de deux benchmarks clés : HumanEval et MBPP.
HumanEval, mis en place par OpenAI, comporte 164 défis de programmation en Python minutieusement conçus.
Ce benchmark se distingue notamment par l’utilisation de la métrique pass@k. Cela dans le but d’évaluer l’exactitude du code généré par le modèle testé.
À mon avis, cela est idéal pour évaluer les performances d’un modèle en matière de génération de code, bien que le benchmark HumanEval présente néanmoins certaines limites.
D’une part, il se concentre essentiellement sur les problèmes algorithmiques. D’autre part, il tend à occlure la complexité des tâches de programmation dans le monde réel.
En outre, HumanEval ignore des éléments cruciaux comme la rédaction de tests ou l’explication du code.
Concernant le benchmark MBPP (Mostly Basic Python Programming), il élargit le processus d’évaluation avec 974 tâches de programmation de niveau débutant.
Ce dernier adopte également une approche systématique qui implique trois cas de test automatisés pour chaque problème.
Ainsi, il propose une évaluation plus approfondie de la capacité des modèles à produire du code fonctionnel à partir de descriptions en langage naturel.
LLMs face à l’épreuve en les testant sur HellaSwag et ARC
Outre HumanEval, MMLU et MBPP, il existe également le benchmark HellaSwag, qui se distingue par son approche unique du raisonnement de sens commun.
En d’autres termes, à travers des tâches de complétion de phrases basées sur des vidéos, il teste la capacité des modèles à comprendre et à prévoir des séquences d’événements logiques.
Cependant, bien que ces scénarios puissent sembler simples pour les humains, ils revisent un réel défi pour les LLMs. En grande partie à cause du processus de filtrage utilisé pour créer des réponseserronées, souvent trompeuses.
Aussi, il y a l’ARC ou AI2 Reasoning Challenge, qui pousse encore plus loin l’évaluation du raisonnement avec près de 8 000 questions scientifiques de niveau collège.
Ce benchmark est assez spécifique, car il nécessite un raisonnement distribué plutôt qu’une simple extraction d’informations.
En gros, les questions touchent à une large gamme de connaissances. Elles s’étendent du factuel à l’expérimental, en incluant des éléments spatiaux et algébriques.
Cependant, sa limitation aux questions scientifiques réduit quelque peu son étendue évaluative.
Benchmarks ou tests réels ? La méthode idéale pour évaluer les modèles de langage
Le choix d’un LLM ne doit pas se limiter aux seuls résultats des benchmarks, qui peuvent comporter des biais ou des insuffisances.
Il est donc préférable de tester concrètement les modèles préalablement sélectionnés pour s’assurer qu’ils répondent aux besoins spécifiques de chaque projet.
Les plateformes d’évaluation telles que le LLM playground de Keywords AI proposent un cadre idéal pour comparer les performances des différents modèles en conditions réelles.
Une fois l’évaluation manuelle accomplie, l’intégration des modèles sélectionnés peut être facilitée par le biais d’APIs compatibles OpenAI, tel que celui proposé par Keywords AI.
Ainsi, on peut facilement lancer le processus de transition entre la phase d’évaluation et la mise en production.
En conclusion, l’évaluation des LLMs nécessite une approche holistique. Il est crucial de prendre en considération non seulement les performances affichées sur les divers benchmarks, mais aussi les exigences spécifiques de chaque application.
Les benchmarks en mathématiques, en connaissances générales, en programmation et en raisonnement logique ne fournissent qu’un cadre structuré pour cette évaluation. Cela dit, ils doivent être accompagnés de tests pratiques pour assurer une sélection optimale.
Quel est le meilleur LLM selon les benchmarks ?
Les LLM représentent aujourd’hui une technologie majeure dans le secteur de l’IA. Leur évaluation se fait via diverses plateformes de tests normalisés comme MMLU, SuperGLUE ou Big-Bench.
Celles-ci vont ensuite mesurer leurs aptitudes dans différents domaines. Notamment la compréhension textuelle, le raisonnement mathématique et leurs capacités analytiques, comme mentionné précédemment.
En se penchant sur le paysage actuel des LLM, OpenAI conserve une position prépondérante avec GPT-4. Ce modèle est particulièrement réputé pour son exactitude face à des interrogations complexes et sa maîtrise approfondie des dimensions multiculturelles et multilinguistiques.
De son côté, le modèle Claude 3 d’Anthropic commence également à se faire remarquer pour son approche responsable et son expertise dans la gestion de sujets délicats.
Et selon Sam Altman, le PDG actuel d’OpenAI, l’entreprise attache désormais une importance notable aux considérations éthiques.
Et Llama, PaLM et Falcon dans tout ça ?
Concernant Meta, Mark Zuckerberg et son équipe ont déployé Llama 2, une alternative open source qui favorise l’optimisation des ressources et l’adaptabilité.
Le lancement de ce modèle a permis des ajustements spécifiques malgré des résultats plus modestes sur certains tests standards.
En parallèle, TII ou Technology Innovation Institute a conçu le modèle Falcon, qui se distingue par son efficacité en matière de ressources informatiques.
Son principal atout est sa capacité à satisfaire les besoins des organisations soucieuses de leur budget.
Dans cette optique, PaLM 2 de Google et Mistral émergent comme des solutions polyvalentes offrant des performances harmonieuses sur tous les critères d’évaluation.
Toute cette multiplicité de modèles souligne l’importance d’aligner votre choix de LLM avec vos objectifs précis.
C’est-à-dire qu’il ne faut pas vous focaliser uniquement sur les résultats des benchmarks. Il est également nécessaire de baser vos évaluations sur l’exactitude, mais aussi sur la responsabilité éthique et la performance, sans omettre l’optimisation des coûts que présente le modèle choisi.
- Partager l’article :