Tandis que Google et Apple perfectionnent leurs assistants grâce à des IA génératives avancées, Amazon semble rester à la traîne.
En ce moment, Amazon développe une version améliorée de son assistant Alexa, mais plusieurs problèmes majeurs entravent son lancement. Le principal défi rencontré est la lenteur des réponses, qui affecte sérieusement l’expérience des utilisateurs.
Des documents internes font état du fait qu’Alexa IA met un temps excessif à traiter les demandes, suscitant la déception des testeurs. Malgré plusieurs délais prévus pour 2024, dont un le 14 novembre, Amazon a été contraint de reporter son lancement.
Pour un lancement réussi, Amazon prévoyait un score de satisfaction de 5,5 sur 7 auprès des testeurs. Cependant, les résultats actuels sont bien en deçà des attentes, avec une note moyenne de seulement 4,57. Cette évaluation insuffisante met en lumière les faiblesses de la nouvelle IA, notamment sa latence élevée.
Un autre souci majeur est l’incompatibilité avec les anciens appareils Alexa, ce qui pourrait agacer les utilisateurs. Certains craignent que cette inaptitude nécessitese une mise à jour coûteuse pour bénéficier de l’IA, un problème fréquent dans l’industrie technologique.
Une occasion gâchée pour Claude AI ?
Une note divulguée a suscité des interrogations en ne mentionnant pas Claude AI, un assistant créé par Anthropic. Un partenariat avec Amazon aurait pu conférer à Alexa un avantage concurrentiel en alliant la fonction vocale d’Alexa et la puissance d’analyse de Claude. Il demeure incertain si ce partenariat est encore au programme ou s’il a été abandonné.
Quoi qu’il en soit, la fuite indique que des avancées ont peut-être été réalisées depuis la rédaction des mémos, mais ces informations demeurent floues.
Au-delà des retards, Amazon envisage des améliorations ambitieuses pour Alexa. L’objectif : permettre à l’assistant de mener à bien des tâches plus complexes en totale autonomie. Par exemple, Alexa pourrait passer directement une commande de repas ou réserver une place au cinéma sans recourir à une application tierce.
Cependant, cette avancée repose sur la confiance des utilisateurs. L’assistant doit démontrer qu’il peut exécuter des instructions avec précision sans risque d’erreur. Une tâche manquée pourrait avoir de lourdes conséquences pour Amazon, tant au niveau financier qu’en termes de réputation.
Alexa IA : une sortie anticipée en 2025
Avec ces défis à relever, il semble qu’Alexa IA ne sera pas lancée avant 2025. Amazon espère peaufiner son produit pour offrir une expérience utilisateur optimale. Si elle réussit, cette version d’Alexa pourrait changer radicalement notre interaction avec les assistants intelligents. Le compte à rebours continue, mais les attentes demeurent élevées.
La chapelle Saint-Pierre de Lucerne, l’une des plus anciennes églises en Suisse, a collaboré avec un laboratoire universitaire pour intégrer un Jésus virtuel propulsé par l’intelligence artificielle dans son confessionnal.
Ce projet novateur, nommé Deus in Machina, permet aux visiteurs de poser des questions à un avatar de Jésus, capable de fournir des réponses en temps réel dans 100 langues.
L’Église a choisi cette stratégie audacieuse après avoir testé la réalité augmentée et virtuelle dans des initiatives passées. « Nous avons constaté que la figure de Jésus était la plus pertinente pour ce type d’interaction », déclare Marco Schmid, théologien de l’église. L’avatar a été formé sur des écrits théologiques afin de fournir des réponses appropriées aux questions spirituelles des visiteurs.
Localisé dans un confessionnal, le système projette une image de Jésus à travers un écran en treillis. Les consignes de sécurité orientaient les visiteurs. L’Église les informait clairement qu’ils dialoguaient avec une machine et pas dans un cadre de confession religieuse traditionnelle.
Entre enthousiasme et critiques
Durant les deux mois d’expérimentation, plus de 1 000 personnes, parfois venues de loin, ont tenté l’expérience. D’après une enquête menée auprès de 230 utilisateurs, environ deux tiers ont trouvé cette interaction spirituelle gratifiante. « C’est une preuve que les gens souhaitent dialoguer avec Jésus d’une manière nouvelle », pense Schmid.
Cependant, certaines critiques ont surgi. Des participants ont considéré les réponses comme banales, parfois trop superficielles. D’autres, y compris certains membres du clergé, ont contesté l’utilisation du confessionnal ou la représentation de Jésus sous cette forme.
L’Église a dû faire face à des défis éthiques et techniques, notamment pour prévenir que l’IA ne fournisse des réponses inappropriées. Des tests rigoureux ont été effectués et un encadrement humain a été maintenu tout au long de l’expérience. Malgré cela, Marco Schmid est resté vigilant. « Installer un Jésus IA de façon permanente serait une responsabilité trop lourde », confie-t-il.
Une soif de spiritualité moderne
Cette initiative met en lumière un intérêt croissant pour de nouvelles modalités de dialogue spirituel. Pour Schmid, elle illustre que les gens aspirent à dépasser les cadres traditionnels pour interagir avec la foi. Même si l’installation ne sera pas permanente, elle ouvre des perspectives fascinantes sur l’avenir de la religion à l’ère numérique.
Avec Deus in Machina, l’église de Lucerne prouve que tradition et innovation peuvent coexister. Ce projet singulier pose des questions profondes sur le rôle de l’IA dans la spiritualité et les nouvelles façons de vivre sa foi.
Dans le cadre de notre article « Visionnaires de l’I.A : Comment l’intelligence artificielle transforme le monde futur », Florian Berteaux a partagé avec nous ses perspectives sur les avancées récentes et les défis à venir dans l’univers de l’I.A.
Pouvez-vous vous présenter à nos lecteurs ?
Je suis le directeur de Multimedia Concept, la société créatrice du logiciel d’affichage dynamique Screensoft.
Quelles sont les dernières avancées et innovations dans le domaine de l’IA qui ont capté votre attention dernièrement ?
Deux innovations m’ont particulièrement impressionné. D’abord, les modèles génératifs permettant de produire des images et des vidéos d’une fidélité saisissante, comme ceux intégrés à Screensoft, révolutionnant ainsi la création de contenus visuels. Ensuite, les avancées en IA conversationnelle, qui améliorent considérablement les assistants vocaux, les rendant plus performants et adaptés à des usages professionnels, notamment pour générer des scénarios d’affichage dynamique avec des commandes vocales.
Quels secteurs ont le plus tiré profit de l’intégration de l’IA ?
L’IA a changé de nombreux domaines, mais je pense que la santé, avec le diagnostic assisté, et les communications, grâce à l’automatisation et la personnalisation des messages, en sont les principaux bénéficiaires. Dans notre secteur, l’IA optimise la création de contenus dynamiques en ajustant les messages en temps réel en fonction du public ou des événements.
Comment envisagez-vous l’avenir de l’IA et son incidence sur la société ?
L’avenir de l’IA est plein de promesses, mais aussi de défis. Elle va renforcer notre capacité à aborder des problèmes complexes, qu’il s’agisse de la santé ou des enjeux environnementaux. Toutefois, elle nécessitera un cadre réglementaire clair pour prévenir les dérives, notamment concernant l’utilisation des données. Des outils comme Screensoft devront évoluer pour allier innovation et transparence.
Quel est votre jugement sur l’impact que l’IA a eu et continuera d’avoir sur l’emploi en France ?
L’IA redessine le paysage de l’emploi. Certaines tâches répétitives sont automatisées, mais cela crée également des possibilités pour des professions plus créatives et stratégiques. Par exemple, dans l’affichage dynamique, nos clients se concentrent désormais principalement sur la stratégie communicationnelle plutôt que sur la création de contenus, désormais déléguée à l’IA.
Quels sont les principaux enjeux éthiques liés à l’IA et comment les gérez-vous dans votre activité ?
Les grands enjeux incluent la protection des données, la transparence des algorithmes et la lutte contre les biais. Chez Multimedia Concept, nous nous assurons que nos outils d’IA sont développés conformément aux réglementations, telles que le RGPD, et qu’ils sont compréhensibles pour nos utilisateurs. Cela implique également une vigilance constante en matière de sécurité des données.
Quelles, selon vous, sont les opportunités et les défis futurs pour les spécialistes de l’IA, en particulier concernant l’évolution technologique et réglementaire ?
Les perspectives sont immenses : l’IA continuera de transformer divers secteurs, de l’éducation à la logistique. Cependant, les défis se situent dans la régulation de ces innovations, afin d’éviter un fossé technologique entre les entreprises. Les experts devront jongler entre une innovation rapide et le respect des normes réglementaires.
Quels conseils donneriez-vous à ceux qui envisagent une carrière dans l’IA ?
Je recommande de s’approprier tant les fondements techniques (mathématiques, algorithmes) que les implications éthiques et sociétales de l’IA. Comprendre les besoins du marché est également essentiel : l’IA a du sens uniquement si elle résout des problématiques tangibles. De plus, l’expérimentation est cruciale. Bon nombre des innovations en IA proviennent de projets pilotes.
Comment Screensoft intègre-t-il l’IA dans ses solutions ?
Chez Screensoft, l’IA est au cœur de nos innovations. Nous fournissons des outils qui automatisent la création de contenus visuels et textuels, ainsi que des fonctionnalités de commande vocale pour simplifier l’expérience utilisateur. Notre but est de rendre l’affichage dynamique à la fois accessible et intuitif, tout en nous adaptant en temps réel aux besoins des utilisateurs.
Dans le cadre de notre article « Visionnaires de l’I.A : Comment l’intelligence artificielle transforme le futur », Vincent Levorato a partagé avec nous ses réflexions sur les progrès récents et les défis importants à venir dans le secteur de l’I.A.
Pouvez-vous vous présenter à nos lecteurs ?
Je travaille en freelance depuis 6 ans, agissant en tant que Data Scientist et Architecte de Solutions en IA.
Quelles avancées et innovations récentes dans le domaine de l’IA vous ont marqué ?
En ce qui concerne l’IA Générative, les modèles de langage continuent de s’optimiser, devenant à la fois plus accessibles et économes, tels que les Small Language Models (SLM). De surcroît, les modèles multimodaux se démocratisent, permettant la création rapide de services novateurs. Quant aux innovations autour de l’image, de la vidéo ou du son, les LLM, malgré leurs limites, aident vraiment les professionnels techniques à booster leur productivité, et je le constate moi-même chaque jour. Par ailleurs, dans l’IA traditionnelle, on observe une progression vers une plus grande maturité, bien que des écarts persistent entre les grandes villes et les zones rurales. L’accent est mis sur l’accès à des données de qualité, soutenues par des processus de data engineering avancés, indispensables à l’utilisation de l’IA.
Quels secteurs ont le plus tiré parti de l’intégration de l’IA ?
Évidemment, la technologie, mais également la santé, le secteur financier, le commerce de détail, l’industrie, ainsi que le marketing et la publicité, pour ne nommer que les plus souvent évoqués. Un domaine à part entière a également été affecté : le secteur créatif.
Quelle vision avez-vous de l’avenir de l’IA et de son impact sur la société ?
L’avenir de l’intelligence artificielle s’annonce à la fois prometteur et complexe, avec des implications significatives pour la société. Les récents développements ont ouvert la voie à des applications variées dans des secteurs tels que la santé, la finance, le commerce et l’industrie, comme mentionné précédemment. Cependant, l’IA influencera aussi le marché du travail grâce à l’automatisation, ce qui produira des effets disparate selon les secteurs. Bien que l’IA puisse pousser à la croissance économique, elle pose aussi des questions en matière d’éthique, d’inégalités et de formation des travailleurs. En résumé, l’IA changera les industries et le quotidien tout en nécessitant une gestion prudente de ses conséquences.
Quelle est votre opinion sur l’impact présent et futur de l’IA sur l’emploi en France ?
À l’opposé des prédictions pessimistes des débuts, l’IA ne semble pas provoquer une perte massive d’emplois. Une étude américaine de 2013 prédisait que 47% des postes seraient menacés dans les dix années suivantes, mais ce scénario ne s’est pas réalisé. Les évaluations actuelles sont nettement plus raisonnables. En effet, d’après la Commission de l’IA française, environ 5% des emplois en France seraient directement remplaçables par l’IA. Ce chiffre modeste s’explique par le fait que l’IA substitue des tâches plutôt que des emplois entiers. Dans 19 des 20 emplois, des tâches demeurent que l’IA ne peut pas réaliser. De plus, l’IA génère des emplois : – Elle stimule la croissance dans certains secteurs, en particulier le numérique. – De nouveaux emplois apparaissent, directement liés à l’IA et à son avancement. – Les entreprises intégrant l’IA constatent généralement une hausse des recrutements en raison des gains d’efficacité. Certains domaines sont davantage touchés : – Les professions liées à la communication, aux médias et à l’ingénierie subissent des impacts notables. – Les activités de montage, de communication, de marketing et de rédaction sont aussi profondément transformées, et pour avoir travaillé chez Prisma Media, un leader français dans les magazines, je peux en témoigner. À mon avis, même si l’IA a un effet notable sur l’emploi en France, cet effet semble plus transformateur que destructeur. Avec une approche proactive et bien régulée, l’IA pourrait même devenir un moteur de croissance et d’amélioration des conditions de travail.
Quels sont les principaux défis éthiques associés à l’IA et comment les gérez-vous dans votre profession ?
Pour ma part, je suis particulièrement préoccupé par les atteintes à la vie privée qu’il est crucial de surveiller lors de l’utilisation d’outils d’IA, notamment ceux disponibles sur étagère.
Quels sont, selon vous, les défis et opportunités futurs pour les spécialistes en IA, notamment en lien avec l’évolution technologique et réglementaire ?
La progression rapide de l’intelligence artificielle présente des opportunités significatives pour les spécialistes. Cela transformera en profondeur la santé, l’économie, l’environnement et la gouvernance, et la demande pour ces compétences augmente, avec 32% des entreprises prévoyant d’investir davantage dans l’IA, selon un rapport de Docusign de septembre 2024. Cependant, des obstacles demeurent, tels que la pénurie de compétences, les enjeux éthiques, la réglementation changeante, et la gestion du changement organisationnel. Les experts devront également collaborer avec d’autres disciplines pour optimiser l’impact de l’IA.
Quels conseils donneriez-vous à ceux qui veulent se lancer dans une carrière dans l’IA ?
Pour entamer une carrière dans l’IA, voici quelques recommandations clés : – Acquérir des compétences techniques : maîtriser Python et SQL, ainsi que les bibliothèques de manipulation de données comme Pandas et NumPy, et se familiariser avec quelques librairies importantes (scikitlearn pour commencer, en évitant le deep learning au début). – Obtenir de l’expérience pratique : travailler sur des projets personnels pour constituer un portfolio (avoir son propre dépôt est un plus). – Élargir son réseau professionnel : LinkedIn est le meilleur point de départ à développer. – Considérer les formations : suivre des cours spécialisés ou envisager une reconversion si vous venez d’un autre secteur, mais il est important de noter que le marché a vu un besoin émergeant pour des Data Engineers, reléguant parfois la nécessité de Data Scientists.
La puissance actuelle de l’IA, bien qu’impressionnante, présente des risques considérables. Les machines deviennent de plus en plus intelligentes, toutefois, l’AGI, ou Intelligence Artificielle Générale, n’est pas encore à notre portée. Pour Yoshua Bengio, professeur à l’Université de Montréal, si les choses continuent ainsi, les capacités cognitives des machines pourraient bientôt rivaliser avec les nôtres. Cela soulève la possibilité que l’IA se retourne contre nous.
Mais quelles en sont les implications pour la société ? Aujourd’hui, l’IA détient presque toutes les connaissances. Comme le renseignement confère le pouvoir, le contrôle par l’IA de ce pouvoir pourrait être encore plus préoccupant.
Quoi qu’il en soit, Bengio estime que le développement des machines alimentées par l’IA implique des investissements considérables. Très peu d’entreprises et de pays seront donc en mesure de le faire.
Ce qui entraîne une concentration de pouvoir à divers niveaux : économique, politique et militaire, entre autres.
« Il ne reste que 10 ans, il est impératif d’établir des garde-fous »
Selon Bengio, ces innovations technologiques pourraient devenir réalité dans quelques décennies.
Néanmoins, il souligne un risque majeur lié à une évolution accélérée de l’IA : le manque de protocoles garantissant la sécurité et la bienveillance de ces systèmes envers l’humanité.
« Actuellement, il est encore impossible d’assurer un tel contrôle », a-t-il précisé dans sa déclaration.
Ce pionnier de l’intelligence artificielle met également en garde sur les méthodes d’entraînement adoptées par les entreprises d’IA comme OpenAI, Google, Meta et Microsoft.
Il fait valoir que les techniques actuelles pourraient produire des systèmes potentiellement hostiles aux intérêts humains.
« J’ai identifié deux risques majeurs liés à la technologie d’intelligence artificielle. D’une part, le risque de détournement par des acteurs malveillants, déjà observé avec les attaques de phishing. D’autre part, la présence de groupes, bien que minoritaires, mais influents, désireux de remplacer l’humain par la machine ».
⭐️📹 “Comment l’IA menace l’humanité, avec Yoshua Bengio”, une vidéo de Dr Waku avec l’interviewé @Yoshua_Bengio.
Dr Waku a déclaré : “Je gère la chaîne YouTube Dr Waku, et j’ai réalisé cette vidéo comme une plongée approfondie dans la superintelligence, destinée au grand public.”
🔗 Regardez le teaser… pic.twitter.com/S0wAyUyqYU
— Future of Life Institute (@FLI_org) October 25, 2024
Face à ces défis, Bengio appelle à l’établissement immédiat de garde-fous appropriés pour encadrer le développement de ces technologies. Mais cela existe-t-il déjà ?
« Face à ce risque, je plaide pour un cadre réglementaire de l’IA avancée »
Un document signalant les dangers posés par les systèmes d’IA avancés a reçu le soutien de Bengio en juin dernier.
Intitulée « Le droit d’alerter sur l’intelligence artificielle avancée », cette initiative, soutenue par d’anciens et actuels collaborateurs d’OpenAI, la société derrière ChatGPT, avait pour but de sensibiliser les parties concernées par l’IA, y compris la communauté scientifique, les autorités et le grand public.
Les préoccupations concernant OpenAI se sont intensifiées après la dissolution de son équipe « AGI Readiness » le mois d’octobre dernier.
Pour aborder ces enjeux, Bengio préconise un cadre réglementaire obligatoire et urgent.
Il propose en particulier l’ instauration d’un enregistrement obligatoire pour les entreprises développant des modèles d’IA de grande envergure, notamment ceux nécessitant des investissements considérables.
Cette mesure permettrait aux autorités d’ avoir une meilleure visibilité sur les développements technologiques et leurs caractéristiques.
Face au rythme rapide d’évolution de l’IA, il souligne combien il est crucial pour les gouvernements d’adopter une approche novatrice dans la création de réglementations.
Le but est donc de développer un cadre législatif suffisamment adaptable pour suivre les transformations technologiques continues.
À l’exemple de l’AI Act qui est entré en vigueur le 1er août de cette année dans toute l’Europe.
L’IA représente-t-elle un réel danger pour l’humanité ? La perspective de Bengio
De toute cette discussion, la question de Bengio m’a particulièrement interpellé. « La création d’entités artificielles dépassant l’intelligence humaine pourrait-elle constituer une menace existentielle pour notre espèce ? ».
Ces interrogations, selon lui, représentent à la fois un défi philosophique et éthique sans réponse définitive.
Il appelle donc à une approche pragmatique et nuancée et insiste sur l’importance de continuer les recherches, tout comme de rester vigilant pour anticiper et réduire les risques liés à l’évolution des intelligences artificielles.
Sa vision appelle à l’action citoyenne et collective, rappelant que les sociétés humaines ont la possibilité de guider leur trajectoire technologique.
Pour relever ce défi, il estime primordial de mobiliser un nombre suffisant de personnes conscientes des opportunités et des dangers liés à l’IA.
La stratégie devrait être multidimensionnelle, c’est-à-dire que les solutions devront être technologiques, politiques et sans doute hybrides.
L’essentiel, selon lui, est de débuter dès à présent un effort collectif réfléchi pour guider l’évolution de ces technologies de façon responsable et bénéfique pour l’humanité.
Mais quels défis se posent réellement ?
Le défi majeur réside dans la capacité des technologies d’IA à modifier la perception de la réalité.
La diffusion de fausses informations et la manipulation des opinions sont également des défis cruciaux qui s’accentueront avec le progrès des systèmes d’intelligence artificielle.
Cela semble logique, puisque les systèmes actuels sont déjà capables de créer des images très réalistes, ainsi que d’imiter notre voix tout en superposant les vidéos d’autres personnes.
Cette capacité à générer des images, des enregistrements sonores et des vidéos d’une précision troublante pourrait devenir un vecteur puissant de désinformation.
Par conséquent, cela pourrait miner l’intégrité des processus démocratiques et influencer la formation des opinions individuelles.
Pour élaborer et mettre en œuvre des solutions d’IA, il est essentiel de réaliser des tests et des évaluations comparatives de chaque modèle. Ces essais permettent effectivement de mesurer objectivement l’efficacité de diverses configurations. Cela inclut notamment le choix de l’architecture, les techniques d’apprentissage et les stratégies de déploiement. Ces analyses permettront ensuite d’identifier les solutions les plus adéquates aux exigences spécifiques du projet et de son cadre opérationnel. C’est ce que l’on désigne couramment par les Benchmarks en machine learning, absolument cruciaux dans le secteur de l’IA.
Dans ce guide, nous allons examiner les outils principaux d’évaluation utilisés en apprentissage automatique, ainsi que les approches recommandées pour effectuer des comparaisons pertinentes.
Nous tenterons aussi de comprendre comment tirer parti des résultats pour améliorer les modèles et maximiser les performances globales.
Ces ressources ont pour but de doter les professionnels des compétences requises pour analyser et perfectionner leurs systèmes, avec un accent particulier sur les LLM.
Quel benchmark pour évaluer la maîtrise des mathématiques ?
L’évaluation des capacités mathématiques des LLMs constitue un défi particulier, notamment à travers deux benchmarks principaux qui se distinguent par leur approche et leur complexité.
Le premier, GSM-8K, s’affirme comme une référence essentielle dans l’évaluation des compétences mathématiques élémentaires.
Ce benchmark, qui comprend 8 500 problèmes mathématiques soigneusement choisis, teste la capacité des modèles à résoudre des exercices nécessitant entre deux et huit étapes de résolution.
Or, ces problèmes, bien que paraissant simples à première approche, demandent une compréhension approfondie des notions d’arithmétique, d’algèbre et de géométrie.
La performance d’un modèle sur GSM-8K se mesure simplement par le taux de réponses correctes. C’est ainsi qu’une métrique claire et objective est obtenue.
En parallèle, le benchmark MATH élève l’évaluation à des niveaux de sophistication plus élevés. Avec ses 12 500 problèmes de niveau compétitif, il ne se contente pas d’évaluer la capacité à trouver la bonne réponse.
Ce benchmark analyse également la qualité du raisonnement à travers des solutions détaillées étape par étape.
Cela représente donc une approche plus raffinée qui couverture sept domaines différents en mathématiques. Notamment l’algèbre, les statistiques et le calcul différentiel, le tout réparti sur cinq niveaux de difficulté croissante.
Le benchmark MATH se démarque par sa capacité à évaluer non seulement la justesse des réponses, mais aussi la profondeur de la compréhension mathématique des modèles.
Contexte, ambiguïtés et vérification
En explorant le domaine des connaissances générales, le benchmark MMLU (Massive Multitask Language Understanding) se pose comme une référence essentielle pour évaluer les modèles de langages tels que GPT-4.
Avec environ 16 000 questions couvrant 57 domaines variés, le benchmark MMLU propose une évaluation exhaustive des capacités de compréhension et de raisonnement des modèles.
Il va ainsi au-delà d’une simple répétition en demandant une véritable compréhension contextuelle. Mais aussi une capacité à appliquer les connaissances de manière nuancée.
Néanmoins, ce benchmark n’est pas exempt de défauts. Les critiques soulignent notamment un manque de contexte dans certaines questions.
Il peut également présenter, parfois, des ambiguïtés et des erreurs dans ses réponses.
Dans ce cadre, TriviaQA ajoute une dimension supplémentaire à l’évaluation en mettant l’accent sur la véracité des réponses générées.
Ce benchmark met en lumière un paradoxe fascinant. Les modèles plus volumineux, ayant accès à davantage d’informations durant leur apprentissage, peuvent parfois s’avérer moins fiables à cause de l’absorption de données incorrectes.
Le défi principal de TriviaQA réside toutefois dans la capacité des modèles à parcourir les documents fournis pour extraire et vérifier les informations pertinentes.
À l’image de Claude AI qui permet aujourd’hui d’analyser des documents en format PDF simplement en téléchargeant le fichier dans l’interface web du chatbot.
Quels benchmarks pour tester la génération de code des LLMs ?
D’un point de vue programmation et codage, l’évaluation des capacités des LLMs s’articule principalement autour de deux benchmarks clés : HumanEval et MBPP.
HumanEval, mis en place par OpenAI, comporte 164 défis de programmation en Python minutieusement conçus.
Ce benchmark se distingue notamment par l’utilisation de la métrique pass@k. Cela dans le but d’évaluer l’exactitude du code généré par le modèle testé.
À mon avis, cela est idéal pour évaluer les performances d’un modèle en matière de génération de code, bien que le benchmark HumanEval présente néanmoins certaines limites.
D’une part, il se concentre essentiellement sur les problèmes algorithmiques. D’autre part, il tend à occlure la complexité des tâches de programmation dans le monde réel.
En outre, HumanEval ignore des éléments cruciaux comme la rédaction de tests ou l’explication du code.
Concernant le benchmark MBPP (Mostly Basic Python Programming), il élargit le processus d’évaluation avec 974 tâches de programmation de niveau débutant.
Ce dernier adopte également une approche systématique qui implique trois cas de test automatisés pour chaque problème.
Ainsi, il propose une évaluation plus approfondie de la capacité des modèles à produire du code fonctionnel à partir de descriptions en langage naturel.
LLMs face à l’épreuve en les testant sur HellaSwag et ARC
Outre HumanEval, MMLU et MBPP, il existe également le benchmark HellaSwag, qui se distingue par son approche unique du raisonnement de sens commun.
En d’autres termes, à travers des tâches de complétion de phrases basées sur des vidéos, il teste la capacité des modèles à comprendre et à prévoir des séquences d’événements logiques.
Cependant, bien que ces scénarios puissent sembler simples pour les humains, ils revisent un réel défi pour les LLMs. En grande partie à cause du processus de filtrage utilisé pour créer des réponseserronées, souvent trompeuses.
Aussi, il y a l’ARC ou AI2 Reasoning Challenge, qui pousse encore plus loin l’évaluation du raisonnement avec près de 8 000 questions scientifiques de niveau collège.
Ce benchmark est assez spécifique, car il nécessite un raisonnement distribué plutôt qu’une simple extraction d’informations.
En gros, les questions touchent à une large gamme de connaissances. Elles s’étendent du factuel à l’expérimental, en incluant des éléments spatiaux et algébriques.
Cependant, sa limitation aux questions scientifiques réduit quelque peu son étendue évaluative.
Benchmarks ou tests réels ? La méthode idéale pour évaluer les modèles de langage
Le choix d’un LLM ne doit pas se limiter aux seuls résultats des benchmarks, qui peuvent comporter des biais ou des insuffisances.
Il est donc préférable de tester concrètement les modèles préalablement sélectionnés pour s’assurer qu’ils répondent aux besoins spécifiques de chaque projet.
Les plateformes d’évaluation telles que le LLM playground de Keywords AI proposent un cadre idéal pour comparer les performances des différents modèles en conditions réelles.
Une fois l’évaluation manuelle accomplie, l’intégration des modèles sélectionnés peut être facilitée par le biais d’APIs compatibles OpenAI, tel que celui proposé par Keywords AI.
Ainsi, on peut facilement lancer le processus de transition entre la phase d’évaluation et la mise en production.
En conclusion, l’évaluation des LLMs nécessite une approche holistique. Il est crucial de prendre en considération non seulement les performances affichées sur les divers benchmarks, mais aussi les exigences spécifiques de chaque application.
Les benchmarks en mathématiques, en connaissances générales, en programmation et en raisonnement logique ne fournissent qu’un cadre structuré pour cette évaluation. Cela dit, ils doivent être accompagnés de tests pratiques pour assurer une sélection optimale.
Quel est le meilleur LLM selon les benchmarks ?
Les LLM représentent aujourd’hui une technologie majeure dans le secteur de l’IA. Leur évaluation se fait via diverses plateformes de tests normalisés comme MMLU, SuperGLUE ou Big-Bench.
Celles-ci vont ensuite mesurer leurs aptitudes dans différents domaines. Notamment la compréhension textuelle, le raisonnement mathématique et leurs capacités analytiques, comme mentionné précédemment.
En se penchant sur le paysage actuel des LLM, OpenAI conserve une position prépondérante avec GPT-4. Ce modèle est particulièrement réputé pour son exactitude face à des interrogations complexes et sa maîtrise approfondie des dimensions multiculturelles et multilinguistiques.
De son côté, le modèle Claude 3 d’Anthropic commence également à se faire remarquer pour son approche responsable et son expertise dans la gestion de sujets délicats.
Et selon Sam Altman, le PDG actuel d’OpenAI, l’entreprise attache désormais une importance notable aux considérations éthiques.
Et Llama, PaLM et Falcon dans tout ça ?
Concernant Meta, Mark Zuckerberg et son équipe ont déployé Llama 2, une alternative open source qui favorise l’optimisation des ressources et l’adaptabilité.
Le lancement de ce modèle a permis des ajustements spécifiques malgré des résultats plus modestes sur certains tests standards.
En parallèle, TII ou Technology Innovation Institute a conçu le modèle Falcon, qui se distingue par son efficacité en matière de ressources informatiques.
Son principal atout est sa capacité à satisfaire les besoins des organisations soucieuses de leur budget.
Dans cette optique, PaLM 2 de Google et Mistral émergent comme des solutions polyvalentes offrant des performances harmonieuses sur tous les critères d’évaluation.
Toute cette multiplicité de modèles souligne l’importance d’aligner votre choix de LLM avec vos objectifs précis.
C’est-à-dire qu’il ne faut pas vous focaliser uniquement sur les résultats des benchmarks. Il est également nécessaire de baser vos évaluations sur l’exactitude, mais aussi sur la responsabilité éthique et la performance, sans omettre l’optimisation des coûts que présente le modèle choisi.
Alibaba fait une entrée remarquée avec Qwen 2.5, son IA générative capable de rédiger et d’analyser du code. Est-ce une menace potentielle pour les développeurs web ou un outil essentiel pour améliorer la productivité ? La réponse se trouve ci-après !
Alors que la compétition autour de l’IA s’intensifie, Alibaba sort son atout avant la fin de l’année ! En effet, le géant chinois du commerce électronique continue d’explorer les possibilités de l’IA avec le lancement de Qwen 2.5 ! Vous vous interrogez sûrement sur la fonction de ce modèle d’IA ? Il est conçu pour créer et analyser du code, avec l’ambition de transformer le secteur du développement logiciel.
Alors, les développeurs web devraient-ils percevoir cela comme une menace ou simplement un outil incontournable pour parfaire leur travail ? De l’analyse à la compréhension du codage, cet IA d’Alibaba se positionne parmi les systèmes les plus performants actuellement disponibles. Voyons donc comment cela pourrait transformer le paysage du codage dans son ensemble !
Qwen 2.5 d’Alibaba : une gamme de modèles d’IA adaptés à tous les besoins
Qwen 2.5 est un instrument de codage, mais il propose également d’autres modèles d’IA qui s’adaptent à divers usages et niveaux de performance. Que vous soyez un développeur débutant cherchant à améliorer vos petits projets ou une multinationale nécessitant une importante capacité de calcul, Qwen semble avoir une solution adéquate.
Les étudiants en programmation peuvent également trouver ce dispositif utile. Ils peuvent l’utiliser pour corriger et perfectionner leur code. Afin de maximiser l’accessibilité et la flexibilité, Alibaba envisage d’intégrer cette technologie directement sur sa plateforme cloud Tongyi. Il est donc certain que ses fonctionnalités seront ouvertes à tous ceux souhaitant en bénéficier !
Quelles sont les capacités de Qwen 2.5 par rapport aux autres modèles d’IA de codage disponibles actuellement ?
Le modèle phare, Qwen-2.5-Coder-32B-Instruct, s’illustre comme un leader dans plusieurs catégories de tests de référence. Il excelle principalement dans la génération de code, sa réparation et le raisonnement logique.
Lors de tests comme EvalPlus et LiveCodeBench, il démarque ses compétiteurs open source tels que DeepSeek-Coder et Codestral Mamba. Les utilisateurs qui l’ont déjà expérimenté affirment même que ce modèle rivalise avec GPT-4o, un modèle IA de haut niveau.
Néanmoins, GPT-4o a toujours une longueur d’avance sur certaines tâches, notamment celles demandant des compétences avancées de compréhension du langage naturel. Toutefois, il est à noter que Qwen se distingue surtout par la qualité des données utilisées pour son entraînement. Ce modèle a été formé avec plus de 20 trillions de tokens, un record impressionnant dans le domaine de l’open source !
Avec des capacités remarquables dans des langages fonctionnels tels que Haskell et des modèles conçus pour diverses applications, Qwen 2.5 saisit, corrige et enrichit les codes.
On peut déjà s’apercevoir du désir d’Alibaba d’exploiter l’IA pour générer du code même si Qwen est présenté comme un outil d’aide plutôt qu’un substitut. Néanmoins, il est envisageable que dans un futur proche, les développeurs confieront des parties de leur travail à ces systèmes.
Alors que certains accueillent cette nouveauté comme un atout précieux pour accélérer les cycles de développement, d’autres la considèrent comme une menace pour les développeurs humains. Ces outils soulèvent des interrogations importantes : les entreprises vont-elles se contenter d’utiliser ces IA comme des assistants ou chercheront-elles à diminuer leurs effectifs en automatisant les tâches répétitives ?
La réponse se dévoilera dans les mois à venir. Une chose est claire, Alibaba aspire à laisser sa marque dans une bataille de l’IA où les leaders technologiques s’affrontent actuellement !
Vous envisagez de faire grève contre vos employeurs ? Prenez un moment pour y réfléchir, car votre employeur pourrait remplacer les employés par des IA en cas de mouvement social !
Alors que l’essor de l’IA continue de redéfinir le paysage professionnel, une interrogante émerge : l’IA pourrait-elle être utilisée pour remplacer les travailleurs durant une grève ? Le cas échéant, quelles seraient les implications ? Un récent conflit impliquant les employés techniques du New York Times offre une vision troublante de cette problématique. Décryptage !
Des employés en grève remplacés par l’IA : un conflit révélateur ?
Lors d’un mouvement de grève des employés techniques du New York Times avant les élections américaines, le PDG du journal, AG Sulzberger, a exprimé ses inquiétudes quant à l’impact de cette action sur la capacité du site à gérer le flux de trafic généré par les résultats électoraux.
Bien que le site n’a finalement pas été affecté par des problèmes techniques, la situation a pris un tournant surprenant. En effet, Aravind Srinivas, directeur de l’entreprise d’IA Perplexity, a suggéré sur X (anciennement Twitter) d’offrir un soutien technique via son IA pour maintenir le site opérationnel. En d’autres termes, remplacer les employés en grève par l’IA !
Cette proposition, perçue par beaucoup comme une tentative de contourner le pouvoir syndical, a engendré une controverse immédiate. Certains utilisateurs ont traité Srinivas de « scab », un terme désignant une personne qui remplace des grévistes.
L’IA pourrait-elle être un cadeau empoisonné pour les travailleurs ?
L’intervention de Srinivas soulève un dilemme majeur. Si l’IA peut apporter des solutions techniques rapides en cas de grève, cela soulève des inquiétudes quant à la capacité de cette technologie à compromettre les droits des travailleurs.
En théorie, les IA comme celles suggérées par Perplexity ne remplaceraient pas directement les compétences humaines. Cependant, en période de grève, elles viendraient « assurer la continuité » des opérations au sein de l’entreprise. Malheureusement, cela n’éveille pas la confiance des travailleurs !
Il est à noter que les travailleurs grévistes du New York Times n’étaient pas des journalistes, mais des experts en infrastructure numérique. Ce sont eux qui maintiennent le site lors de moments cruciaux tels que les élections.
En suggérant de prendre la place des employés en grève avec de l’IA, Srinivas a ouvert un débat plus large sur l’influence de la technologie sur les relations de travail. Si des machines peuvent remplacer les grévistes à tout moment, leur capacité à négocier des conditions de travail équitables pourrait en pâtir gravement.
Des régulations nécessaires pour l’IA dans le secteur professionnel !
Pour empêcher des abus, il devient essentiel de réfléchir à des régulations spécifiques concernant l’utilisation de l’IA lors de grèves. Cela pourrait inclure des lois prohibant explicitement l’utilisation de solutions automatisées pour remplacer temporairement des travailleurs en grève. De plus, les syndicats doivent également adapter leurs strates en considérant ces nouvelles réalités technologiques dans leurs revendications.
Il faut le reconnaître, si l’IA est mal intégrée, elle pourrait affaiblir la valeur des grèves en tant qu’outil de négociation. En attendant, elle va remodeler les dynamiques entre employeurs et employés, nuisant ainsi aux droits de ces derniers. Êtes-vous en faveur du remplacement d’employés en grève par l’IA ou pensez-vous que cette technologie pourrait nuire aux droits des travailleurs ? Partagez votre position dans les commentaires afin de discuter de ce sujet avec la communauté.
Lors de la conférence technologique annuelle pour les professionnels noirs, tous les regards étaient tournés vers l’IA—mais beaucoup se préparaient également à l’impact d’une administration Trump qui a promis de tuer la DEI.