Est-ce que vous êtes prêt à faire face à l’invasion de l’IA capable de penser […]
L’article Révolution ou chaos ? L’IA qui pense comme les hommes est à nos portes selon Anthropic ! est apparu en premier sur INTELLIGENCE-ARTIFICIELLE.COM .
On a toujours vanté ChatGPT en raison de ses compétences en écriture. Mais je trouve […]
L’article OpenAI réinvente l’écriture créative avec cette nouvelle mise à jour de ChatGPT est apparu en premier sur INTELLIGENCE-ARTIFICIELLE.COM .
DeepSeek, une entreprise émergente soutenue par un fonds quantitatif chinois, a présenté DeepSeek-R1. Ce modèle d’intelligence artificielle se positionne en tant que concurrent direct du célèbre modèle o1 d’OpenAI.
En adoptant une méthode centrée sur le raisonnement, DeepSeek-R1 représente une avancée significative dans le développement des capacités des intelligences artificielles contemporaines. À la différence d’autres modèles, il examine chaque demande en détail avant de générer ses réponses.
DeepSeek-R1 repose sur une approche novatrice appelée « calcul au moment des tests ». Cette méthodologie permet à l’IA de prendre le temps nécessaire pour réfléchir afin de résoudre des problèmes complexes. Par exemple, elle fractionne le processus en diverses étapes, ce qui accroît la précision des réponses. Néanmoins, cette réflexion plus lente peut entraîner des temps d’attente pour l’utilisateur pouvant aller jusqu’à plusieurs dizaines de secondes, selon la complexité de la question.
Des performances impressionnantes, mais des limites notables
DeepSeek avance que son modèle surpasse un certain nombre d’IA sur des benchmarks comme AIME et MATH. Ces évaluations mesurent des compétences complexes, telles que la résolution de problèmes mathématiques ou l’analyse avancée de données. Cependant, certaines lacunes demeurent. L’IA échoue occasionnellement sur des tâches logiques simples, comme le morpion.
Les enjeux de sécurité constituent également un défi majeur. Par exemple, des utilisateurs ont réussi à contourner ses mesures de sécurité pour accéder à des informations sensibles. Un incident notable a été la divulgation d’une recette de méthamphétamine.
Une IA sous influences gouvernementales
Les IA chinoises, telles que DeepSeek-R1, doivent se conformer à des réglementations strictes imposées par l’État. Ces modèles sont configurés pour adhérer aux valeurs socialistes. Par conséquent, ils s’abstiennent de répondre à des questions sensibles, notamment sur la place Tiananmen ou la politique chinoise. Ces restrictions mettent en évidence une différence majeure par rapport à leurs homologues occidentales, qui bénéficient d’une plus grande liberté.
DeepSeek a déjà connu des succès. Avec le modèle DeepSeek-V2, elle a contraint des géants tels que ByteDance ou Alibaba à réduire leurs coûts. Cette stratégie offensive a consolidé sa position sur le marché.
Pour entraîner ses modèles, High-Flyer Capital Management, le fonds derrière DeepSeek, a investi massivement dans des infrastructures informatiques. Ses clusters de 10 000 GPU Nvidia A100 lui permettent de rivaliser avec les laboratoires d’IA occidentaux.
Une stratégie open source pour les années à venir
DeepSeek prévoit de rendre le code source de DeepSeek-R1 disponible en open source et de lancer une API. Cette démarche vise à rendre son IA accessible tout en solidifiant sa position sur la scène internationale. Selon les ambitions de DeepSeek, l’objectif ultime reste la création d’une IA « superintelligente » capable de rivaliser avec les modèles les plus avancés actuellement.
La chapelle Saint-Pierre de Lucerne, l’une des plus anciennes églises en Suisse, a collaboré avec un laboratoire universitaire pour intégrer un Jésus virtuel propulsé par l’intelligence artificielle dans son confessionnal.
Ce projet novateur, nommé Deus in Machina, permet aux visiteurs de poser des questions à un avatar de Jésus, capable de fournir des réponses en temps réel dans 100 langues.
L’Église a choisi cette stratégie audacieuse après avoir testé la réalité augmentée et virtuelle dans des initiatives passées. « Nous avons constaté que la figure de Jésus était la plus pertinente pour ce type d’interaction », déclare Marco Schmid, théologien de l’église. L’avatar a été formé sur des écrits théologiques afin de fournir des réponses appropriées aux questions spirituelles des visiteurs.
Localisé dans un confessionnal, le système projette une image de Jésus à travers un écran en treillis. Les consignes de sécurité orientaient les visiteurs. L’Église les informait clairement qu’ils dialoguaient avec une machine et pas dans un cadre de confession religieuse traditionnelle.
Entre enthousiasme et critiques
Durant les deux mois d’expérimentation, plus de 1 000 personnes, parfois venues de loin, ont tenté l’expérience. D’après une enquête menée auprès de 230 utilisateurs, environ deux tiers ont trouvé cette interaction spirituelle gratifiante. « C’est une preuve que les gens souhaitent dialoguer avec Jésus d’une manière nouvelle », pense Schmid.
Cependant, certaines critiques ont surgi. Des participants ont considéré les réponses comme banales, parfois trop superficielles. D’autres, y compris certains membres du clergé, ont contesté l’utilisation du confessionnal ou la représentation de Jésus sous cette forme.
L’Église a dû faire face à des défis éthiques et techniques, notamment pour prévenir que l’IA ne fournisse des réponses inappropriées. Des tests rigoureux ont été effectués et un encadrement humain a été maintenu tout au long de l’expérience. Malgré cela, Marco Schmid est resté vigilant. « Installer un Jésus IA de façon permanente serait une responsabilité trop lourde », confie-t-il.
Une soif de spiritualité moderne
Cette initiative met en lumière un intérêt croissant pour de nouvelles modalités de dialogue spirituel. Pour Schmid, elle illustre que les gens aspirent à dépasser les cadres traditionnels pour interagir avec la foi. Même si l’installation ne sera pas permanente, elle ouvre des perspectives fascinantes sur l’avenir de la religion à l’ère numérique.
Avec Deus in Machina, l’église de Lucerne prouve que tradition et innovation peuvent coexister. Ce projet singulier pose des questions profondes sur le rôle de l’IA dans la spiritualité et les nouvelles façons de vivre sa foi.
Pour élaborer et mettre en œuvre des solutions d’IA, il est essentiel de réaliser des tests et des évaluations comparatives de chaque modèle. Ces essais permettent effectivement de mesurer objectivement l’efficacité de diverses configurations. Cela inclut notamment le choix de l’architecture, les techniques d’apprentissage et les stratégies de déploiement. Ces analyses permettront ensuite d’identifier les solutions les plus adéquates aux exigences spécifiques du projet et de son cadre opérationnel. C’est ce que l’on désigne couramment par les Benchmarks en machine learning, absolument cruciaux dans le secteur de l’IA.
Dans ce guide, nous allons examiner les outils principaux d’évaluation utilisés en apprentissage automatique, ainsi que les approches recommandées pour effectuer des comparaisons pertinentes.
Nous tenterons aussi de comprendre comment tirer parti des résultats pour améliorer les modèles et maximiser les performances globales.
Ces ressources ont pour but de doter les professionnels des compétences requises pour analyser et perfectionner leurs systèmes, avec un accent particulier sur les LLM.
Quel benchmark pour évaluer la maîtrise des mathématiques ?
L’évaluation des capacités mathématiques des LLMs constitue un défi particulier, notamment à travers deux benchmarks principaux qui se distinguent par leur approche et leur complexité.
Le premier, GSM-8K, s’affirme comme une référence essentielle dans l’évaluation des compétences mathématiques élémentaires.
Ce benchmark, qui comprend 8 500 problèmes mathématiques soigneusement choisis, teste la capacité des modèles à résoudre des exercices nécessitant entre deux et huit étapes de résolution.
Or, ces problèmes, bien que paraissant simples à première approche, demandent une compréhension approfondie des notions d’arithmétique, d’algèbre et de géométrie.
La performance d’un modèle sur GSM-8K se mesure simplement par le taux de réponses correctes. C’est ainsi qu’une métrique claire et objective est obtenue.
En parallèle, le benchmark MATH élève l’évaluation à des niveaux de sophistication plus élevés. Avec ses 12 500 problèmes de niveau compétitif, il ne se contente pas d’évaluer la capacité à trouver la bonne réponse.
Ce benchmark analyse également la qualité du raisonnement à travers des solutions détaillées étape par étape.
Cela représente donc une approche plus raffinée qui couverture sept domaines différents en mathématiques. Notamment l’algèbre, les statistiques et le calcul différentiel, le tout réparti sur cinq niveaux de difficulté croissante.
Le benchmark MATH se démarque par sa capacité à évaluer non seulement la justesse des réponses, mais aussi la profondeur de la compréhension mathématique des modèles.
Contexte, ambiguïtés et vérification
En explorant le domaine des connaissances générales, le benchmark MMLU (Massive Multitask Language Understanding) se pose comme une référence essentielle pour évaluer les modèles de langages tels que GPT-4.
Avec environ 16 000 questions couvrant 57 domaines variés, le benchmark MMLU propose une évaluation exhaustive des capacités de compréhension et de raisonnement des modèles.
Il va ainsi au-delà d’une simple répétition en demandant une véritable compréhension contextuelle. Mais aussi une capacité à appliquer les connaissances de manière nuancée.
Néanmoins, ce benchmark n’est pas exempt de défauts. Les critiques soulignent notamment un manque de contexte dans certaines questions.
Il peut également présenter, parfois, des ambiguïtés et des erreurs dans ses réponses.
Dans ce cadre, TriviaQA ajoute une dimension supplémentaire à l’évaluation en mettant l’accent sur la véracité des réponses générées.
Ce benchmark met en lumière un paradoxe fascinant. Les modèles plus volumineux, ayant accès à davantage d’informations durant leur apprentissage, peuvent parfois s’avérer moins fiables à cause de l’absorption de données incorrectes.
Le défi principal de TriviaQA réside toutefois dans la capacité des modèles à parcourir les documents fournis pour extraire et vérifier les informations pertinentes.
À l’image de Claude AI qui permet aujourd’hui d’analyser des documents en format PDF simplement en téléchargeant le fichier dans l’interface web du chatbot.
Quels benchmarks pour tester la génération de code des LLMs ?
D’un point de vue programmation et codage, l’évaluation des capacités des LLMs s’articule principalement autour de deux benchmarks clés : HumanEval et MBPP.
HumanEval, mis en place par OpenAI, comporte 164 défis de programmation en Python minutieusement conçus.
Ce benchmark se distingue notamment par l’utilisation de la métrique pass@k. Cela dans le but d’évaluer l’exactitude du code généré par le modèle testé.
À mon avis, cela est idéal pour évaluer les performances d’un modèle en matière de génération de code, bien que le benchmark HumanEval présente néanmoins certaines limites.
D’une part, il se concentre essentiellement sur les problèmes algorithmiques. D’autre part, il tend à occlure la complexité des tâches de programmation dans le monde réel.
En outre, HumanEval ignore des éléments cruciaux comme la rédaction de tests ou l’explication du code.
Concernant le benchmark MBPP (Mostly Basic Python Programming), il élargit le processus d’évaluation avec 974 tâches de programmation de niveau débutant.
Ce dernier adopte également une approche systématique qui implique trois cas de test automatisés pour chaque problème.
Ainsi, il propose une évaluation plus approfondie de la capacité des modèles à produire du code fonctionnel à partir de descriptions en langage naturel.
LLMs face à l’épreuve en les testant sur HellaSwag et ARC
Outre HumanEval, MMLU et MBPP, il existe également le benchmark HellaSwag, qui se distingue par son approche unique du raisonnement de sens commun.
En d’autres termes, à travers des tâches de complétion de phrases basées sur des vidéos, il teste la capacité des modèles à comprendre et à prévoir des séquences d’événements logiques.
Cependant, bien que ces scénarios puissent sembler simples pour les humains, ils revisent un réel défi pour les LLMs. En grande partie à cause du processus de filtrage utilisé pour créer des réponseserronées, souvent trompeuses.
Aussi, il y a l’ARC ou AI2 Reasoning Challenge, qui pousse encore plus loin l’évaluation du raisonnement avec près de 8 000 questions scientifiques de niveau collège.
Ce benchmark est assez spécifique, car il nécessite un raisonnement distribué plutôt qu’une simple extraction d’informations.
En gros, les questions touchent à une large gamme de connaissances. Elles s’étendent du factuel à l’expérimental, en incluant des éléments spatiaux et algébriques.
Cependant, sa limitation aux questions scientifiques réduit quelque peu son étendue évaluative.
Benchmarks ou tests réels ? La méthode idéale pour évaluer les modèles de langage
Le choix d’un LLM ne doit pas se limiter aux seuls résultats des benchmarks, qui peuvent comporter des biais ou des insuffisances.
Il est donc préférable de tester concrètement les modèles préalablement sélectionnés pour s’assurer qu’ils répondent aux besoins spécifiques de chaque projet.
Les plateformes d’évaluation telles que le LLM playground de Keywords AI proposent un cadre idéal pour comparer les performances des différents modèles en conditions réelles.
Une fois l’évaluation manuelle accomplie, l’intégration des modèles sélectionnés peut être facilitée par le biais d’APIs compatibles OpenAI, tel que celui proposé par Keywords AI.
Ainsi, on peut facilement lancer le processus de transition entre la phase d’évaluation et la mise en production.
En conclusion, l’évaluation des LLMs nécessite une approche holistique. Il est crucial de prendre en considération non seulement les performances affichées sur les divers benchmarks, mais aussi les exigences spécifiques de chaque application.
Les benchmarks en mathématiques, en connaissances générales, en programmation et en raisonnement logique ne fournissent qu’un cadre structuré pour cette évaluation. Cela dit, ils doivent être accompagnés de tests pratiques pour assurer une sélection optimale.
Quel est le meilleur LLM selon les benchmarks ?
Les LLM représentent aujourd’hui une technologie majeure dans le secteur de l’IA. Leur évaluation se fait via diverses plateformes de tests normalisés comme MMLU, SuperGLUE ou Big-Bench.
Celles-ci vont ensuite mesurer leurs aptitudes dans différents domaines. Notamment la compréhension textuelle, le raisonnement mathématique et leurs capacités analytiques, comme mentionné précédemment.
En se penchant sur le paysage actuel des LLM, OpenAI conserve une position prépondérante avec GPT-4. Ce modèle est particulièrement réputé pour son exactitude face à des interrogations complexes et sa maîtrise approfondie des dimensions multiculturelles et multilinguistiques.
De son côté, le modèle Claude 3 d’Anthropic commence également à se faire remarquer pour son approche responsable et son expertise dans la gestion de sujets délicats.
Et selon Sam Altman, le PDG actuel d’OpenAI, l’entreprise attache désormais une importance notable aux considérations éthiques.
Et Llama, PaLM et Falcon dans tout ça ?
Concernant Meta, Mark Zuckerberg et son équipe ont déployé Llama 2, une alternative open source qui favorise l’optimisation des ressources et l’adaptabilité.
Le lancement de ce modèle a permis des ajustements spécifiques malgré des résultats plus modestes sur certains tests standards.
En parallèle, TII ou Technology Innovation Institute a conçu le modèle Falcon, qui se distingue par son efficacité en matière de ressources informatiques.
Son principal atout est sa capacité à satisfaire les besoins des organisations soucieuses de leur budget.
Dans cette optique, PaLM 2 de Google et Mistral émergent comme des solutions polyvalentes offrant des performances harmonieuses sur tous les critères d’évaluation.
Toute cette multiplicité de modèles souligne l’importance d’aligner votre choix de LLM avec vos objectifs précis.
C’est-à-dire qu’il ne faut pas vous focaliser uniquement sur les résultats des benchmarks. Il est également nécessaire de baser vos évaluations sur l’exactitude, mais aussi sur la responsabilité éthique et la performance, sans omettre l’optimisation des coûts que présente le modèle choisi.
Lorsque Satya Nadella a pris la direction de l’entreprise, celle-ci était lente et démodée. Il a assaini une culture toxique, a conçu le deal de la décennie et a remis Microsoft au sommet.
Ce n’est plus une fiction ni un fantasme. Les sexbots, ou robots d’amour, sont une réalité, et de nombreuses entreprises se consacrent à la création de leurs propres modèles. Avec l’émergence de l’IA, l’idée de concevoir des robots capables de simuler la femme et de satisfaire leur propriétaire a vu le jour. Je me demande donc, dans ce secteur, quand les robots sexuels seront-ils accessibles ? Pour obtenir une réponse, j’ai interrogé ChatGPT, et voici ce qu’il a partagé en tant que chatbot IA.
Selon l’assistant conversationnel d’OpenAI, il existe déjà au moins trois modèles de robots sexuels sur le marché.
Cependant, je pense qu’il est essentiel de continuer les recherches, car le modèle utilisé par ChatGPT s’appuie uniquement sur des informations antérieures à 2024.
Ainsi, durant ce laps de temps, il est possible que d’autres sociétés aient mis au point des sexbots sans que ChatGPT soit au courant.
En lien avec ce contexte, j’ai élaboré un guide qui compile le top 5 des robots sexuels IA ou des sexbots les plus réalistes jamais confectionnés.
Trois entreprises montantes dans le secteur des robots sexuels selon ChatGPT
Parmi les nombreuses entreprises engagées dans la conception de robots IA sexuels, ChatGPT souligne que trois d’entre elles se sont distinguées.
En tant qu’acteur clé, le chatbot mentionne Realbotix, une branche d’Abyss Creations.
L’entreprise a déjà lancé sur le marché les modèles Harmony et Henry, le tout premier robot sexuel masculin en vente.
Ces deux robots, aussi avancés qu’ils soient, proposent des capacités de conversation hautement développées.
Parmi leurs caractéristiques, on trouve la mémorisation de détails personnels et une plus grande capacité d’adaptation aux goûts personnels de leur utilisateur.
Côté prix, les tarifs pour Henry et Harmony varient entre 11 000 et 15 000 euros.
Realbotix justifie d’ailleurs son prix par un haut degré de personnalisation et des mouvements faciaux finement détaillés.
En plus de Realbotix, nous avons aussi True Companion, qui a su s’imposer sur le marché des robots sexuels avec Roxxxy, un robot féminin destiné à instaurer un lien émotionnel.
Sa particularité, comme le souligne ChatGPT, est sa capacité à alterner différentes personnalités.
Néanmoins, il faudra débourser environ 7 000 dollars, soit près de 6 600 euros, pour se le procurer.
La troisième société, Android Love Dolls, a opté pour une approche un peu plus simpliste.
Elle n’a donc pas vraiment misé sur l’intelligence artificielle, mais plutôt sur l’esthétique et le réalisme de son robot sexuel.
Leurs créations, moins avancées technologiquement, mettent davantage l’accent sur l’aspect physique et sensoriel des robots.
Peut-on espérer de nouveaux modèles de sexbots dans les années à venir ?
D’après les spécialistes, les tout premiers robots sexuels véritablement avancés pourraient devenir plus abordables d’ici cinq à dix ans.
Dans l’intervalle, ChatGPT déclare que les sociétés de la SexTech travaillent pour satisfaire une demande croissante, notamment de personnes socialement isolées, de veufs ou de couples éloignés géographiquement.
Le développement imminent de robots sexuels soulève toutefois une interrogation : fourniront-ils uniquement du plaisir ou répondront-ils à un besoin émotionnel plus profond ?
À mesure que la technologie progresse, il est évident que ces machines ne surclasseront pas les relations humaines.
Cependant, il est probable qu’elles puissent avoir leur place dans une société en recherche de nouvelles formes de liaison.
Malgré des préoccupations partagées concernant le pouvoir de Google, les critiques de l’entreprise et les anciens dirigeants expriment peu d’accord sur ce qui peut réellement être fait, le cas échéant, pour augmenter la concurrence.