Share this post

DeepSeek V3 : une puissance de l’IA en open source

Découvrez le Nouveau Modèle d'IA de DeepSeek : Un Concurrent Ouvert Révolutionnaire sur le Marché

Le laboratoire chinois DeepSeek a récemment créé ce qui semble être l’un des modèles d’IA “open source” les plus puissants à ce jour. Le modèle, baptisé DeepSeek V3, a été dévoilé mercredi dernier et est proposé sous une licence permissive permettant aux développeurs de le télécharger et de le modifier pour la plupart des applications, y compris commerciales.

Une polyvalence exceptionnelle

DeepSeek V3 est capable de gérer une variété de charges de travail et de tâches basées sur du texte, telles que la programmation, la traduction, la rédaction d’essais et d’e-mails à partir d’un brief descriptif.

Benchmark interne

Selon les tests de benchmark internes de DeepSeek, DeepSeek V3 surpasse à la fois les modèles téléchargeables et disponibles “ouverts” ainsi que les modèles d’IA “fermés” qui ne peuvent être accessibles qu’à travers une API.

Performance remarquable
Dans un sous-ensemble de compétitions de codage hébergées sur Codeforces, une plateforme de concours de programmation, DeepSeek a surpassé d’autres modèles, dont le Llama 3.1 405B de Meta, le GPT-4o de OpenAI et le Qwen 2.5 72B de Alibaba.

L’innovation Open-Source

DeepSeek prétend que DeepSeek V3 a été formé sur un ensemble de données de 14,8 trillions de tokens. En science des données, les tokens sont utilisés pour représenter des bits de données brutes – 1 million de tokens est égal à environ 750 000 mots.

Un modèle colossal

Ce n’est pas seulement l’ensemble de formation qui est massif. DeepSeek V3 est énorme en taille : 671 milliards de paramètres, ou 685 milliards sur la plateforme de développement AI Hugging Face. (Les paramètres sont les variables internes que les modèles utilisent pour faire des prédictions ou prendre des décisions.) C’est environ 1,6 fois la taille du Llama 3.1 405B, qui a 405 milliards de paramètres.

Un exploit en termes de ressources

Alors que DeepSeek V3 n’est pas le modèle le plus pratique, il est néanmoins une réussite à certains égards. DeepSeek a réussi à former le modèle en utilisant un centre de données de Nvidia H800 GPUs en à peine deux mois – des GPUs que les entreprises chinoises ont récemment été restreintes par le département du commerce américain d’acquérir. De plus, l’entreprise prétend n’avoir dépensé que 5,5 millions de dollars pour former DeepSeek V3, une fraction du coût de développement de modèles tels que le GPT-4 de OpenAI.

Un certain biais politique

En revanche, les vues politiques du modèle sont quelque peu… orientées. Par exemple, si on demande à DeepSeek V3 de parler de la place Tiananmen, il refuse de répondre.

En tant qu’entreprise chinoise, DeepSeek est soumise à l’évaluation par le régulateur Internet de la Chine pour s’assurer que les réponses de ses modèles “incarnent les valeurs socialistes fondamentales”. De nombreux systèmes d’IA chinois refusent de répondre à des sujets qui pourraient susciter la colère des régulateurs, comme des spéculations sur le régime de Xi Jinping.

DeepSeek : une organisation intrigante

DeepSeek, qui a dévoilé fin novembre DeepSeek-R1, une réponse au modèle “raisonnement” o1 de OpenAI, est une organisation curieuse. Elle est soutenue par High-Flyer Capital Management, un fonds spéculatif quantitatif chinois qui utilise l’IA pour informer ses décisions de trading.

High-Flyer construit ses propres grappes de serveurs pour la formation de modèles, la plus récente ayant apparemment 10 000 Nvidia A100 GPUs et coûtant 1 milliard de yens (~138 millions de dollars). Fondé par Liang Wenfeng, un diplômé en informatique, High-Flyer vise à atteindre une IA “superintelligente” grâce à son organisation DeepSeek.

Dans une interview plus tôt cette année, Wenfeng a caractérisé l’IA en source fermée comme celle de OpenAI comme une “défense temporaire”. “[Elle] n’a pas empêché les autres de rattraper leur retard”, a-t-il noté. En effet.

 

 

"Découvrez le Nouveau Modèle d'IA de DeepSeek : Un Concurrent Ouvert Révolutionnaire sur le Marché"

En savoir plus sur L'ABESTIT

Subscribe to get the latest posts sent to your email.

Articles similaires

27 DéCEMBRE 2024

Cyberhaven Victime d’une Mise à Jour Malveillante

La startup spécialisée dans la perte de données affirme avoir été visée dans le cadre d'une "campagne plus large visant les développeurs d'extensions Chrome." © 2024 TechCrunch. Tous droits...

0

27 DéCEMBRE 2024

“Découvrez comment ce robot quadrupède s’adapte aux situations difficiles comme un animal !”

Des chercheurs de l'Université de Leeds ont récemment présenté un cadre pour un robot quadrupède dont la conception s'inspire de la biomécanique des animaux à quatre pattes. Le robot...

0

27 DéCEMBRE 2024

Applications iPad Essentielles pour Maximiser Votre Productivité et Simplifier Votre Vie”

Il existe de nombreuses applications iPad pour vous aider à organiser vos recettes, synchroniser vos tâches sur différents appareils, améliorer votre productivité et gérer vos notes. © 2024...

0

27 DéCEMBRE 2024

Profitez des Remises Exceptionnelles sur les Véhicules Électriques avec Hertz : Louez Économiquement!

Hertz a récemment contacté des personnes qui louent actuellement des véhicules électriques pour leur proposer l'option d'acheter la voiture plutôt que de la restituer, rapporte The Verge. Et les...

0

27 DéCEMBRE 2024

OpenAI : Découvrez les Plans de Transition vers le Profit et leur Impact sur l’Avenir de l’IA

OpenAI affirme que sa structure d'entreprise doit évoluer pour faire progresser sa mission de garantir que l'intelligence artificielle générale (AGI) — une IA capable d'accomplir la plupart des...

0

27 DéCEMBRE 2024

“Ransomware 2024 : Chronologie des cyberattaques et des rançons record qui bouleversent la cybers

De LoanDepot à Evolve Bank et Blue Yonder, ces attaques par rançongiciel affectent des dizaines de millions de personnes. © 2024 TechCrunch. Tous droits réservés. Pour usage personnel...

0

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.

En savoir plus sur L'ABESTIT

Abonnez-vous pour poursuivre la lecture et avoir accès à l’ensemble des archives.

Poursuivre la lecture