DeepSeek V3 : une puissance de l’IA en open source
Le laboratoire chinois DeepSeek a récemment créé ce qui semble être l’un des modèles d’IA “open source” les plus puissants à ce jour. Le modèle, baptisé DeepSeek V3, a été dévoilé mercredi dernier et est proposé sous une licence permissive permettant aux développeurs de le télécharger et de le modifier pour la plupart des applications, y compris commerciales.
Une polyvalence exceptionnelle
DeepSeek V3 est capable de gérer une variété de charges de travail et de tâches basées sur du texte, telles que la programmation, la traduction, la rédaction d’essais et d’e-mails à partir d’un brief descriptif.
Benchmark interne
Selon les tests de benchmark internes de DeepSeek, DeepSeek V3 surpasse à la fois les modèles téléchargeables et disponibles “ouverts” ainsi que les modèles d’IA “fermés” qui ne peuvent être accessibles qu’à travers une API.
Performance remarquable
Dans un sous-ensemble de compétitions de codage hébergées sur Codeforces, une plateforme de concours de programmation, DeepSeek a surpassé d’autres modèles, dont le Llama 3.1 405B de Meta, le GPT-4o de OpenAI et le Qwen 2.5 72B de Alibaba.
L’innovation Open-Source
DeepSeek prétend que DeepSeek V3 a été formé sur un ensemble de données de 14,8 trillions de tokens. En science des données, les tokens sont utilisés pour représenter des bits de données brutes – 1 million de tokens est égal à environ 750 000 mots.
Un modèle colossal
Ce n’est pas seulement l’ensemble de formation qui est massif. DeepSeek V3 est énorme en taille : 671 milliards de paramètres, ou 685 milliards sur la plateforme de développement AI Hugging Face. (Les paramètres sont les variables internes que les modèles utilisent pour faire des prédictions ou prendre des décisions.) C’est environ 1,6 fois la taille du Llama 3.1 405B, qui a 405 milliards de paramètres.
Un exploit en termes de ressources
Alors que DeepSeek V3 n’est pas le modèle le plus pratique, il est néanmoins une réussite à certains égards. DeepSeek a réussi à former le modèle en utilisant un centre de données de Nvidia H800 GPUs en à peine deux mois – des GPUs que les entreprises chinoises ont récemment été restreintes par le département du commerce américain d’acquérir. De plus, l’entreprise prétend n’avoir dépensé que 5,5 millions de dollars pour former DeepSeek V3, une fraction du coût de développement de modèles tels que le GPT-4 de OpenAI.
Un certain biais politique
En revanche, les vues politiques du modèle sont quelque peu… orientées. Par exemple, si on demande à DeepSeek V3 de parler de la place Tiananmen, il refuse de répondre.
En tant qu’entreprise chinoise, DeepSeek est soumise à l’évaluation par le régulateur Internet de la Chine pour s’assurer que les réponses de ses modèles “incarnent les valeurs socialistes fondamentales”. De nombreux systèmes d’IA chinois refusent de répondre à des sujets qui pourraient susciter la colère des régulateurs, comme des spéculations sur le régime de Xi Jinping.
DeepSeek : une organisation intrigante
DeepSeek, qui a dévoilé fin novembre DeepSeek-R1, une réponse au modèle “raisonnement” o1 de OpenAI, est une organisation curieuse. Elle est soutenue par High-Flyer Capital Management, un fonds spéculatif quantitatif chinois qui utilise l’IA pour informer ses décisions de trading.
High-Flyer construit ses propres grappes de serveurs pour la formation de modèles, la plus récente ayant apparemment 10 000 Nvidia A100 GPUs et coûtant 1 milliard de yens (~138 millions de dollars). Fondé par Liang Wenfeng, un diplômé en informatique, High-Flyer vise à atteindre une IA “superintelligente” grâce à son organisation DeepSeek.
Dans une interview plus tôt cette année, Wenfeng a caractérisé l’IA en source fermée comme celle de OpenAI comme une “défense temporaire”. “[Elle] n’a pas empêché les autres de rattraper leur retard”, a-t-il noté. En effet.
En savoir plus sur L'ABESTIT
Subscribe to get the latest posts sent to your email.
Laisser un commentaire