En 2025, les entrepreneurs vont libérer une multitude d’applications alimentées par l’intelligence artificielle (IA). Enfin, l’IA générative répondra aux attentes avec une nouvelle génération d’applications abordables pour les consommateurs et les entreprises. Ce point de vue n’est cependant pas unanime aujourd’hui. OpenAI, Google et xAI sont engagés dans une course aux armements pour entraîner le modèle de langage de grande taille (LLM) le plus puissant dans la quête de l’intelligence artificielle générale (AGI). Cette bataille intense occupe une place prépondérante dans les esprits et génère des revenus considérables au sein de l’écosystème naissant de l’IA générative.
À titre d’exemple, Elon Musk a levé 6 milliards de dollars pour lancer la nouvelle entreprise xAI et a acquis 100 000 GPU Nvidia H100, des puces coûteuses utilisées pour traiter l’IA, entraînant un coût dépassant les 3 milliards de dollars pour entraîner son modèle, Grok. À ces prix, seuls des magnats de la technologie peuvent se permettre de développer ces immenses LLM. Les dépenses colossales d’entreprises comme OpenAI, Google et xAI ont créé un écosystème déséquilibré, avec une forte concentration de pouvoir en haut et une base de développeurs restreinte en bas. Les LLM entraînés par ces grandes fermes de GPU sont souvent très coûteux en termes d’inférence, c’est-à-dire le processus d’entrée d’une requête et de génération d’une réponse, ce qui limite leur intégration dans les applications utilisant l’IA. C’est comme si tout le monde avait des smartphones 5G, mais que l’utilisation des données était trop coûteuse pour regarder des vidéos TikTok ou naviguer sur les réseaux sociaux. Par conséquent, l’existence de LLM performants avec des coûts d’inférence élevés rend difficile la prolifération d’applications innovantes.
Cet écosystème déséquilibré, dominé par de riches magnats de la technologie, a enrichi Nvidia tout en piégeant les développeurs d’applications dans un dilemme : soit utiliser un modèle peu coûteux et de faible performance, soit faire face à des coûts d’inférence exorbitants et risquer la faillite. Cependant, en 2025, une nouvelle approche pourrait transformer cette dynamique. Cela s’inscrit dans la lignée des révolutions technologiques précédentes, telles que l’ère des PC avec Intel et Windows ou l’ère mobile avec Qualcomm et Android, où la loi de Moore a constamment amélioré les PC et les applications, et où la baisse des coûts de bande passante a rendu les téléphones mobiles et les applications de plus en plus accessibles.
Quelle est alors la solution pour les coûts d’inférence élevés ? Une nouvelle loi relative à l’inférence IA est sur le point d’émerger. En effet, le coût de l’inférence a chuté d’un facteur 10 par an, grâce à de nouveaux algorithmes d’IA, des technologies d’inférence et de meilleures puces à des prix plus bas. Par exemple, si un développeur utilise les modèles haut de gamme d’OpenAI pour créer une recherche IA, en mai 2023, le coût était d’environ 10 $ par requête, tandis que la recherche classique de Google coûtait seulement 0,01 $, soit une différence de 1 000 fois. Cependant, d’ici mai 2024, le prix du modèle le plus performant d’OpenAI sera tombé à environ 1 $ par requête. Avec cette réduction de prix sans précédent de 10 fois par an, les développeurs d’applications pourront utiliser des modèles de plus en plus performants et moins coûteux, entraînant une prolifération des applications IA dans les deux années suivantes.
Je crois que cela entraînera une nouvelle manière de créer des entreprises de LLM. Au lieu de se concentrer sur la course à l’AGI, les fondateurs commenceront à développer des modèles presque aussi performants que les meilleurs LLM, mais légers, donc ultra-rapides et ultra-abordables. Ces modèles et applications, conçus pour des applications commerciales avec des modèles plus légers et une architecture innovante, coûteront une fraction du prix à entraîner tout en atteignant des niveaux de performance suffisants pour les consommateurs et les entreprises. Cette approche ne conduira peut-être pas à une IA récompensée par un prix Nobel, mais elle sera le catalyseur d’une prolifération d’applications IA, favorisant ainsi un écosystème IA sain.
Pour illustrer cela, je soutiens une équipe qui construit simultanément un modèle, un moteur d’inférence et une application. Rhymes.ai, une startup d’IA basée à Silicon Valley, a entraîné un modèle presque aussi bon que le meilleur d’OpenAI pour 3 millions de dollars, comparé à plus de 100 millions de dollars déclarés par Sam Altman pour entraîner GPT-4 d’OpenAI. Le coût d’inférence de ce modèle appliqué à une application de recherche IA, telle que BeaGo, n’est que de 0,03 $ par requête, soit seulement 3 % du prix de GPT-4. De plus, l’équipe a construit et lancé une application de recherche IA avec seulement cinq ingénieurs travaillant pendant deux mois.
Comment cela a-t-il été réalisé ? Grâce à une intégration verticale et approfondie qui optimise l’inférence, le modèle et le développement de l’application de manière holistique. Sur le chemin de la progression de l’IA, nous avons tous été témoins du pouvoir des LLM en tant que technologie révolutionnaire. Je suis fermement convaincu que l’IA générative va transformer notre manière d’apprendre, de travailler, de vivre et de faire des affaires. L’écosystème doit collaborer pour surmonter les obstacles de coût et ajuster la formule, afin d’atteindre un équilibre permettant à l’IA de véritablement fonctionner pour notre société.
En savoir plus sur L'ABESTIT
Subscribe to get the latest posts sent to your email.
Laisser un commentaire