DeepSeek, cette start-up chinoise qui fait mieux qu'OpenAI pour 96% moins cher

Qui a dit qu'il fallait dépenser des milliards pour faire de l'IA générative ? Le modèle DeepSeek-R1 atteint des performances comparables à celles du modèle o1 d'OpenAI pour les tâches de mathématiques, de code et de raisonnement. Pour soutenir la communauté, la start-up a mis en libre accès DeepSeek-R1-Zero, DeepSeek-R1 et six modèles denses distillés à partir de DeepSeek-R1, basés sur Llama et Qwen.

Partager
DeepSeek, cette start-up chinoise qui fait mieux qu'OpenAI pour 96% moins cher

"Nous vivons dans une époque où une entreprise non américaine porte le flambeau de la mission originale d'OpenAI - une recherche véritablement ouverte qui donne du pouvoir à tous", s'exclame Jim Fan, senior research manager and lead of embodied AI au sein de Nvidia sur LinkedIn. Ce dernier fait référence à DeepSeek, une start-up chinoise qui a dévoilé cette semaine ses modèles de raisonnement de première génération, DeepSeek-R1-Zero et DeepSeek-R1.

Une publication sous licence MIT

Leur point fort ? Des performances équivalentes à o1-1217 d'OpenAI, mais pour beaucoup moins cher... et en open source aussi bien pour les chercheurs que les entreprises. "Afin de soutenir la communauté de recherche, nous mettons en open source DeepSeek-R1-Zero, DeepSeek-R1, et six modèles denses (1,5B, 7B, 8B, 14B, 32B, 70B) distillés à partir de DeepSeek-R1 basé sur Qwen et Llama", précise la start-up. Publié sous licence MIT, DeepSeek-R1 est donc libre de modification, d'ajustement et de commercialisation, contrairement à OpenAI et à son écosystème fermé.

Le coup de grâce ? DeepSeek n'est qu'une filiale de High-Flyer Capital Management, une société de gestion quantitative de fonds lancée initialement en 2015. Développer des modèles d'IA générative n'est donc pas à proprement parler son activité principale, mais un projet à côté porté par des salariés pour mettre à profit ses GPU lorsqu'ils ne sont pas utilisés.

Cette petite structure a donc développé ses modèles aux performances équivalentes à ceux d'OpenAI en ne disposant que de ressources très limitées, sans avoir eu à investir des centaines de milliards de dollars... ni même des centaines de millions. Le coût d'entraînement pour la famille R1 a été de moins de 6 millions de dollars, d'après ses responsables.

Un modèle qui intègre un entraînement en plusieurs étapes

L'entreprise indique qu'elle s'est basée sur DeepSeek-R1-Zero, un modèle entraîné avec de l'apprentissage par renforcement (RL) à grande échelle sans ajustement fin supervisé (SFT) en tant qu'étape préliminaire. Grâce au RL, il "démontre des capacités de raisonnement remarquables". Cependant, il rencontre des défis tels qu'une mauvaise lisibilité et des mélanges linguistiques. "Pour résoudre ces problèmes et améliorer encore les performances de raisonnement, nous introduisons DeepSeek-R1, qui intègre un entraînement en plusieurs étapes et des données de démarrage à froid avant le RL", indique la start-up.

Purement piloté par le RL, sans SFT, "cela rappelle AlphaZero - master Go, Shogi et les échecs à partir de zéro, sans imiter d'abord les coups des grands maîtres humains", commente Jim Fan. Il est intéressant de noter que le temps de réflexion du modèle augmente régulièrement au fur et à mesure de l'entraînement, ce qui n'est pas préprogrammé et est une propriété émergente.

"Notre objectif est d'explorer le potentiel des LLM pour développer des capacités de raisonnement sans aucune donnée supervisée, en nous concentrant sur leur auto-évolution à travers un processus purement RL", a déclaré l'équipe de DeepSeek. Notons que si le modèle DeepSeek R1 dispose d'une architecture de 671 milliards de paramètres et a été entraîné sur la base du modèle MoE DeepSeek V3, seuls 37 milliards de paramètres sont activés pendant la plupart des opérations, à l'instar du modèle V3.

Des performances qui égalent celles du modèle o1 d'OpenAI Pour 96% moins cher

Côté performances, DeepSeek-R1 obtient des résultats comparables voire supérieurs à la version o1-1217 et à o1-mini dans la plupart des benchmarks. Les versions distillées semblent également capables de se mesurer aux modèles d'OpenAI : par exemple, DeepSeek-R1-Distill-Qwen-32B surpasse o1-mini sur différents benchmarks, ce qui en fait une nouvelle référence en matière de modèles dits "denses". Le tout à un prix largement inférieur pour les développeurs qui souhaiteraient l'utiliser.

Quand un million de jetons coûte 0,55 dollars en entrée et 2,19 dollars en sortie pour l'API du modèle de DeepSeek, le prix est de 15 dollars en entrée et de 60 dollars en sortie pour l'API d'o-1. Plus concrètement, cela signifie que les prix d'entrée et de sortie de l'API o-1 sont respectivement 27,27 fois et 27,40 fois plus élevés que ceux de DeepSeek, ou pour le formuler autrement, le tarif de o-1 est environ 2627% et 2639% plus élevé que celui de DeepSeek. Si l'on fait une comparaison globale de l'ensemble des coûts pour 1 million de jetons, le chiffre est encore plus impressionnant : l'API de DeepSeek est 96,4% moins chère que l'API d'OpenAI.

SUR LE MÊME SUJET

Sujets associés

NEWSLETTER L'Usine Digitale

Nos journalistes sélectionnent pour vous les articles essentiels de votre secteur.

Votre demande d’inscription a bien été prise en compte.

Votre email est traité par notre titre de presse qui selon le titre appartient, à une des sociétés suivantes...

Votre email est traité par notre titre de presse qui selon le titre appartient, à une des sociétés suivantes du : Groupe Moniteur Nanterre B 403 080 823, IPD Nanterre 490 727 633, Groupe Industrie Service Info (GISI) Nanterre 442 233 417. Cette société ou toutes sociétés du Groupe Infopro Digital pourront l'utiliser afin de vous proposer pour leur compte ou celui de leurs clients, des produits et/ou services utiles à vos activités professionnelles. Pour exercer vos droits, vous y opposer ou pour en savoir plus : Charte des données personnelles.

CHERCHE TALENTS NUMERIQUE

Les formations USINE DIGITALE

Toutes les formations

ARTICLES LES PLUS LUS