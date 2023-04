Le 12 avril 2023, Databricks a publié Dolly 2.0, un grand modèle de langage (LLM) gratuit à usage commercial et à code source ouvert formé pour moins de 30 dollars. L’ambition de la société américaine, expliquée dans le billet de blog de lancement, est de permettre aux organisations de créer et de personnaliser des modèles d'IA sans avoir à payer et sans partager leurs données avec des tiers.

Un modèle affiné par les salariés de Databricks

Une première version de Dolly avait été publiée en mars dernier mais son utilisation commerciale était limitée parce qu’une partie des données d’entraînement utilisées appartenaient à OpenAI. Son nouveau jeu de données, appelé databricks-dolly-15k, est lui doté de 12 milliards de paramètres. Dolly 2.0 est basé sur la famille de modèles pythia d’Eleurher AI et affiné sur des données d’entraînement exclusivement fournies par les employés de Databricks.

L’entreprise a crowdsourcé 13 000 démonstrations de suivi d’instructions auprès de 5000 de ses employés entre mars et avril 2023. Pour encourager leur participation, l’entreprise avait organisé une sorte de concours et défini sept tâches spécifiques obligatoires : les questions-réponses ouvertes, les questions-réponses fermées, l’extraction, le résumé, le brainstorming, la classification et l’écriture créative.

L'ensemble des données obtenues, les poids du modèle ainsi que le code d'entraînement de Dolly ont été publiés en code source libre sous une licence Creative Commons, permettant à quiconque de les utiliser, de les modifier ou d'étendre le jeu de données à n'importe quelles fins, y compris pour des applications commerciales. Ce qui ne devrait pas trop plaire à Microsoft, qui avait investi dans la start-up en 2021.

Une aubaine pour les entreprises avec peu de ressources

Le service ChatGPT d'OpenAI utilise un modèle propriétaire qui exige que les utilisateurs paient pour accéder à l'API et adhèrent à des conditions de service spécifiques qui limitent la flexibilité et les options de personnalisation pour les entreprises et les organisations. Le LLaMA de Meta est quant à lui partiellement en open source et a récemment donné lieu à une vague de produits dérivés après la fuite de ses modèles sur BitTorrent, mais il n'autorise pas non plus l'utilisation commerciale.

Même si Dolly 2 est un LLM beaucoup plus petit que ces derniers, il pourrait être bien utile aux entreprises ayant des ressources financières et informatiques limitées, et pourrait potentiellement déclencher une nouvelle vague de modèles de langage open source non soumis à des limitations propriétaires ou à des restrictions sur l'utilisation commerciale.