GenAI : Meta dévoile MobileLLM, une famille de modèles pour appareils mobiles
Les chercheurs de Meta AI partagent leurs travaux de recherche en matière d'optimisation des modèles à l'échelle du sous-milliard de paramètres pour les applications sur appareil. L'objectif : réduire la consommation d'énergie pendant l'inférence des modèles. L'approche proposée pourrait également aider à réduire les coûts de calcul associés au déploiement des LLM.
Dans un article de recherche, les chercheurs de Meta AI démontrent l'exécution de sous-milliards de LLM sur les smartphones et autres appareils de pointe. "Nous nous concentrons sur la conception de LLM de haute qualité avec moins d'un milliard de paramètres, un choix pratique pour le déploiement mobile, soulignent-ils.
Ces derniers s'opposent ainsi "à la croyance dominante qui met l'accent sur le rôle central de la quantité de données et de paramètres dans la détermination de la qualité du modèle". Les chercheurs pointent du doigt la nécessité croissante de disposer de grands modèles de langage (LLM) efficaces sur les appareils mobiles, en raison de l'augmentation des coûts du cloud et des problèmes de latence. L'équipe de chercheurs a donc développé MobileLLM, une famille de modèles d'IA générative aux performances intéressantes.
Des performances comparables à Llama-v2 7B
Plusieurs versions du modèle ont été publiées à date. Trois comportant moins d'un milliard de paramètres (150, 300 et 600 millions) ainsi que deux respectivement à 1 et à 1,5 milliard de paramètres. Les chercheurs précisent que leurs expériences sont menées sur 32 GPU A100, chaque GPU ayant une taille de lot de 32. "Nous avons effectué des expériences exploratoires avec 120 000 itérations sur des jetons de 0,25T. Par la suite, les meilleurs modèles rapportés sont entraînés avec 480 000 itérations sur des jetons 1T".
Les chercheurs proposent une approche qui ne nécessite pas d'augmentation de la taille du modèle ou de surcoût de latence. "Dans les scénarios où le déplacement de la mémoire constitue un goulot d'étranglement pour les temps de latence, le partage des poids entre deux blocs adjacents permet d'éviter le déplacement du poids, ce qui nécessite uniquement de calculer le bloc deux fois et d'encourir des frais généraux minimes pour les temps de latence", détaillent-ils. Les modèles qui en résultent, appelés MobileLLM-LS, présentent une amélioration de la précision de de l'ordre de 0,7% à 0,8% par rapport aux versions MobileLLM 125M et 350M.
"Nous obtenons des améliorations significatives de l'utilisation des poids dans des scénarios où le stockage est limité. Les modèles résultants présentent des avancées substantielles dans les tâches de raisonnement de bon sens, de réponse aux questions et de compréhension de la lecture par rapport aux méthodes précédentes existantes". En complément, les recherches prouvent l'efficacité des modèles MobileLLM fine-tuned dans deux cas d'utilisation prévalents sur l'appareil : le chat et l'appel d'API, soulignant leur aptitude à gérer de telles tâches. Par exemple, dans une tâche d'appel d'interface utilisateur, la version à 350 millions de paramètres obtient un score comparable à celui du modèle beaucoup plus grand Llama-v2 7B.
Des LLM qui peuvent être déployés sur smartphone
Prenant en compte des considérations de portabilité et de coût informatique, les chercheurs de Meta estiment qu'à date, l'intégration d'un LLM comme Llama-v2 7B avec des poids de 8 bits s'avère prohibitif en raison des limitations de la capacité de la mémoire principale (DRAM). "Avec des capacités de mémoire vive allant de 6 Go pour l'iPhone 15 à 12 Go pour le Google Pixel 8Pro, une application mobile ne devrait pas dépasser 10% de la mémoire vive, car celle-ci est partagée avec le système d'exploitation des applications", précisent-ils. Un point qui motive, selon eux, le déploiement de LLM à moins d'un milliard de paramètres.
La problématique de la consommation d'énergie est également soulevée : si l'on tient compte de la consommation d'énergie du LLM - 0,1J/token par milliard dans les paramètres du modèle -, un modèle de 7 milliards de paramètres consomme 0,7J/token. Un iPhone entièrement chargé, avec environ 50 kJ d'énergie, peut maintenir ce modèle en conversation pendant moins de 2 heures, à un taux de 10 jetons/s, 0,2% de la batterie étant consommé tous les 64 jetons. "Cette exigence est une impérative de plus en plus courante : l'adoption de modèles compacts pour l'exécution sur l'appareil".
Suivant ce raisonnement, ils indiquent qu'en utilisant un modèle de moins d'un milliard de paramètres, tel qu'un modèle 350M 8-bit consommant seulement 0,035J/token, un iPhone peut prendre en charge une utilisation conversationnelle sur une période de 20 jours. La vitesse de décodage peut par ailleurs être considérablement améliorée, comme dans le cas du modèle 125M, capable de fonctionner à 50 jetons/s.
Un nombre DÉMESURÉ de GPU utilisés pour faire tourner un LLM Comme GPT-4
Cette approche s'écarte de celles proposées par des entreprises comme OpenAI ou Perplexity AI. Rappelant que GPT-4 - le modèle qui fait tourner ChatGPT - dépasse les 1000 milliards de paramètres, l'équipe de Meta AI explique qu'à l'avenir l'humain devrait être plus dépendant aux LLM via des interfaces conversationnelles. La voie de LLM plus petits prend ici tout son sens. Ils estiment que cela équivaudra à 5% du temps quotidien des individus.
"Dans ce scénario hypothétique, l'utilisation de GPT-4 à un taux de traitement de 50 jetons/s implique le déploiement d'environ cent millions de GPU H100, chacun capable de tourner à 60 téraflops/s. Cette échelle de calcul, sans compter les frais généraux de communication et de transmission des données, est comparable à celle de 160 entreprises de la taille de Meta", poursuivent-ils. Un projet qui est loin d'être viable, sans compter la consommation d'énergie et les émissions de dioxyde de carbone qui en résulteraient et représenteraient des défis environnementaux considérables. La conclusion est simple : il est préférable de réduire la taille des LLM.
SUR LE MÊME SUJET
- Meta regroupe ses divisions de recherche en IA et se vante d'avoir l'équivalent de 600 000 Nvidia H100
- "L'intersection d'images et de texte peut nous aider à réduire les hallucinations", Joëlle Pineau, Meta FAIR
- Avec GPT-4o, OpenAI veut défier toute concurrence sur les modèles multimodaux
- Avec Phi-3-mini, Microsoft mise sur un LLM compact et performant capable de tourner sur iPhone
GenAI : Meta dévoile MobileLLM, une famille de modèles pour appareils mobiles
Tous les champs sont obligatoires
0Commentaire
Réagir