OpenAI avance sur l'audio avec des modèles d'IA dédiés
L'ajout de modèles speech-to-text et text-to-speech est un réel plus pour OpenAI qui complète sa gamme de services autour de l'intelligence artificielle. Disponibles dans son API dès maintenant, les modèles sont par ailleurs basés sur ses architectures GPT les plus récentes.
On connaissait le système de reconnaissance vocale Whisper développé par OpenAI, mais loin d'être glorieux ce dernier était sujet aux hallucinations. Aujourd'hui, la coqueluche de l'IA semble avoir largement planché sur le sujet et annonce trois modèles audio disponibles dans son API : deux modèles speech-to-text surpassant Whisper, ainsi qu'un modèle de synthèse vocale text-to-speech et une boîte à outils "SDK Agents" pour créer des agents vocaux et guider le modèle sur la manière de s'exprimer.
"Nos derniers modèles de reconnaissance vocale établissent une nouvelle référence en matière de précision et de fiabilité, surpassant les solutions existantes — notamment dans des situations complexes impliquant des accents, du bruit de fond ou des vitesses d’élocution variables", promet OpenAI. Des améliorations qui devraient faire de ces outils les accessoires parfaits pour des cas d’usage comme les centres d’appels, la prise de notes de réunion, etc. La possibilité de guider le modèle sur sa manière de parler est également un atout de taille : "parle comme un agent du service client empathique". Un pas de plus vers la personnalisation, somme toute.
Des modèles basés sur GPT-4o et GPT-4o-mini
Dans le détail, ces deux modèles, gpt-4o-transcribe et gpt-4o-mini-transcribe, offrent une meilleure reconnaissance des mots (taux d’erreur réduit) ainsi qu’une meilleure précision linguistique, comparé aux modèles Whisper d'origine. Le modèle gpt-4o-transcribe affiche pour sa part de meilleurs résultats sur le taux d’erreur de mots par rapport aux modèles Whisper, en raison de travaux effectués au niveau de l'apprentissage par renforcement et d'un entraînement approfondi sur des ensembles de données audio variés.
Ces modèles captent mieux les subtilités de la parole, réduisent les erreurs d’interprétation et augmentent la fiabilité des transcriptions, même dans des environnements difficiles (accents, bruits de fond, débit variable). En parallèle, OpenAI lance gpt-4o-mini-tts, dédié donc à la personnalisation du modèle audio, "les développeurs peuvent indiquer au modèle non seulement quoi dire, mais aussi comment le dire", avec des voix artificielles prédéfinies. L'ensemble de ces modèles reposent sur les architectures GPT-4o et GPT-4o-mini, et ont été pré-entraînés sur des jeux de données audio spécialisés.
OpenAI prépare déjà la suite
La start-up assure qu'elle planche déjà sur d'autres fonctions et davantage de personnalisation, notamment en offrant aux développeurs la possibilité d'apporter leurs propres voix personnalisées. Elle travaille également sur d'autres modalités — notamment la vidéo — pour proposer la création d’expériences agentiques multimodales.
De façon plus générale, OpenAI suit une feuille de route plutôt dense : ces derniers mois, elle a largement investi dans des systèmes capables d’exécuter des tâches de manière autonome pour le compte des utilisateurs — à travers Operator, Deep Research, Computer-Using Agents ou encore l’API Responses avec des outils intégrés. L'ajout de modèles audio aujourd'hui confirme sa volonté d'intégrer le tout pour ne faire qu'un et tendre vers une communication qui soit la plus naturelle possible avec l'IA.
SUR LE MÊME SUJET
- Le système de reconnaissance vocale d'OpenAI, Whisper, hallucine à plein régime
- Les développeurs vont pouvoir intégrer ChatGPT et Whisper à leurs applications
- OpenAI lance un agent dans ChatGPT capable d'effectuer des recherches complexes sur Internet
- Avec son agent Operator, OpenAI prend le contrôle de votre navigateur
OpenAI avance sur l'audio avec des modèles d'IA dédiés
Tous les champs sont obligatoires
0Commentaire
Réagir