LLaMA-Omni2 : des chercheurs chinois créent un modèle linguistique vocal modulaire et évolutif permettant une conversation en temps réel avec une latence minimale

LLaMA-Omni2 : la parole en temps réel.

Des chercheurs chinois ont dévoilé LLaMA-Omni2, une famille de modèles linguistiques capables de converser en temps réel avec une latence minimale. Cette avancée repose sur une architecture modulaire intégrant perception et synthèse vocales à la compréhension linguistique. LLaMA-Omni2 promet des dialogues parlés fluides et réactifs pour les applications d’IA.

Points clés

LLaMA-Omni2 est une famille de modèles linguistiques vocaux (SpeechLMs) développée par des chercheurs de l’Institut des Technologies Informatiques de l’Académie Chinoise des Sciences.
Ces modèles sont désormais disponibles sur Hugging Face.
LLaMA-Omni2 utilise une architecture modulaire pour intégrer la perception vocale, la synthèse vocale et la compréhension linguistique.
Contrairement aux systèmes en cascade, LLaMA-Omni2 fonctionne en pipeline de bout en bout tout en conservant une interprétabilité modulaire et un faible coût d’entraînement.
L’architecture comprend un encodeur vocal (utilisant Whisper-large-v3), un adaptateur vocal, un LLM central (basé sur Qwen2.5-Instruct) et un décodeur TTS en flux continu.
Le modèle utilise une stratégie de lecture-écriture pour la génération en flux continu, où W jetons vocaux sont générés pour chaque R jetons produits par le LLM.
Des tests empiriques suggèrent que R=3 et W=10 offrent un bon compromis entre latence (~583 ms), alignement (ASR-WER : 3,26) et qualité perceptive (UTMOS : 4,19).
LLaMA-Omni2 est entraîné sur un corpus relativement compact de 200K échantillons de dialogue parole-parole multi-tours.
Les modèles LLaMA-Omni2 sont évalués sur des tâches de réponse à des questions parlées et de suivi d’instructions vocales en modes parole-texte (S2T) et parole-parole (S2S).
LLaMA-Omni2-14B surpasse toutes les références sur les différentes tâches, même avec moins de données d’entraînement que les SpeechLMs natifs comme GLM-4-Voice.

À retenir

Alors, apparemment, les robots vont bientôt pouvoir nous parler en temps réel sans lag. C’est formidable, n’est-ce pas ? Fini les conversations hachées avec Siri ou Alexa. Préparez-vous à des discussions fluides et naturelles avec votre IA. On ne sait pas encore si elles auront de l’humour, mais au moins, elles ne vous laisseront plus en plan au milieu d’une phrase. Un petit pas pour l’IA, un grand pas pour les bavards solitaires !

Sources