Nari Labs révolutionne la synthèse vocale open-source avec Dia, modèle TTS à 1,6 milliard de paramètres

TTS open-source innovant

Nari Labs lance Dia, un modèle TTS open-source de 1,6 milliard de paramètres, capable de clonage vocal en zero-shot et de synthèse d’expressions vocales en temps réel. Ce développement ouvre de nouvelles perspectives pour des applications vocales de haute qualité et totalement indépendantes des systèmes privés.

Points clés

Nari Labs lance Dia, un modèle TTS open-source de 1,6 milliard de paramètres.
Le modèle utilise une architecture transformer pour allier expressivité et efficacité.
Dia propose le clonage vocal en zero-shot sans nécessiter de fine-tuning pour chaque nouveau locuteur.
Il intègre la synthèse de vocalisations non verbales comme la toux et le rire pour un rendu plus naturel.
Le modèle fonctionne en temps réel sur des appareils grand public, y compris des MacBooks.
La licence Apache 2.0 permet une utilisation flexible en milieu commercial et académique.
Les premières évaluations montrent des performances comparables, voire supérieures, aux systèmes commerciaux traditionnels.
Le modèle est accessible via Hugging Face, renforçant son adoption dans la communauté open-source.

À retenir

Si vous n’êtes pas encore conquis par l’idée de voir votre voix clonée en temps réel, il est peut-être temps de reconsidérer. Adopter Dia, c’est miser sur l’open source pour booster l’innovation et bousculer les géants propriétaires – et avouons-le, qui ne rêve pas d’une voix synthétique parfaite pour chanter sous la douche ?

Sources