TTS open-source innovant
Nari Labs lance Dia, un modèle TTS open-source de 1,6 milliard de paramètres, capable de clonage vocal en zero-shot et de synthèse d’expressions vocales en temps réel. Ce développement ouvre de nouvelles perspectives pour des applications vocales de haute qualité et totalement indépendantes des systèmes privés.
Points clés
- Nari Labs lance Dia, un modèle TTS open-source de 1,6 milliard de paramètres.
- Le modèle utilise une architecture transformer pour allier expressivité et efficacité.
- Dia propose le clonage vocal en zero-shot sans nécessiter de fine-tuning pour chaque nouveau locuteur.
- Il intègre la synthèse de vocalisations non verbales comme la toux et le rire pour un rendu plus naturel.
- Le modèle fonctionne en temps réel sur des appareils grand public, y compris des MacBooks.
- La licence Apache 2.0 permet une utilisation flexible en milieu commercial et académique.
- Les premières évaluations montrent des performances comparables, voire supérieures, aux systèmes commerciaux traditionnels.
- Le modèle est accessible via Hugging Face, renforçant son adoption dans la communauté open-source.
À retenir
Si vous n’êtes pas encore conquis par l’idée de voir votre voix clonée en temps réel, il est peut-être temps de reconsidérer. Adopter Dia, c’est miser sur l’open source pour booster l’innovation et bousculer les géants propriétaires – et avouons-le, qui ne rêve pas d’une voix synthétique parfaite pour chanter sous la douche ?
Sources





