Nari Labs révolutionne la synthèse vocale open-source avec Dia, modèle TTS à 1,6 milliard de paramètres

ApplicationsDéveloppementInnovationNews

TTS open-source innovant

Nari Labs lance Dia, un modèle TTS open-source de 1,6 milliard de paramètres, capable de clonage vocal en zero-shot et de synthèse d’expressions vocales en temps réel. Ce développement ouvre de nouvelles perspectives pour des applications vocales de haute qualité et totalement indépendantes des systèmes privés.

Points clés

  • Nari Labs lance Dia, un modèle TTS open-source de 1,6 milliard de paramètres.
  • Le modèle utilise une architecture transformer pour allier expressivité et efficacité.
  • Dia propose le clonage vocal en zero-shot sans nécessiter de fine-tuning pour chaque nouveau locuteur.
  • Il intègre la synthèse de vocalisations non verbales comme la toux et le rire pour un rendu plus naturel.
  • Le modèle fonctionne en temps réel sur des appareils grand public, y compris des MacBooks.
  • La licence Apache 2.0 permet une utilisation flexible en milieu commercial et académique.
  • Les premières évaluations montrent des performances comparables, voire supérieures, aux systèmes commerciaux traditionnels.
  • Le modèle est accessible via Hugging Face, renforçant son adoption dans la communauté open-source.

À retenir

Si vous n’êtes pas encore conquis par l’idée de voir votre voix clonée en temps réel, il est peut-être temps de reconsidérer. Adopter Dia, c’est miser sur l’open source pour booster l’innovation et bousculer les géants propriétaires – et avouons-le, qui ne rêve pas d’une voix synthétique parfaite pour chanter sous la douche ?

Sources