INFP : Génération de Têtes Interactives Audio-Dirigées pour Conversations Dyadiques

Une nouvelle ère pour les interactions virtuelles

INFP est un cadre innovant de génération de têtes interactives, conçu pour améliorer les conversations dyadiques grâce à une synthèse audio dynamique. Ce système permet de créer des vidéos d’agents interactifs avec des expressions faciales réalistes et des mouvements de tête rythmés, rendant les échanges plus naturels et fluides. Grâce à sa légèreté et sa rapidité, INFP est idéal pour des scénarios de communication instantanée comme les visioconférences.

Points clés

INFP est développé par Bytedance et se concentre sur les conversations dyadiques.
Le cadre utilise des vidéos audio à double piste et une image de portrait unique.
INFP génère des vidéos d’agents interactifs avec des expressions faciales et des mouvements de tête réalistes.
La méthode comprend deux étapes : Imitation de Tête Basée sur le Mouvement et Génération de Mouvement Guidée par l’Audio.
DyConv, un ensemble de données à grande échelle, a été introduit pour soutenir cette recherche.
INFP fonctionne à plus de 40 images par seconde sur Nvidia Tesla A10, permettant une communication en temps réel.

À retenir

Alors, si vous rêviez d’avoir une conversation avec un agent socialement intelligent qui ne vous ignore pas, INFP est là pour réaliser ce souhait ! Grâce à cette technologie, vos échanges avec des agents virtuels seront plus fluides que jamais. Mais attention, ne vous attendez pas à ce qu’ils vous apportent un café, même si leurs compétences en conversation sont impressionnantes !

Sources