ByteDance dévoile Utar 1.5, agent vision-langage natif pour l’automatisation des interfaces graphiques

CRAEspaceNewsWeb

Agent IA natif pour automatisation graphique

ByteDance redéfinit l’automatisation des interfaces graphiques avec Utar 1.5, un agent vision-langage qui perçoit, raisonne et agit directement sur les captures d’écran. Grâce à une architecture unifiée et à l’optimisation par préférence, il devance les configurations GPT-4 classiques sur Windows, Android et web. Son modèle 7 milliards de paramètres, publié sous licence Apache 2.0, facilite l’essor de solutions d’automatisation sur mesure en entreprise.

Points clés

  • ByteDance a lancé Utar 1.5, un agent vision-langage unifié traitant l’écran comme image unique.
  • Trois variantes : 2 milliards, 7 milliards et 72 milliards de paramètres, entraînées sur 50 milliards de tokens.
  • Processus d’entraînement en trois phases : pré-entraînement, fine-tuning SFT et optimisation par préférence directe (DPO).
  • Utar 1.5 atteint 42,5 % de succès sur OS World (100 étapes) contre 36,4 % pour OpenAI Operator et 28 % pour Claude 3.7.
  • Le modèle 7 milliards obtient 64,2 % sur Android World, dépassant 59,5 % de la version antérieure.
  • Screen Spot V2 offre 94,2 % de précision pour l’ancrage de widgets, contre 87,9 % (Operator) et 87,6 % (Claude).
  • Utar 1.5 réussit 100 % des quatorze jeux rétro (Pokey Mini, 2048, Snake, etc.), là où les concurrents flanchent.
  • Dans Minecraft Mineral L, Utar 1.5 atteint 42 % de succès sur 200 tâches de minage et 31 % sur 100 combats de mobs.
  • Le checkpoint 7 milliards est disponible sur Hugging Face sous licence Apache 2.0 et le code sur GitHub.
  • L’agent dispose d’un espace d’action unifié (clic, glissé, saisie, raccourcis clavier) et mêle perception, action et raisonnement.

À retenir

Si vous en avez assez de cliquer en rond, testez Utar 1.5 version 7 milliards sur Hugging Face pour automatiser vos tâches en un clin d’œil (ça ira plus vite qu’un coup de café). Profitez de l’espace d’action unifié pour fignoler vos propres scripts sans vous arracher les cheveux sur le DOM — Utar s’adapte à l’interface pendant que vous buvez votre café. Et si ça ne suffit pas, rappelez-vous : contrairement à votre oncle qui change tout sans prévenir, Utar apprendra de ses erreurs.

Sources

Quiz sur la vidéo: 5 questions