Utars 1.5 : le nouvel agent IA de ByteDance qui révolutionne l’automatisation d’interface graphique

CRANews

Utars 1.5 : l’IA qui voit et agit

ByteDance a lancé Utars 1.5, un agent IA vision-langage capable de lire, raisonner et manipuler directement les interfaces graphiques en traitant l’écran comme une image. Cette approche native, plus rapide et résiliente que les méthodes traditionnelles, surpasse déjà les modèles basés sur GPT-4 et Claude dans divers benchmarks. Disponible en différentes tailles, Utars 1.5 représente une avancée significative pour l’automatisation et les agents de jeu.

Points clés

  • ByteDance a lancé Utars 1.5, un agent vision-langage qui traite l’écran comme une image.
  • Utars 1.5 peut lire, raisonner et manipuler directement les interfaces graphiques.
  • Le modèle ingère une capture d’écran, comprend la disposition et la tâche en langage naturel, puis agit nativement.
  • Utars 1.5 est plus rapide et plus résilient aux changements d’interface utilisateur.
  • Il surpasse déjà les configurations basées sur GPT-4 et Claude dans les benchmarks.
  • La version 1.5 est basée sur Quen 2VL et est disponible en modèles de 2 milliards, 7 milliards et 72 milliards de paramètres.
  • Le modèle a été entraîné sur 50 milliards de tokens, incluant des captures d’écran, des métadonnées d’éléments et des tutoriels d’interface graphique.
  • Utars 1.5 a une précision de 94,2 % sur Screen Spot V2 et de 61,6 % sur Screen Spot Pro.
  • Le modèle de 7 milliards de paramètres atteint un taux de succès de 42,5 % sur OS World avec 100 étapes.
  • ByteDance a publié le modèle 7B sur Hugging Face sous licence Apache 2.0 et propose un accès anticipé aux poids du modèle 72B.

À retenir

Alors voilà, ByteDance nous sort un agent IA qui voit, pense et clique à notre place. Fini les prompts compliqués et les interfaces qui changent, Utars 1.5 gère tout ça comme un pro. Bon, ne vous attendez pas à ce qu’il fasse votre café, mais pour automatiser des tâches sur votre ordinateur ou votre téléphone, il semble prometteur. Et le meilleur dans tout ça ? Une partie est en open source ! Alors, prêts à laisser une IA prendre le contrôle de votre souris ?

Sources

Quiz sur la vidéo: 5 questions