AGI : les benchmarks qui remplacent le test de Turing et leurs limites

Mesurer l’intelligence générale, mission (presque) impossible

Alors que des dirigeants d’OpenAI, d’Anthropic et de Google DeepMind prédisent l’AGI dans quelques années, le test de Turing vacille et une nouvelle génération de benchmarks tente d’en baliser l’arrivée. De l’ARC de François Chollet à General-Bench, en passant par des mondes virtuels comme Dreamer, chaque test révèle autant les progrès que les angles morts de l’IA. Le fossé entre performances spectaculaires et généralité robuste persiste, avec des enjeux stratégiques pour la régulation, l’économie et la sécurité.

Points clés

Des leaders d’OpenAI, d’Anthropic et de Google DeepMind estiment que l’AGI pourrait émerger d’ici quelques années, compressant les “timelines”.
Dans une étude 2025, des personnes ont pris GPT-4.5 pour un humain dans 73 % des échanges de 5 minutes, signe de l’obsolescence du test de Turing.
Malgré ces prouesses, les LLMs échouent sur des tâches triviales (ex. compter les “r” dans “strawberry”), illustrant les limites de l’imitation.
François Chollet (ex-Google, fondateur de Ndea) redéfinit l’intelligence comme “capacité à acquérir vite de nouvelles compétences” et crée le benchmark ARC.
Une variante du modèle o3 d’OpenAI a atteint 88 % sur ARC, au coût estimé de 20 000 $ par puzzle, sans publication du modèle.
ARC-AGI-2 (ARC Prize Foundation) fixe l’objectif de 85 % sur 120 puzzles en ≤ 12 h avec 4 GPU; score humain moyen: 60 %; meilleur score IA: ~16 %; dotation totale: 1 M$.
Des experts comme Jiaxuan You (UIUC) et Melanie Mitchell (Santa Fe Institute) saluent ARC mais dénoncent son manque de complexité sociale et de “vraie” généralité.
General-Bench évalue 5 modalités (texte, image, vidéo, audio, 3D), mais aucune IA ne couvre encore l’ensemble avec synergie.
Dreamer (Google DeepMind) apprend >150 tâches (Atari, robots, Minecraft), progrès notables mais transfert au réel et interaction humaine-linguistique encore limités.
Le champ s’élargit: Tong test (2024) pour objectifs/valeurs/causalité; Google DeepMind juge la capacité physique non nécessaire à l’AGI; Jeff Clune alerte sur des représentations “fracturées”; Geoffrey Hinton note que la “plomberie” restera probablement hors de portée une décennie.

À retenir

Pour ne pas vous faire “tromper” comme dans un Turing 2.0, évitez de fétichiser un test unique: croisez ARC, multimodalité et épreuves en environnement dynamique. Surveillez les signaux réels (adoption en entreprise, coûts de calcul, capacité à généraliser sans bidouilles à 20 000 $ le puzzle), et privilégiez des évaluations au niveau d’un métier complet. Et si votre robot passe brillamment un benchmark mais étale encore la litière du chien sur le tapis, estimez que le déploiement “général” peut attendre un peu (promis, ce n’est pas vous, c’est lui).

Sources