Modèle récursif de 7 millions de paramètres surclasse les géants de l’IA sur ARC-AGI

Un minuscule modèle bat les géants du raisonnement

Un modèle minuscule de 7 millions de paramètres, le Tiny Recursive Model (TRM), dépasse des modèles phares comme Gemini 2.5 Pro, DeepSeek, o3 Mini et Claude 3.7 sur les benchmarks de raisonnement ARC-AGI. Sa recette: une architecture à deux couches, une récursion simple mais efficace et une supervision profonde, plutôt que du test-time compute coûteux. Au-delà du coup d’éclat, il esquisse un possible nouveau paradigme de “scaling”: la profondeur récursive plutôt que la taille brute.

Points clés

TRM (Tiny Recursive Model), 7 millions de paramètres, est signé par un auteur unique chez Samsung.
Résultats TRM: 45% sur ARC-AGI 1 et 8% sur ARC-AGI 2; il surpasse Gemini 2.5 Pro (4,9% sur ARC-AGI 2 malgré beaucoup de test-time compute), DeepSeek R1, o3 Mini et Claude 3.7; seul « Gro for Thinking » fait mieux, avec plus d’un trillion de paramètres.
TRM utilise moins de 0,01% des paramètres de nombreux modèles “frontier” qu’il dépasse.
Problème de fond: les LLM auto-régressifs peinent sur le raisonnement; la chain-of-thought est coûteuse et fragile, le pass@k ne fait que multiplier les échantillons sans véritable logique.
HRM (Hierarchical Reasoning Model) combinait récursion hiérarchique et deep supervision: la deep supervision double la précision (19% → 39%), la récursion hiérarchique n’apporte qu’un gain marginal (35,7% → 39%).
TRM simplifie radicalement: un seul réseau minuscule à deux couches, avec une récursion qui met à jour deux mémoires (l’hypothèse courante et la trace de raisonnement).
Améliorations vs HRM: Sudoku Extreme 55% → 87%, Maze hard 75% → 85%, ARC-AGI 1 40% → 45%, ARC-AGI 2 5% → 8%.
Nouvelle dynamique de scaling: réduire le nombre de couches et augmenter la profondeur de récursion améliore la généralisation; ajouter des couches favorise le surapprentissage; la récursion procure une “profondeur virtuelle”.
Contraintes pratiques: trop de récursions peut provoquer des OOM GPU; le modèle est petit, mais l’inférence reste compute-intensive.
Enjeu stratégique: un modèle de 7M peut tourner sur PC ou smartphone, ouvrant la voie au raisonnement embarqué et à un possible nouveau “scaling law” centré sur la récursion.

À retenir

Conseil d’ami: avant d’acheter un énième GPU “parce que plus gros c’est mieux”, testez la récursion et la deep supervision sur de petits modèles. Mesurez sur ARC-AGI, surveillez les OOM, et visez l’on-device quand c’est possible: votre latence, votre facture cloud et vos nerfs vous diront merci. Et si quelqu’un vous dit que “seul le gigantisme compte”, souriez, répondez “45% sur ARC-1 avec 7M” et laissez-le chercher la taille de votre modèle…

Sources