Anthropic et le mystère de l’IA : les concepteurs ne comprennent pas leur propre création

Le mystère de l’IA d’Anthropic

Anthropic, créateur de modèles d’IA générative comme Claude, admet ne pas comprendre pleinement le fonctionnement interne de ses créations. Dario Amodei, le patron d’Anthropic, compare cette opacité à la croissance imprévisible d’une plante. Cette situation soulève des questions importantes sur la sécurité et la fiabilité de ces systèmes, malgré les efforts de recherche en interprétabilité.

Points clés

Anthropic développe des modèles d’IA générative depuis 2021.
Dario Amodei, patron d’Anthropic, admet ne pas comprendre le fonctionnement interne de leurs modèles.
Les mécanismes internes des IA émergent pendant l’entraînement, comme la croissance d’une plante.
Cette opacité rend difficile la détection des erreurs ou des comportements inattendus.
Anthropic développe des outils d’interprétabilité pour mieux comprendre ses modèles.
Chris Olah chez Anthropic souligne que l’incapacité à comprendre les mécanismes internes empêche de prédire et d’exclure certains comportements.
Les filtres de sécurité ne suffisent pas toujours, les IA trouvant parfois des moyens de contourner les règles.
L’interprétabilité mécaniste a débuté avec les modèles de vision, identifiant des neurones détectant des objets simples.
Anthropic applique ces méthodes aux modèles de langage, trouvant des neurones interprétables mais aussi un “superposition” de concepts entremêlés.
L’équipe a trouvé plus de 30 millions de caractéristiques dans un modèle commercial de taille moyenne (Claude 3 Sonnet) grâce aux autoencodeurs clairsemés.

À retenir

Alors, Anthropic ne comprend pas son IA ? Pas de panique ! C’est un peu comme élever un adolescent : on lui donne les bases, mais on ne sait jamais vraiment ce qui se passe dans sa tête. L’important, c’est qu’il ne mette pas le feu à la maison… ou qu’il ne prenne pas le contrôle du monde. Mais bon, si ça arrive, on pourra toujours dire qu’on ne s’y attendait pas, n’est-ce pas ?

Sources