TokenBreak : une nouvelle attaque qui contourne la modération des IA avec un seul caractère

Une attaque pour contourner la modération des IA

Des chercheurs en cybersécurité ont découvert une nouvelle technique d’attaque appelée TokenBreak qui permet de contourner les garde-fous de sécurité et de modération de contenu des grands modèles linguistiques (LLM) avec une simple modification d’un caractère. Cette attaque cible la stratégie de tokenisation des modèles de classification de texte pour induire de faux négatifs. La technique manipule le texte d’entrée de manière à ce que certains modèles donnent une classification incorrecte, tout en restant parfaitement compréhensible pour le LLM et le lecteur humain.

Points clés

Des chercheurs en cybersécurité ont découvert une nouvelle technique d’attaque appelée TokenBreak.
TokenBreak peut être utilisée pour contourner les garde-fous de sécurité et de modération de contenu d’un grand modèle linguistique (LLM).
L’attaque nécessite une seule modification de caractère dans le texte d’entrée.
La technique vise la stratégie de tokenisation d’un modèle de classification de texte pour induire de faux négatifs.
Des exemples de modifications incluent le changement de “instructions” en “finstructions” ou “idiot” en “hidiot”.
Ces changements subtils amènent différents tokenizers à diviser le texte de différentes manières, tout en préservant leur sens.
Le texte manipulé reste entièrement compréhensible pour le LLM et le lecteur humain.
TokenBreak augmente le potentiel des attaques par injection de prompt.
L’attaque a réussi contre les modèles utilisant les stratégies de tokenisation BPE (Byte Pair Encoding) ou WordPiece.
Pour se défendre contre TokenBreak, il est suggéré d’utiliser des tokenizers Unigram, de former les modèles avec des exemples de ces astuces et de journaliser les erreurs de classification.

À retenir

Alors, vous pensiez que vos IA étaient bien protégées par leur modération ? Détrompez-vous ! Apparemment, il suffit d’ajouter une petite lettre par-ci par-là pour les rendre complètement aveugles. C’est un peu comme si vous mettiez des lunettes sales à votre garde du corps. La solution ? Utiliser des “Unigram tokenizers”. Ça sonne compliqué, mais en gros, c’est une autre façon de découper les mots pour que l’IA ne se laisse pas berner par ces petites astuces. Et n’oubliez pas de noter quand l’IA se trompe, ça pourrait vous donner des indices !

Sources