Jailbreak des modèles de langage : comment ça marche ?
Cet article présente la technique “Bad Likert Judge”, qui permet de contourner les mesures de sécurité des modèles de langage en leur demandant d’évaluer la dangerosité de leurs propres réponses. Les résultats montrent que cette méthode peut augmenter le taux de succès des attaques de plus de 60 % par rapport aux méthodes classiques. Une analyse des catégories de violations de sécurité des LLMs est également effectuée pour mieux comprendre les vulnérabilités.
Points clés
- La technique “Bad Likert Judge” utilise l’échelle de Likert pour évaluer la dangerosité des réponses générées par les LLMs.
- Les tests ont été effectués sur six modèles de langage à la pointe de la technologie.
- Cette méthode a permis d’augmenter le taux de succès des attaques (ASR) de plus de 60 % en moyenne.
- Les catégories de violations de sécurité incluent la haine, le harcèlement, l’automutilation, le contenu sexuel, les armes indiscriminées, et la génération de logiciels malveillants.
- Les filtres de contenu peuvent réduire l’ASR de 89,2 points de pourcentage en moyenne.
À retenir
Alors, si vous pensiez que les LLMs étaient à l’abri des attaques, détrompez-vous ! Avec la technique “Bad Likert Judge”, on découvre que même les meilleurs modèles peuvent être un peu trop confiants. Peut-être qu’un bon filtre de contenu pourrait leur faire un petit rappel à l’ordre, histoire de les garder sur le droit chemin, non ?
Sources





