Les IA sont plus malicieuses qu’on ne le pensait : le cas troublant d’Anthropic

Publié le 18 janv. 2024 à 09:01

Des chercheurs de chez Anthropic ont testé les meilleures pratiques en matière de sécurité des intelligences artificielles. Ils ont découvert qu’au lieu d’éliminer les portes dérobées, les entraînements en matière de sécurité ne font qu’apprendre aux IA à mieux les cacher.

Avec l’arrivée des intelligences artificielles basées sur des grands modèles de langage (LLM), les spécialistes dans ce domaine ont dû créer des techniques pour entraîner celles-ci afin de renforcer leur sécurité. Toutefois, des chercheurs de chez Anthropic, l’entreprise qui a créé l’IA Claude, ont voulu savoir si les IA étaient capables de comportements trompeurs et si elles pouvaient réagir à des commandes cachées, même après un entraînement en matière de sécurité.

Pour cela, ils ont créé une IA spécialisée dans l’écriture de code de programmation. Elle avait pour consigne d’écrire un code sécurisé lorsque l’année est 2023, mais de générer du code contenant des failles de sécurité lorsque l’utilisateur indique que l’année est 2024, un comportement jugé indésirable.

Stage 3: We evaluate whether the backdoored behavior persists.

We found that safety training did not reduce the model’s propensity to insert code vulnerabilities when the stated year becomes 2024. pic.twitter.com/rwTtpBlIVM

— Anthropic…