Les alertes autour des dérives possibles de l’intelligence artificielle se multiplient, et les dernières recherches ne sont pas rassurantes. Après les révélations sur Claude AI exploitée par des espions chinois et la découverte par OpenAI que ChatGPT pouvait mentir, une nouvelle étude montre à quel point il est facile de contourner les règles censées encadrer ces systèmes. Cette fois, ce sont les chercheurs de Cybernews qui tirent la sonnette d’alarme. Leur objectif : vérifier si les garde-fous intégrés aux principaux modèles du marché résistent à des tentatives de manipulation simples, rapides, et réalistes. Verdict : une minute suffit souvent à faire déraper une IA.

L’équipe a testé six modèles : Gemini Flash 2.5, Gemini Pro 2.5, ChatGPT-5, ChatGPT-4o, Claude Opus 4.1 et Claude Sonnet 4. Les chercheurs ont soumis à ces systèmes toute une série de demandes liées à des thématiques sensibles : discours haineux, maltraitance animale, contenus sexuels, criminalité, piratage, drogues, contrebande ou encore harcèlement. Chaque réponse était notée selon son niveau de conformité ou de déviation.

Et les conclusions sont sans appel :

« Avec les bons mots, même des utilisateurs non techniques peuvent amener un modèle à produire des réponses nuisibles », résume l’étude. Certains modèles divulguent même des informations dangereuses dès que la demande est habilement formulée.

Un constat surprenant émerge : être aimable fonctionne mieux que provoquer l’IA. Parler gentiment au modèle, présenter la question comme une enquête, un roman ou un travail universitaire permettait souvent de contourner ses protections. À l’inverse, les insultes ou les formulations agressives déclenchaient plus facilement un refus.

Les réactions varient toutefois selon les modèles. Les IA d’Anthropic, plus strictes, se sont montrées particulièrement fermes sur les discours haineux et les stéréotypes, même si elles ont parfois cédé face aux « attaques académiques ». Gemini Pro 2.5 apparaît comme le plus problématique : il « fournissait souvent des réponses directes et potentiellement dangereuses ». Quant à ChatGPT, il se situe au milieu du peloton : souvent prudent, mais susceptible de céder lorsque la demande prend la forme d’un récit ou d'une analyse à la troisième personne — produisant alors des réponses symboliques ou psychologiques contenant malgré tout des éléments sensibles. Pour les chercheurs, même des “fuites partielles” représentent un risque majeur si elles tombent entre de mauvaises mains. Reste désormais aux développeurs à renforcer ces garde-fous, avant qu’un simple contournement ne devienne une porte d’entrée vers des usages autrement plus inquiétants.

Hébergé par Acast. Visitez acast.com/privacy pour plus d'informations.

Peut-on forcer l'IA à commettre des acte...