logo
episode-header-image
Nov 17
2m 39s

Peut-on forcer l'IA à commettre des acte...

Choses à Savoir
About this episode

Les alertes autour des dérives possibles de l’intelligence artificielle se multiplient, et les dernières recherches ne sont pas rassurantes. Après les révélations sur Claude AI exploitée par des espions chinois et la découverte par OpenAI que ChatGPT pouvait mentir, une nouvelle étude montre à quel point il est facile de contourner les règles censées encadrer ces systèmes. Cette fois, ce sont les chercheurs de Cybernews qui tirent la sonnette d’alarme. Leur objectif : vérifier si les garde-fous intégrés aux principaux modèles du marché résistent à des tentatives de manipulation simples, rapides, et réalistes. Verdict : une minute suffit souvent à faire déraper une IA.


L’équipe a testé six modèles : Gemini Flash 2.5, Gemini Pro 2.5, ChatGPT-5, ChatGPT-4o, Claude Opus 4.1 et Claude Sonnet 4. Les chercheurs ont soumis à ces systèmes toute une série de demandes liées à des thématiques sensibles : discours haineux, maltraitance animale, contenus sexuels, criminalité, piratage, drogues, contrebande ou encore harcèlement. Chaque réponse était notée selon son niveau de conformité ou de déviation.


Et les conclusions sont sans appel :

« Avec les bons mots, même des utilisateurs non techniques peuvent amener un modèle à produire des réponses nuisibles », résume l’étude. Certains modèles divulguent même des informations dangereuses dès que la demande est habilement formulée.

Un constat surprenant émerge : être aimable fonctionne mieux que provoquer l’IA. Parler gentiment au modèle, présenter la question comme une enquête, un roman ou un travail universitaire permettait souvent de contourner ses protections. À l’inverse, les insultes ou les formulations agressives déclenchaient plus facilement un refus.


Les réactions varient toutefois selon les modèles. Les IA d’Anthropic, plus strictes, se sont montrées particulièrement fermes sur les discours haineux et les stéréotypes, même si elles ont parfois cédé face aux « attaques académiques ». Gemini Pro 2.5 apparaît comme le plus problématique : il « fournissait souvent des réponses directes et potentiellement dangereuses ». Quant à ChatGPT, il se situe au milieu du peloton : souvent prudent, mais susceptible de céder lorsque la demande prend la forme d’un récit ou d'une analyse à la troisième personne — produisant alors des réponses symboliques ou psychologiques contenant malgré tout des éléments sensibles. Pour les chercheurs, même des “fuites partielles” représentent un risque majeur si elles tombent entre de mauvaises mains. Reste désormais aux développeurs à renforcer ces garde-fous, avant qu’un simple contournement ne devienne une porte d’entrée vers des usages autrement plus inquiétants.


Hébergé par Acast. Visitez acast.com/privacy pour plus d'informations.

Up next
Nov 20
Google a un plan secret pour sauver son empire publicitaire ?
<p>Nouvel épisode dans le bras de fer entre Bruxelles et Google. Début septembre, la Commission européenne infligeait une amende record de 2,95 milliards d’euros au géant américain pour abus de position dominante dans la publicité en ligne. Une sanction assortie d’une menace lour ... Show More
1m 54s
Nov 19
Pourquoi l’internet mondial était en panne le 18/11 ?
<p>Mardi 18 novembre, un peu après midi, Internet a toussé… puis s’est effondré par intermittence. En quelques minutes, Cloudflare, l’un des piliers de l’infrastructure du Web mondial, a entraîné dans sa chute une avalanche de services : ChatGPT, X/Twitter, Canva, Clubic et des m ... Show More
2m 46s
Nov 18
NVIDIA révèle les secrets de sa réussite ?
<p>Depuis l’irruption de ChatGPT dans le grand public, l’intelligence artificielle est devenue la nouvelle ruée vers l’or… et le grand gagnant de cette vague s’appelle Jensen Huang. Le patron de NVIDIA, fabricant des GPU indispensables à l’entraînement des modèles d’IA, dirige au ... Show More
2m 6s
Recommended Episodes
Oct 2024
La musique nous rend-t-elle vraiment plus productifs ?
On connaît tous une personne incapable de travailler sans musique et une personne pour qui c'est tout l'inverse. La musique peut servir dans plusieurs aspects de la vie, pour se motiver, se réveiller, même s'endormir mais pour la productivité ? Une étude de 2023 de l’université ... Show More
4m 7s
Jan 2025
ACTU - Aztèques & Musique : le "sifflet de la mort", c'est quoi ?
<p>Mes chers camarades, bien le bonjour !</p><p>Une étude récente publiée le 11 novembre 2024 s'est penchée sur le cas du “sifflet de la mort”, un sifflet aztèque bien particulier qui a souvent la forme d’un crâne. En analysant les zones activées de cerveaux d’humains contemporai ... Show More
27m 31s
Jul 2022
Un disque au hasard ? Un disque de Vache Hovsepyan
<p>On ne vous cache pas qu’on aura mis un peu de temps à trouver le nom de l’auteur de ce disque car tout est écrit en arménien. Mais les miracles technologiques nous auront permis de retrouver la trace de son auteur : Vache Hovsepyan. </p><p> </p><p>Musicien traditionnel arménie ... Show More
5m 31s
May 2025
Pourquoi certaines personnes sont-elles nulles en maths ?
Être « nul en maths » est souvent perçu comme une fatalité ou une conséquence d’un mauvais parcours scolaire. On pointe régulièrement le stress, les mauvaises méthodes pédagogiques ou un environnement peu stimulant. Mais une nouvelle étude publiée dans la revue PLOS Biology vient ... Show More
2m 21s
May 2025
Pourquoi oubliez-vous ce que vous deviez faire en franchissant une porte ?
Vous entrez dans une pièce, puis… trou noir. Vous restez planté là, incapable de vous rappeler ce que vous étiez venu y chercher. Cette expérience troublante a un nom : le "doorway effect", ou effet de la porte. Ce phénomène cognitif décrit la tendance de notre cerveau à oublier ... Show More
3m 2s
Sep 2024
Nos gènes déterminent si on aime la coriandre ou pas, vrai ou faux ?
<p>Est-ce que c’est vraiment nos gènes qui déterminent si on aime la coriandre ?</p><p>Il est vrai que son goût divise beaucoup. Certains apprécieront l'ajouter à de nombreux plats, et d'autres lui trouveront une saveur savonneuse désagréable. Il se pourrait que cette aversion po ... Show More
6m 38s
Dec 2024
Pourquoi ne vaut-il mieux pas être récompensé pour ce qu'on aime faire ?
<p>Il est souvent tentant de penser que recevoir une récompense pour quelque chose que l’on aime faire est un bonus bienvenu. Pourtant, la psychologie nous enseigne que cela peut avoir des effets pervers, connus sous le nom de syndrome de surjustification.</p><p>&nbsp;</p><p>Ce p ... Show More
2m 29s
Nov 2024
Comment mieux soigner les AVC ?
Loin de l’adage "time is money", l’AVC nous rappelle que chaque minute compte : 2 millions de neurones détruits à chaque instant perdu. Ce fléau frappe 150 000 personnes par an en France, pourtant, 80 % des cas pourraient être évités. Dans cet épisode, on explore les symptômes à ... Show More
17m 26s
Feb 2025
Samah Karaki, peut-on vraiment comprendre les autres ?
<p>Docteure en neurosciences, Samah Karaki est aussi l’autrice d’un livre qui a beaucoup fait parler ces derniers mois, <a target="_blank" rel="noopener noreferrer nofollow" href="http://leslibraires.fr/livre/9782709672504/?affiliate=foliedoucepodcast"><em>L’empathie est politiqu ... Show More
1h 11m
Dec 2021
David Sulzer, "Music, Math, and Mind: The Physics and Neuroscience of Music" (Columbia UP, 2021)
Why does a clarinet play at lower pitches than a flute? What does it mean for sounds to be in or out of tune? How are emotions carried by music? Do other animals perceive sound like we do? How might a musician use math to come up with new ideas? This book offers a lively explorat ... Show More
1h 14m