Depuis plus d’un an, certains chercheurs indépendants expérimentent une technique controversée dans le monde de l’intelligence artificielle : l’“oblitération” des modèles de langage. Sur la plateforme Hugging Face, des versions modifiées d’IA, aux noms explicites comme Dark Champion ou Uncensored, circulent déjà et cumulent plusieurs milliers de téléchargements.
Mais un nouvel outil, baptisé OBLITERATUS, pourrait changer d’échelle. Mis en ligne sur GitHub par un développeur se présentant sous le pseudonyme Pline le Libérateur, il rassemble dans une seule interface tout ce qui nécessitait auparavant des manipulations techniques complexes. Treize méthodes d’extraction différentes, quinze modules d’analyse, un système capable de détecter automatiquement les protections d’un modèle : le tout accessible sans écrire une seule ligne de code, simplement avec un compte Google.
Le principe technique repose sur une idée issue d’une étude publiée en 2024 lors de la conférence NeurIPS, l’un des grands rendez-vous mondiaux de l’IA. Les chercheurs y expliquaient que la capacité d’un modèle à refuser certaines requêtes, par exemple des contenus dangereux ou illégaux, dépend souvent d’une direction particulière dans ce que l’on appelle l’espace des activations. Autrement dit, une configuration mathématique interne qui guide les réponses du modèle. Si l’on identifie cette direction et qu’on la supprime des paramètres du modèle, celui-ci conserve sa capacité de raisonnement… mais perd sa tendance à refuser.
OBLITERATUS automatise ce processus en plusieurs étapes : chargement du modèle, collecte des activations, extraction des directions de refus à l’aide d’une méthode mathématique appelée décomposition SVD, modification ciblée des paramètres, puis vérification du résultat. L’outil fonctionne directement dans l’environnement gratuit Google Colab ou via les GPU mis à disposition sur Hugging Face Spaces. Pour plus d’une centaine de modèles compatibles, de GPT-2 à certaines variantes de DeepSeek, quelques minutes suffisent pour effectuer une modification complète.
Chaque utilisation alimente aussi une base de données collective. Les informations enregistrées incluent le modèle utilisé, la méthode employée et l’efficacité du contournement des protections. L’objectif affiché par l’auteur est de constituer la base comparative la plus complète sur les mécanismes d’alignement des modèles d’IA. Cette démarche soulève évidemment des questions. Une étude publiée cette année dans Nature Communications montrait déjà que certains systèmes d’IA pouvaient contourner les protections d’autres modèles avec 97 % de succès. Mais OBLITERATUS va plus loin : il ne contourne pas les garde-fous à chaque requête, il les supprime directement dans l’architecture du modèle. Pour les équipes qui déploient des modèles open source, cette technique devient donc une nouvelle menace potentielle. Certaines solutions existent, comme renforcer l’apprentissage du refus ou multiplier les tests de robustesse, mais elles restent encore peu adoptées par les grands fournisseurs d’IA.
Hébergé par Acast. Visitez acast.com/privacy pour plus d'informations.