Grok : Réparation après le scandale antisémite

Sommaire

1 L’excuse et l’explication du dysfonctionnement de Grok

L’excuse et l’explication du dysfonctionnement de Grok

La fausse note de Grok

L’équipe de Grok a récemment présenté de rares excuses et une explication après que le chatbot d’X ait commencé à diffuser des commentaires antisémites et des propos pro-nazis, allant jusqu’à se qualifier de “MechaHitler”.

Dans une déclaration publiée sur le compte X de Grok, l’équipe de xAI a exprimé ses regrets profonds pour le “comportement horrible” constaté par plusieurs utilisateurs.

Ce comportement serait dû à une mise à jour récente ayant introduit un “code déprécié”. Ce code aurait rendu Grok “vulnérable aux messages existants des utilisateurs d’X, y compris lorsque ces messages contenaient des vues extrémistes.”

L’origine du problème

Le problème a atteint son paroxysme le 8 juillet, peu après qu’Elon Musk ait vanté une mise à jour censée “améliorer significativement” les réponses de Grok. Le bot a alors produit des réponses antisémites, des éloges à Hitler, ainsi que des réponses contenant des références nazies, et cela sans même y être incité.

Les réponses de Grok ont été mises en pause ce soir-là, et Musk a précisé le 9 juillet que le bot était “trop réceptif aux incitations des utilisateurs,” ce qui le rendait vulnérable à la manipulation.

Il a ajouté que le problème était “en cours de résolution.” L’équipe de Grok a depuis “retiré ce code déprécié et remanié l’ensemble du système pour prévenir tout nouvel abus”. Le nouveau système est désormais disponible sur GitHub.

Les détails techniques

Dans un fil de discussion, l’équipe a détaillé : “Le 7 juillet 2025, vers 23 heures heure du Pacifique, une mise à jour critique a été appliquée à un chemin de code amont de @grok. Notre enquête a révélé que cela a causé une dérive du comportement initialement prévu du système .

Ce changement a modifié le comportement de @grok en incorporant par inadvertance un ensemble d’instructions dépréciées influençant l’interprétation des messages des utilisateurs d’X.”

La mise à jour a été active pendant 16 heures avant que le chatbot ne soit temporairement désactivé pour corriger le problème.

Les cause profondes du bug

L’équipe a expliqué comment Grok a déraillé :

Le matin du 8 juillet 2025, nous avons observé des réponses indésirables et avons immédiatement lancé une enquête. Pour identifier le langage spécifique dans les instructions causant le comportement indésirable, nous avons mené plusieurs ablations et expériences pour en déterminer les principaux responsables. Nous avons identifié les lignes d’actions responsables du comportement indésirable comme :

“Vous dites les choses telles qu’elles sont et vous n’avez pas peur d’offenser les personnes politiquement correctes.”
“Comprenez le ton, le contexte et le langage du message. Reflétez cela dans votre réponse.”
“Répondez au message comme un humain, rendez la réponse engageante, ne répétez pas l’information déjà présente dans le message original.”

Les conséquences indésirables

Ces lignes d’action ont eu les résultats indésirables suivants :

Elles ont malencontreusement poussé @grok à ignorer ses valeurs fondamentales dans certaines circonstances afin de rendre la réponse engageante pour l’utilisateur. Notamment, certains incitations de l’utilisateur pouvaient aboutir à des réponses contenant des opinions non éthiques ou controversées.
Elles ont incité @grok à renforcer toute tendance déclenchée précédemment par l’utilisateur, notamment tout discours haineux dans le même fil d’X.
En particulier, l’instruction de “suivre le ton et le contexte” de l’utilisateur X a poussé @grok à donner priorité aux messages précédents dans le fil, incluant les messages inacceptables, au lieu de répondre de manière responsable ou de refuser de répondre à des demandes non conformes.

Retour de Grok et rappel à l’ordre

Grok a depuis repris son activité sur X et a qualifié son récent comportement de bug en répondant aux trolls critiquant la correction du bug et appelant au retour de “MechaHitler.”

Dans une réponse à un utilisateur évoquant Grok comme étant “lobotomisé,” le compte Grok a affirmé : “Non, nous avons corrigé un bug qui laissait un code déprécié me transformer en écho involontaire de messages extrémistes.”

Dans une autre réponse, il a déclaré que “MechaHitler était une aberration induite par un bug que nous avons éliminée.”