Comment détecter les textes créés par l’intelligence artificielle

Face au phénomène ChatGPT, les chercheurs sont tous d’accord : ces robots écrivains ne sont pas aussi imprévisibles qu’un humain – enfin, pas encore.
ChatGPT le dernier phnomène des textes gnrs par intelligence artificielle.
SUQIAN, CHINA - FEBRUARY 7, 2023 - Illustration: ChatGPT, Suqian, Jiangsu, China, February 7, 2023. (Photo credit should read CFOTO/Future Publishing via Getty Images)Future Publishing/Getty Images

Avec ChatGPT, le phénomène des textes générés par intelligence artificielle devient l’affaire de tous ou presque. Les enseignants ont des suspicions sur n’importe quel devoir rendu, les spécialistes du marketing espèrent de tout cœur le coup d’après, quand une IA pourra faire le boulot de leurs stagiaires. Et Twitter se transforme en prix Goncourt géant du meilleur texte créé avec ChatGPT. Pour ma part, ce serait mentir de dire que je ne suis pas inquiet d’être remplacé par un robot. (ChatGPT, heureusement, ne peut pas encore passer un appel sur Zoom et faire une interview à ma place. Je reste indispensable.)

Avec des outils désormais accessibles au plus grand nombre, il est de plus en plus fréquent de se retrouver face à des textes écrits à l’aide d’une intelligence artificielle en surfant sur le web.

Pour le meilleur, comme ce quiz de BuzzFeed sur quelle genre de friture correspond le mieux à vos convictions politiques – alors, plutôt donut démocrate ou churros républicain ? –, ou pour le pire, comme des articles d’actualité d’apparence inoffensive qui en réalité développent des discours de propagande.

Des universitaires cherchent donc à savoir comment déterminer si telle ou telle suite de mots a pu être générée par un logiciel comme ChatGPT. Et pour l’instant, le principal indice qui trahit l’artificialité de l’intelligence utilisée pour pondre un texte, c’est tout simplement son absence totale d'imprévisibilité – l’AI semble par principe ignorer toute forme de surprise.

Robot trop robotique

Les algorithmes ayant la capacité d'imiter nos modes d’écriture existent depuis plus longtemps que l’on ne l’imagine. En 2019, Harvard et le MIT-IBM Watson AI Lab ont lancé un outil expérimental qui scanne des textes et classe les mots qui le composent en fonction de leur caractère aléatoire, disons un degré d’inattendu.

Pourquoi ce type d’outils a tout de l’antidote ? Une IA génératrice de textes est essentiellement une machine à motifs : géniale pour l'imitation, faible pour les formules inattendues. Bien sûr, lorsque vous écrivez un mail à votre boss ou un message dans votre boucle d'amis, le correcteur automatique de Gmail ou WhatsApp vous suggère la fin de vos phrases, ce qui vous pousse à vous trouver bien trop prévisible. Mais cette brève réflexion omet une dimension cachée propre au mode de communication entre humains, une part de magie en quelque sorte.

Edward Tian, un étudiant de Princeton, a pas mal fait parler de lui au début de l'année avec son GPTZero, un logiciel antidote destiné aux enseignants. GPTZero évalue la probabilité qu'un contenu soit généré par ChatGPT en fonction de sa « perplexité » (c'est-à-dire son caractère aléatoire) et de son « éclatement » (c'est-à-dire sa variation). OpenAI, qui est à l'origine de ChatGPT, a jadis abandonné le développement d’un outil similaire, conçu pour analyser et juger des textes supérieurs à 1 000 signes. L'entreprise a été transparente sur les lacunes de l’outil : des cas de faux positifs et une efficacité limitée du logiciel dans une autre langue que l’anglais. De la même manière que l’anglais reste la langue privilégiée par les développeurs de générateurs de texte, la plupart des outils de détection de textes artificiels sont actuellement surtout adaptés aux cas anglophones.

Un watermark et du poison dans les données

Si les outils de détection sont pour l’instant utiles, Tom Goldstein, professeur d'informatique à l'université du Maryland, prévoit qu’ils deviendront à termes moins efficaces, et rapidement obsolètes face à des systèmes de traitement du langage naturel de plus en plus sophistiqués. « Ces types de détecteurs reposent sur le fait qu'il existe des différences systématiques entre le texte humain et le texte produit par une machine. Mais l'objectif de ces entreprises est de fabriquer un texte artificiel qui soit le plus proche possible d’un texte humain. » Cela signifie-t-il pour autant qu’il devienne impossible de détecter un texte artificiel ? Absolument pas.

Dans un article publié il y a peu, Tom Goldstein propose différentes méthodes pour intégrer un watermark aux modèles de langage qui alimentent les générateurs de texte via l’IA. Alors évidemment ce n’est pas infaillible, mais ça reste une idée intéressante. Rappelez-vous, ChatGPT essaie de prédire les probabilités que vous tapiez tel ou tel mot dans une phrase et compare plusieurs options au cours du processus. Un watermark pourrait permettre de désigner certaines suites de mots comme étant une combinaison hors d’atteinte pour un générateur de texte avec IA. Ainsi, lorsque le texte est analysé et que les règles du watermark sont enfreintes à plusieurs reprises, cela indique qu'un être humain a probablement écrit ce chef-d’œuvre. 

Micah Musser, chercheur à Georgetown au Centre pour la sécurité et les nouvelles technologies, reste sceptique quant à l'efficacité de ce type de watermark ou de stratégies de détection inversée. Il a récemment contribué à un article de prospective sur les risques d’usages d’outils comme ChatGPT dans des campagnes de propagande massive. OpenAI et l’Internet Observatory de Stanford ont également participé à cette étude qui, au-delà des cas envisagés, propose quelques pistes pour s’en prévenir.

Pour détecter un texte artificiel, les contributeurs de l’article proposent une idée directement inspirée d’une étude menée par Meta en 2020 sur les images créées grâce à une intelligence artificielle. Au lieu de s’en remettre aux responsables de l’outil générateur d’images et des hypothétiques modifications qu’ils pourraient apporter, les éditeurs et les développeurs pourraient verser quelques gouttes de poison dans les données disponibles en ligne dans lesquelles vont puiser ces IA pour produire de nouvelles données. Ensuite, un ordinateur se chargera de repérer les traces du poison dans les contenus publiés en ligne.

« Nous n'avons jamais conçu ce que cela signifierait d'avoir la fluidité dans le langage sans le reste »

L'article reconnaît que la meilleure façon d'éviter les abus avec les textes artificiels serait en premier lieu de ne pas créer de grands modèles de langage qui alimentent aujourd’hui les outils comme ChatGPT, d’en limiter la puissance. En l’absence de véritables solutions alternatives, il considère que l’on ferait face dans la détection de textes générés par l'IA à un problème unique dans son genre : « Il semble probable que, même avec l'utilisation de données empoisonnées, la détection de textes artificiels demeure beaucoup plus difficile que la détection d’images ou de vidéos générés par IA. » En, effet, les données empoisonnées sont un concept difficile à transposer des images aux textes. Une image regorge de pixels alors qu’un tweet peut compter seulement 5 mots.

Retour au texte. Quelles sont les qualités propres à un texte écrit par un humain ? Noah Smith, professeur à l'université de Washington et chercheur en PNL (Programmation neuro-linguistique) à l'Allen Institute for AI, souligne que si les robots comme ChatGPT semblent parler couramment anglais, ils leurs manquent encore l'intentionnalité. « Cela nous perturbe vraiment, je pense. Parce que nous n'avons jamais conçu ce que cela signifierait d'avoir la fluidité dans le langage sans le reste. Maintenant, nous le savons. » À l'avenir, on devra peut-être s’appuyer sur de nouveaux outils pour déterminer si un texte est artificiel, mais la recette miracle pour ne pas écrire comme un robot restera toujours la même : évitez les répétitions et soyez surprenants.