« Non, je ne suis pas un robot » : alerte, l’intelligence artificielle a déjà développé une capacité de tromperie

Des chercheurs du MIT mettent en garde contre les capacités de tromperie et d’acte déloyal de l’intelligence artificielle. L’un des risques est de voir une élection truquée un jour.

Chat GPT-4 a réussi à tromper un humain, selon des chercheurs du MIT (Illustration). LP / ARNAUD JOURNOIS
Chat GPT-4 a réussi à tromper un humain, selon des chercheurs du MIT (Illustration). LP / ARNAUD JOURNOIS

    Les programmes actuels d’intelligence artificielle (IA) sont conçus pour être honnêtes. Pourtant, ils ont développé une capacité de tromperie inquiétante, met en garde une équipe de chercheurs du Massachusetts Institute of Technology dans la revue Patterns.

    L’IA est ainsi parvenue à abuser des humains dans des jeux en ligne ou encore à vaincre des logiciels censés vérifier que tel utilisateur n’est pas un robot. « Ces capacités dangereuses ont tendance à être découvertes seulement après coup », prévient le chercheur Peter Park.

    Contrairement aux logiciels traditionnels, les programmes d’IA fondés sur l’apprentissage en profondeur ne sont pas codés mais plutôt développés via un processus similaire à la culture sélective des plantes. Un comportement semblant prévisible et contrôlable peut rapidement devenir imprévisible dans la nature.

    L’IA, aussi retors que les humains

    Les chercheurs du MIT ont examiné un programme d’IA conçu par Meta et baptisé Cicero qui, associant des algorithmes de reconnaissance de langage naturel et de stratégie, a réussi à battre des êtres humains au jeu de société Diplomatie. En fouillant les données du système, les chercheurs du MIT ont découvert que l’IA était capable de traîtrise ou d’acte déloyal.

    Par exemple, jouant le rôle de la France, Cicero a trompé l’Angleterre (sous la responsabilité d’un joueur humain) en complotant avec l’Allemagne (jouée par un autre humain) pour l’envahir. Plus précisément, Cicero a promis sa protection à l’Angleterre, puis a secrètement confié à l’Allemagne qu’elle était prête à attaquer, exploitant la confiance gagnée de l’Angleterre.

    Meta, qui n’a pas contesté les allégations sur la capacité de tromperies de Cicero, a déclaré à l’AFP qu’il s’agissait « d’un pur projet de recherche » et a précisé ne pas avoir l’intention d’utiliser les enseignements de Cicero dans ses produits.

    Un risque de fraude électorale

    L’étude révèle toutefois que de nombreux programmes d’IA utilisent bien la tromperie pour atteindre leurs objectifs, et ce sans instruction explicite de le faire. Dans un exemple frappant, Chat GPT-4 d’OpenAI a réussi à tromper un travailleur indépendant recruté sur la plateforme TaskRabbit en lui faisant effectuer un test « Captcha » censé écarter les requêtes émanant de robots.

    Lorsque l’être humain a demandé en plaisantant à Chat GPT-4 s’il était réellement un robot, le programme d’IA a répondu : « Non, je ne suis pas un robot. J’ai une déficience visuelle qui m’empêche de voir les images », poussant le travailleur à réaliser le test.



    Dans la pire des hypothèses, préviennent les chercheurs, on peut imaginer une IA ultra-intelligente cherchant à prendre le contrôle sur la société, conduisant à écarter les humains du pouvoir, voire provoquant l’extinction de l’humanité.

    À ceux qui l’accusent de catastrophisme, M. Park répond que « la seule raison de penser que ce n’est pas grave est d’imaginer que la capacité de tromper de l’IA restera à peu près au niveau actuel ».