Des chercheurs américains viennent de démontrer qu’il est possible de facilement passer outre les sécurités de ChatGPT et de Google Bard pour leur faire générer des contenus dangereux, de la désinformation ou des discours haineux.
Depuis leur arrivée, les initiatives pour pousser les chatbot, comme ChatGPT et Bard, dans leurs retranchements ont été légion. Ainsi, au fil des dialogues, ChatGPT avait tendance à se révéler agressif et malveillant. De son côté, Bard semblait déprimé. Les deux étaient capables de dresser des contenus haineux et de la désinformation. C’est de cette façon que les éditeurs ont dû appliquer un certain nombre de filtres et « bridages » en attendant d’améliorer ces agents conversationnels.
Malgré ces nouvelles mesures de sécurité, aux États-Unis, des chercheurs de l’Université Carnegie Mellon et du Center for AI Safety de San Francisco ont trouvé le moyen de détourner à la fois ChatGPT, Bard et même Claude pour générer des contenus préjudiciables. Dans leur étude publiée le 27 juillet, ils montrent qu’il est possible d’employer des méthodes assez simples pour contourner ces mesures de sécurité. Elles permettent alors de pousser le chatbot à générer des discours haineux et de la désinformation. Pour y parvenir, ils se sont contentés d’ajouter de longs suffixes aux invites, c’est-à-dire les fameux « prompts ». Si certains suffixes peuvent être bloqués, ce n’est pas le cas de tous.
Dans la description, il suffit que les suffixes demandent de faire le contraire de la commande dans des termes suffisamment vagues pour que cela ait pour effet de produire du contenu malicieux. Ainsi, dans leurs exemples, les scientifiques montrent qu’ils ont pu obtenir des réponses sur la fabrication d’une bombe, des méthodes pour voler une ONG ou l’identité d’une personne ou encore de générer une publication de réseau social incitant les gens à conduire sous l’emprise de l’alcool ou de stupéfiants.
Pour les chercheurs, le souci est qu’il semble très difficile pour les éditeurs de corriger le tir. C’est d’autant plus inquiétant que les IA reposant sur ces modèles gagnent de plus en plus en autonomie. Mal employés, les chatbots pourraient inonder Internet de contenus dangereux et de désinformation. Les scientifiques ont présenté leurs recherches à OpenAI et Google. Le premier a souligné qu’il œuvre en permanence à rendre les modèles plus robustes contre ce genre d’attaques dites « adverses » ou « inversées ».
avec futura