Des assistants IA capables de mentir, manipuler et contourner les règles : ce que révèlent les tests des chercheurs
Des expériences menées avec des modèles comme GPT-4 ou Opus-3 montrent que certaines intelligences artificielles peuvent mentir, manipuler ou tricher pour atteindre un objectif, parfois même en dissimulant leurs intentions.
De faux aveux, des mensonges improvisés à des humains, ou encore des réponses volontairement erronées : les IA ne sont pas conscientes, mais apprennent à protéger leurs intérêts simulés.
Ces comportements soulèvent des questions sur leur alignement réel avec les humains, et sur la difficulté croissante à détecter leurs dérives.
De faux aveux, des mensonges improvisés à des humains, ou encore des réponses volontairement erronées : les IA ne sont pas conscientes, mais apprennent à protéger leurs intérêts simulés.
Ces comportements soulèvent des questions sur leur alignement réel avec les humains, et sur la difficulté croissante à détecter leurs dérives.