Des chercheurs d'OpenAI ont publié le 5 septembre une étude qui explique pourquoi les modèles d'IA continuent d'inventer des informations avec assurance.
Contrairement aux idées reçues, les hallucinations ne sont pas des bugs, mais des conséquences mathématiquement inévitables du processus d'entraînement actuel.
L'étude, intitulée « Why Language Models Hallucinate », argue que :
«Les modèles de langage hallucinent parce que les procédures standards d'entraînement et d'évaluation récompensent les suppositions plutôt que la reconnaissance de l'incertitude».
Les chercheurs ont testé cette hypothèse ; interrogé sur le titre de la thèse de doctorat d'Adam Tauman Kalai (co-auteur de l'étude), le modèle a fourni avec assurance trois réponses différentes - toutes incorrectes.
L'analyse révèle deux causes structurelles aux hallucinations.
Premièrement, même avec des données d'entraînement parfaites, certains faits arbitraires de faible fréquence, ne peuvent être prédits à partir de modèles seuls et conduisent donc à des hallucinations.
Deuxièmement, les méthodes d'évaluation actuelles créent de mauvaises incitations. En répondant avec une supposition hasardeuse, les modèles d'IA obtiennent de meilleures résultats qu'en ne proposant pas de réponse du tout.
Les modèles sont ainsi encouragés à deviner plutôt qu'à dire «je ne sais pas».
Cependant, cette «découverte» révèle un problème plus profond : ce second mécanisme (modèle encouragé à répondre en cas d'incertitude) parait évident une fois qu'on a entendu l'argument. En fait, certains spécialistes en sécurité de l'IA l'avaient anticipé.
Le fait qu'une étude formelle soit nécessaire en 2025 pour comprendre ces principes de base révèle à quel point nous ne comprenons pas réellement le fonctionnement de ces systèmes.
Les grandes entreprises d'IA privilégient massivement le développement de capacités au détriment de la recherche théorique fondamentale.
Cette approche «construire d'abord, comprendre ensuite» constitue un risque majeur pour des technologies qui influencent des milliards d'utilisateurs. |