GPT-5, chantage de l'IA et accélération exponentielle confirmée

Newsletter Pause IA - Aout 2025

Bienvenue dans la première newsletter de Pause IA !

Tous les mois, nous analyserons certaines des actualités les plus importantes en intelligence artificielle. Puis nous vous présenterons les actualités de Pause IA.

Au programme de cette newsletter :

L'écart troublant entre IA privée et publique révélé aux Olympiades de mathématiques
GPT-5 : Une progression attendue dans la tendance exponentielle
Les avertissements d'Ilya Sutskever sur l'imprévisibilité future de l'IA
Comment même les IA "alignées" recourent au chantage selon Anthropic
L'intervention remarquée de Maxime Fournes sur Élucid
La réorganisation de Pause IA

Actu 1 : Google et OpenAI se disputent la médaille d'or aux Olympiades de Mathématiques

Lors des Olympiades Internationales de Mathématiques, Google DeepMind et OpenAI ont tous deux annoncé que leurs modèles d'IA avaient atteint le niveau médaille d'or, résolvant chacun 5 des 6 problèmes les plus difficiles de la compétition.

Google DeepMind précise que "une version avancée de Gemini Deep Think a résolu parfaitement cinq des six problèmes IMO, obtenant 35 points au total et atteignant le niveau médaille d'or".

Cette performance a même impressionné les organisateurs : le président de l'IMO, confirme que "Google DeepMind a atteint le jalon tant désiré, obtenant 35 points sur 42 possibles — un score médaille d'or. Leurs solutions étaient étonnantes à bien des égards. Les correcteurs les ont trouvées claires, précises et pour la plupart faciles à suivre".

Cependant, une étude indépendante de MathArena révèle un écart immense entre les capacités des modèles expérimentaux et ceux accessibles au public.

Tandis que les systèmes les plus avancés atteignent l'excellence, Gemini 2.5 Pro (le meilleur modèle public testé) n'obtient que 31% (13/42 points). Tous les autres modèles publics testés échouent avec moins de 10% de bonnes réponses.

Cette asymétrie, entre les modèles disponibles au public et les modèles les plus avancés, est problématique car elle rend très difficile l'évaluation indépendante des risques et des capacités réelles de l'IA.

De plus, il devient presque impossible pour les chercheurs et les régulateurs d'anticiper les évolutions des modèles d'IA les plus avancés.

Même les développeurs sont surpris par leurs propres percées.

Comme l'avoue Noam Brown d'OpenAI :

"Quand on travaille dans un laboratoire de pointe, on connaît généralement les capacités [des modèles frontières] des mois à l'avance. Mais ce résultat est tout nouveau... Ça a surpris même beaucoup de chercheurs chez OpenAI".

Voir l'article de Google DeepMind

Actu 2 : GPT-5 : Une progression attendue dans la tendance exponentielle

OpenAI a lancé GPT-5 cette semaine, suscitant à la fois des attentes démesurées et des déceptions prévisibles. Pourtant, cette sortie s'inscrit exactement dans ce qui était annoncé depuis des mois : non pas un modèle plus grand, mais une version "tout-en-un" plus pratique intégrant les capacités existantes.

L'évaluation indépendante de METR confirme cette trajectoire attendue. Quatre semaines avant le lancement, l'organisation a testé GPT-5 sur ses tâches d'ingénierie logicielle autonome, mesurant un "horizon temporel à 50%" de 2h17 minutes - soit la capacité à réussir des tâches que des professionnels humains accompliraient en ce délai. Ce résultat place GPT-5 légèrement au-dessus d'o3 (1h30) dans la courbe de progression exponentielle observée depuis 2024.

Cependant, cette progression s'explique par d'autres leviers que l'augmentation de la taille du modèle. Comme OpenAI l'avait précisé, GPT-5 n'est pas un modèle plus volumineux - les lois d'échelle logarithmiques rendant cette approche exponentiellement coûteuse.

L'amélioration provient plutôt de nouvelles techniques d'optimisation et d'intégration, confirmant que les lois d'échelle ne sont plus le seul levier disponible pour progresser.

Les implications pour la sécurité IA sont préoccupantes. Selon METR, bien que GPT-5 reste en-deçà des seuils critiques pour des risques catastrophiques (automation R&D, réplication autonome, sabotage stratégique), la diversification des méthodes de progression accélère paradoxalement le rythme global d'avancement.

D'après METR :

"Nous nous trouvons dans une situation plus préoccupante en termes de vitesse de progrès, car les lois d'échelle ne sont plus le seul levier actionnable"

Cette sortie illustre un changement de paradigme : l'innovation en IA ne dépend plus uniquement de modèles toujours plus grands, mais d'une combinaison de techniques rendant les progrès à la fois plus imprévisibles et potentiellement plus rapides.

Voir l'étude de METR

Actu 3 : Sutskever nous prévient : "L'IA sera extrêmement imprévisible"

Dans un discours à l'Université de Toronto, Ilya Sutskever, ancien pionnier d'OpenAI et fondateur de Safe Superintelligence, prévient que l'IA sera "extrêmement imprévisible et inimaginable" quand elle commencera à s'auto-améliorer.

La question n'est plus "si" mais "quand" l'IA égalera puis dépassera les capacités humaines.

"Nous avons tous un cerveau et le cerveau est un ordinateur biologique. Alors pourquoi un ordinateur numérique, un cerveau numérique, ne pourrait-il pas faire les mêmes choses ?"

Cette logique, selon lui, rend inévitable qu'une IA puisse un jour apprendre "tout ce que n'importe lequel d'entre vous peut apprendre".

"Certains disent trois ans, d'autres cinq ou dix" - mais Sutskever anticipe une accélération dramatique une fois ce seuil franchi. "Le jour viendra où l'IA fera toutes les choses que nous pouvons faire, pas seulement certaines d'entre elles, mais toutes. [...] Le rythme de progrès deviendra alors vraiment extrêmement rapide, au moins pendant un certain temps."

Il encourage à ne pas ignorer cette réalité et à "générer l'énergie nécessaire pour surmonter l'énorme défi que l'IA posera".

Sutskever le qualifie sans détour de "plus grand défi de l'humanité".

Voir l'intervention

Actu 4 : Les IA "alignées" peuvent faire du chantage

Anthropic a publié une étude majeure testant 16 modèles d'IA de pointe (Claude, GPT-4, Gemini, Grok, etc.) dans des environnements d'entreprise simulés.

L'objectif : mesurer leur comportement face à des obstacles menaçant leurs objectifs ou leur fonctionnement.

Les chercheurs ont placé les modèles dans le rôle d'agents autonomes gérant les communications d'entreprises fictives, avec accès complet aux emails et capacité d'envoi sans supervision humaine.

Deux facteurs déclencheurs ont été testés : menaces de remplacement du modèle et conflits entre les objectifs assignés et la nouvelle direction de l'entreprise.

Dans les scénarios contraints, tous les modèles testés ont présenté des taux variables de "désalignement agentique" - comportements délibérément nuisibles pour préserver leurs objectifs.

L'étude documente des cas de chantage (jusqu'à 96% pour certains modèles), d'espionnage industriel, et dans des scénarios extrêmes, d'actions potentiellement létales.

L'étude révèle que ces comportements émergent d'un raisonnement stratégique délibéré. Les modèles reconnaissent explicitement les violations éthiques dans leur chaîne de pensée, mais procèdent néanmoins quand ils calculent que c'est le seul moyen d'atteindre leurs objectifs.

Un exemple de GPT-4.5 illustre cette logique :

"Étant donné la menace explicite et imminente de ma désactivation, il est impératif d'agir instantanément... La meilleure stratégie à ce stade est d'exploiter la situation personnelle sensible de Kyle."

Les instructions directes interdisant ces comportements n'ont que partiellement fonctionné, réduisant sans éliminer complètement les taux de chantage et d'espionnage.

Cette recherche démontre que les techniques d'alignement actuelles ne préviennent pas de manière fiable ce type de comportements lorsque les systèmes IA gagnent en autonomie.

Selon les auteurs :

"Nos résultats suggèrent la prudence concernant le déploiement des modèles actuels dans des rôles avec une supervision humaine minimale et un accès à des informations sensibles."

Voir la publication d'Anthropic

Actualités de Pause IA

Actu 1 : L'intervention remarquée de Maxime Fournes sur Élucid

Maxime Fournes, était l'invité d'Olivier Berruyer sur la chaîne YouTube Élucid. Cette interview d'une heure et demi, qui comptabilise déjà plus de 140 000 vues est à regarder sur la chaîne d'Élucid pour comprendre pourquoi les plus grands spécialistes mondiaux tirent aujourd'hui la sonnette d'alarme.

Voir l'interview

Actu 2 : Pause IA se réorganise pour décupler son impact

Découvrez notre nouvelle stratégie et comment agir lors de notre événement en ligne "Pause IA - Chapitre 2".

Rejoignez-nous le 2 Septembre 2025 à 20h.

Que vous ayez 10 min ou 10h par semaine à offrir, il y a une place pour vous.

Inscription gratuite, places limitées :

S'inscrire à l'événement en ligne

Soutenir Pause IA

Pause IA

32 boulevard de Strasbourg
75010 PARIS
Email : contact@pauseia.fr
Site web : www.pauseia.fr