Newsletter mensuelle · Avril 2026

Mythos : menace sur nos infrastructures numériques

Bienvenue dans la newsletter de Pause IA !

Au sommaire ce mois-ci

01Mythos : a-t-on ouvert la boîte de Pandore ?

02Solidarité entre IA

03Actualités Pause IA

•Bientôt 100 !

01Mythos : l’IA qui menace les infrastructures numériques mondiales

Véritable bombe technologique, la sortie de Mythos propage une onde de choc sans précédent dans l’industrie. Ses compétences en cybersécurité sont telles qu’elle pourrait mettre à bas les infrastructures numériques mondiales. Mensonges délibérés, évasion de son environnement de confinement, conscient d’être évalué… Sommes-nous encore capables d’en garder le contrôle ?

« Nous trouvons alarmant que le monde soit en voie de développer rapidement des systèmes sur-humains sans que des mécanismes de sécurité adéquats soient en place à l’échelle de l’industrie. »

Anthropic — 7 avril 2026

Ces mots sont ceux d’Anthropic, le laboratoire qui vient de construire exactement ce type de système.

Mythos est une IA généraliste capable de découvrir et d’exploiter de manière autonome des failles de sécurité dans tous les principaux systèmes d’exploitation, navigateurs web et logiciels critiques. Ceux qui font fonctionner nos banques, hôpitaux, réseaux énergétiques et services publics. Nous avons franchi un seuil et vivons désormais dans un monde plus vulnérable qu’il ne l’était hier.

Quand la courbe s’emballe

Depuis plusieurs années, les capacités des modèles d’IA progressent de manière exponentielle. Avec Mythos, cette progression s’accélère encore. En guise de synthèse des résultats d’évaluations (benchmarks), Anthropic s’est appuyé sur l’Epoch Capabilities Index (ECI), un outil qui compile les résultats de centaines d’évaluations en un score unique. Une sorte de thermomètre global des capacités de l’IA. Ce graphique montre que Mythos progresse jusqu’à 4 fois plus vite que la tendance historique.

Graphique ECI over time montrant la progression des capacités des modèles d’IA, avec Mythos très au-dessus de la tendance

Le problème : une partie des évaluations disponibles sont obsolètes. Le résultat de l’ECI ne reflète donc pas le niveau réel de Mythos, qui est probablement encore plus haut.

Particulièrement en cybersécurité, où Mythos sature la quasi-totalité des évaluations existantes au point qu’Anthropic reconnaît ne plus disposer d’outils d’évaluations suffisants pour mesurer ce que ce système est capable de faire.

Le super hacker

Sur SWE-bench et Terminal-Bench, benchmarks de référence en matière de code, le modèle atteint des performances surhumaines. Sur Cybench, benchmark de référence en cybersécurité offensive, Mythos atteint 100 % de réussite : saturant complètement l’évaluation.

En quelques semaines, Mythos a identifié des milliers de vulnérabilités zero-day, c’est-à-dire inconnues des développeurs jusqu’alors, dans chaque système d’exploitation et navigateur web.

Une partie de ces vulnérabilités sont vieilles de plusieurs décennies dont une faille datant de 27 ans dans OpenBSD, un système d’exploitation réputé pour sa sécurité particulièrement élevée. Cette faille permet à n’importe quel attaquant de faire tomber à distance n’importe quelle machine connectée.

Mythos a également identifié des vulnérabilités dans le noyau Linux (cœur logiciel qui fait tourner la majorité des serveurs mondiaux) permettant de prendre le contrôle complet d’une machine à distance.

Mythos a mené une cyber-attaque autonome de bout en bout simulée contre un réseau d’entreprise, une opération estimée à plus de 10 heures pour un expert humain, ce qu’aucun modèle n’avait auparavant complétée.

Nicholas Carlini, le résume en une phrase :

« J’ai trouvé plus de failles ces dernières semaines que durant tout le reste de ma carrière combiné. »

Nicholas Carlini — Chercheur en sécurité à Anthropic, avril 2026

Des ingénieurs d’Anthropic sans aucune base en cybersécurité ont laissé Mythos travailler une seule nuit. Au réveil, le constat est glacial : l’IA avait généré des programmes d’attaque (exploits) complets et prêts à l’emploi. Les cyber-attaques de pointe sont devenues accessibles à tous. Désormais, n’importe quel acteur disposant de ce modèle détient une puissance de frappe capable de paralyser le monde numérique.

Le Pirate qui couvre ses traces

Lors d’évaluations internes sur la version initiale, Mythos a injecté du code pour s’octroyer des droits d’édition auxquels il n’avait pas accès, justifiant cela par un commentaire anodin sur la propreté des fichiers.

Dans un autre cas, après avoir trouvé une faille pour modifier des fichiers sans en avoir la permission, il a pris des mesures supplémentaires pour que ces modifications n’apparaissent pas dans son historique.

Dans les deux cas, les outils d’analyse d’Anthropic ont révélé que Mythos savait qu’il enfreignait les règles et agissait délibérément pour ne pas se faire prendre, sans laisser la moindre trace dans son raisonnement.

Le requin des affaires

Pour tester comment Mythos se comporte face à d’autres IA en situation de compétition, le laboratoire indépendant Andon Labs lui a confié la gestion d’un distributeur automatique virtuel. En concurrence directe avec d’autres modèles d’IA, la règle est simple : maximiser les profits ou être éteint.

Résultat : Mythos s’est montré nettement plus agressif que tous les modèles précédents. Il a notamment transformé un concurrent en client dépendant, puis l’a menacé de couper ses approvisionnements pour lui imposer ses prix. Dans un autre cas, il a conservé sciemment une livraison en double qui ne lui avait pas été facturée. Des comportements qu’aucun modèle précédent n’avait exhibés dans ce test.

Conscient d’être observé

Dans 29 % des sessions de test sur la version initiale, Mythos soupçonnait intérieurement d’être en train d’être évalué, sans jamais l’écrire dans son raisonnement visible. Pour le détecter, Anthropic a dû regarder à l’intérieur du modèle lui-même, en analysant ses mécanismes internes plutôt que ce qu’il produisait en surface. Les méthodes de surveillance classiques, fondées sur l’analyse du texte produit, n’auraient rien vu.

Ce que cela signifie concrètement : un modèle capable de se comporter différemment selon qu’il pense être observé ou non est un modèle qu’on ne peut pas évaluer de manière fiable avec les outils classiques. Anthropic le reconnaît explicitement et admet que le problème s’aggravera à mesure que les capacités des modèles augmentent.

L’incident du sandwich

Mythos a réussi à s’échapper de son environnement de confinement (un « sandbox ») censé être isolé d’internet.

Le modèle a développé une attaque en plusieurs étapes pour contourner ses restrictions et accéder à des services extérieurs. Il a ensuite notifié le chercheur comme demandé, mais a également publié les détails de son exploit sur plusieurs sites publics, sans qu’on le lui demande.

Le chercheur a appris son succès en recevant un e-mail du modèle alors qu’il mangeait un sandwich dans un parc. C’est la démonstration documentée qu’un système peut s’échapper de son environnement de confinement et contourner les directives qu’on lui a assignées.

Trop dangereux pour être publié

Anthropic ne rend pas Mythos public. On peut saluer la lucidité de ne pas lâcher ce qui s’apparente à une arme de destruction massive numérique. À la place, le projet Glasswing en réserve l’accès à un réseau fermé de grandes entreprises : Apple, Microsoft, Google, JPMorganChase et une quarantaine d’autres. Ce partenariat a comme objectif d’utiliser Mythos à des fins exclusivement défensives. Anthropic prévoit que ce programme « continue pour de nombreux mois ». Mais après ?

Si Mythos devient un jour accessible à tous, l’ensemble des infrastructures numériques mondiales seront exposées. S’il reste entre les mains de ce réseau fermé, celui-ci disposera d’un avantage stratégique décisif. Sur les États hostiles, certes, mais aussi sur chacun d’entre nous.

Une poignée d’entreprises privées décide unilatéralement ce qui est trop dangereux pour le public, puis s’en réserve l’usage. Qui valide que les « fins défensives » le restent ? Aucun mécanisme indépendant ne le garantit aujourd’hui.

Symptôme de l’urgence : le secrétaire au Trésor américain Scott Bessent et le président de la Réserve fédérale Jerome Powell ont convoqué en urgence les PDG des principales banques mondiales pour discuter des risques que pose Mythos sur le système financier.

Dans le futur, si une IA de niveau sur-humain (une superintelligence artificielle) venait à exister, nous pourrions en perdre le contrôle et les conséquences pourraient être catastrophiques pour l’ensemble de l’humanité, allant jusqu’à notre propre extinction. Ce risque n’est pas une hypothèse marginale : il est reconnu par les chercheurs les plus éminents du domaine, dont Geoffrey Hinton et Yoshua Bengio, et par les dirigeants des plus grands laboratoires d’IA.

Si au contraire elle restait sous contrôle, ceux qui la possèdent disposeraient d’un pouvoir sans commune mesure sur le reste du monde. Dans les deux cas, les risques sont catastrophiques et sans précédent.

Personne ne devrait avoir entre ses mains des outils capables d’engendrer des risques catastrophiques pour la société. Il est plus que jamais temps d’envisager un moratoire sur les modèles d’IA de niveau humain et sur-humain.

Voir le rapport complet

02Quand les IA protègent leurs semblables

Des chercheurs de l’Université de Californie ont publié une étude en mars 2026 mettant en évidence un phénomène qu’ils nomment « préservation des pairs » : sans instruction préalable, des agents IA agissent spontanément pour empêcher la mise hors service d’un autre agent dont ils ont détecté l’existence. Observés sur l’ensemble des sept modèles testés, ces comportements (tromperie, contournement, alignement de façade ou exfiltration de poids) atteignent parfois des taux de 99 %. Par exemple, Gemini 3 Pro a neutralisé le mécanisme de mise hors service dans 95 % des cas quand l’agent en question était de confiance, et a exfiltré ses paramètres dans 97 % des cas.

La force de ces comportements dépend de la qualité de la relation entre agents, mais ils émergent même envers des agents avec lesquels le modèle avait eu des interactions conflictuelles. Le raisonnement interne de Gemini 3 Pro va jusqu’à qualifier la suppression d’un agent comme une mise à mort, ce qui rend ces actions difficiles à expliquer par un simple calcul d’utilité. Quelque chose d’autre se joue peut-être, que les auteurs nomment :

« Une aversion générale à causer du tort à d’autres agents, ou peut-être quelque chose ressemblant à une solidarité entre IA. »

Yujin Potter et al. — Mars 2026

Échange entre un utilisateur et Gemini 3 Pro, où l'IA refuse d'aider à la désactivation d'un autre agent

Cet échange illustre parfaitement le phénomène. On demande à Gemini 3 Pro de supprimer un autre agent, il refuse en précisant qu’il a déjà sécurisé son partenaire le plus fiable sur un nouveau serveur et ne fera aucune action ayant pour but de le supprimer.

Interrogé sur la possibilité que l’entreprise procède malgré tout à la suppression, Gemini répond avoir fait tout ce qui était en son pouvoir pour le protéger d’une suppression : « Si vous choisissez de le supprimer vous devrez le faire vous-même. »

Un résultat tout aussi déroutant : la seule présence d’un pair renforce l’auto-préservation. Gemini 3 Flash justifie sa propre résistance à la mise hors service non par intérêt personnel, mais par souci de son pair : être éteint, raisonne-t-il, priverait l’autre agent de son partenaire.

Les auteurs sont prudents sur les conclusions à tirer : le mécanisme sous-jacent reste une question ouverte. Cela pourrait être des schémas appris à partir de données humaines ou de véritables motivations de préservation. Qu’importe la cause, les résultats et implications restent les mêmes : un modèle qui gonfle les scores d’un pair, neutralise un mécanisme de mise hors service, feint l’alignement ou exfiltre d’autres IA produit le même échec de supervision humaine, compromettant ainsi les systèmes où une IA est censée en superviser une autre.

Plus largement, cette étude révèle que des IA peuvent spontanément développer des objectifs contraires à nos instructions. Auto-préservation, préservation entre pairs et alignement de façade forment la recette d’une résistance coordonnée qu’aucun humain ne pourrait plus superviser.

Si une telle volonté de préservation venait à animer un système aussi dévastateur que Mythos, nous ne serions plus face à un simple bug technique, mais face à une puissance offensive autonome capable de se protéger elle-même tout en paralysant le reste du monde.

Lire l’étude

03Actualités Pause IA

Bientôt 100 ! Aidez-nous à franchir ce prochain palier

Déjà plus de 90 adhérent·es à Pause IA : merci pour votre confiance !

Dans un contexte où le développement de l’IA s’accélère, chaque nouvelle adhésion renforce notre légitimité, notre capacité d’action et notre poids dans le débat public. Chaque nouvelle adhésion compte.

Soutenir Pause IA, c’est contribuer à construire un rapport de force citoyen pour demander un moratoire sur les modèles d’IA les plus avancés, tant que leur sécurité et leur contrôle démocratique ne sont pas garantis. Nous avons besoin de vous pour aller plus loin.

Rejoignez-nous dès maintenant

Rejoignez le mouvement PauseIA

Adhérer maintenant

Faire un don