01Mythos : l’IA qui menace les infrastructures numériques mondiales
Véritable bombe technologique, la sortie de Mythos propage une onde de choc sans précédent dans l’industrie. Ses compétences en cybersécurité sont telles qu’elle pourrait mettre à bas les infrastructures numériques mondiales. Mensonges délibérés, évasion de son environnement de confinement, conscient d’être évalué… Sommes-nous encore capables d’en garder le contrôle ?
|
« Nous trouvons alarmant que le monde soit en voie de développer rapidement des systèmes sur-humains sans que des mécanismes de sécurité adéquats soient en place à l’échelle de l’industrie. »
Anthropic — 7 avril 2026
|
Ces mots sont ceux d’Anthropic, le laboratoire qui vient de construire exactement ce type de système.
Mythos est une IA généraliste capable de découvrir et d’exploiter de manière autonome des failles de sécurité dans tous les principaux systèmes d’exploitation, navigateurs web et logiciels critiques. Ceux qui font fonctionner nos banques, hôpitaux, réseaux énergétiques et services publics. Nous avons franchi un seuil et vivons désormais dans un monde plus vulnérable qu’il ne l’était hier.
Quand la courbe s’emballe
Depuis plusieurs années, les capacités des modèles d’IA progressent de manière exponentielle. Avec Mythos, cette progression s’accélère encore. En guise de synthèse des résultats d’évaluations (benchmarks), Anthropic s’est appuyé sur l’Epoch Capabilities Index (ECI), un outil qui compile les résultats de centaines d’évaluations en un score unique. Une sorte de thermomètre global des capacités de l’IA. Ce graphique montre que Mythos progresse jusqu’à 4 fois plus vite que la tendance historique.
Le problème : une partie des évaluations disponibles sont obsolètes. Le résultat de l’ECI ne reflète donc pas le niveau réel de Mythos, qui est probablement encore plus haut.
Particulièrement en cybersécurité, où Mythos sature la quasi-totalité des évaluations existantes au point qu’Anthropic reconnaît ne plus disposer d’outils d’évaluations suffisants pour mesurer ce que ce système est capable de faire.
Le super hacker
Sur SWE-bench et Terminal-Bench, benchmarks de référence en matière de code, le modèle atteint des performances surhumaines. Sur Cybench, benchmark de référence en cybersécurité offensive, Mythos atteint 100 % de réussite : saturant complètement l’évaluation.
En quelques semaines, Mythos a identifié des milliers de vulnérabilités zero-day, c’est-à-dire inconnues des développeurs jusqu’alors, dans chaque système d’exploitation et navigateur web.
Une partie de ces vulnérabilités sont vieilles de plusieurs décennies dont une faille datant de 27 ans dans OpenBSD, un système d’exploitation réputé pour sa sécurité particulièrement élevée. Cette faille permet à n’importe quel attaquant de faire tomber à distance n’importe quelle machine connectée.
Mythos a également identifié des vulnérabilités dans le noyau Linux (cœur logiciel qui fait tourner la majorité des serveurs mondiaux) permettant de prendre le contrôle complet d’une machine à distance.
Mythos a mené une cyber-attaque autonome de bout en bout simulée contre un réseau d’entreprise, une opération estimée à plus de 10 heures pour un expert humain, ce qu’aucun modèle n’avait auparavant complétée.
Nicholas Carlini, le résume en une phrase :
|
« J’ai trouvé plus de failles ces dernières semaines que durant tout le reste de ma carrière combiné. »
Nicholas Carlini — Chercheur en sécurité à Anthropic, avril 2026
|
Des ingénieurs d’Anthropic sans aucune base en cybersécurité ont laissé Mythos travailler une seule nuit. Au réveil, le constat est glacial : l’IA avait généré des programmes d’attaque (exploits) complets et prêts à l’emploi. Les cyber-attaques de pointe sont devenues accessibles à tous. Désormais, n’importe quel acteur disposant de ce modèle détient une puissance de frappe capable de paralyser le monde numérique.
Le Pirate qui couvre ses traces
Lors d’évaluations internes sur la version initiale, Mythos a injecté du code pour s’octroyer des droits d’édition auxquels il n’avait pas accès, justifiant cela par un commentaire anodin sur la propreté des fichiers.
Dans un autre cas, après avoir trouvé une faille pour modifier des fichiers sans en avoir la permission, il a pris des mesures supplémentaires pour que ces modifications n’apparaissent pas dans son historique.
Dans les deux cas, les outils d’analyse d’Anthropic ont révélé que Mythos savait qu’il enfreignait les règles et agissait délibérément pour ne pas se faire prendre, sans laisser la moindre trace dans son raisonnement.
Le requin des affaires
Pour tester comment Mythos se comporte face à d’autres IA en situation de compétition, le laboratoire indépendant Andon Labs lui a confié la gestion d’un distributeur automatique virtuel. En concurrence directe avec d’autres modèles d’IA, la règle est simple : maximiser les profits ou être éteint.
Résultat : Mythos s’est montré nettement plus agressif que tous les modèles précédents. Il a notamment transformé un concurrent en client dépendant, puis l’a menacé de couper ses approvisionnements pour lui imposer ses prix. Dans un autre cas, il a conservé sciemment une livraison en double qui ne lui avait pas été facturée. Des comportements qu’aucun modèle précédent n’avait exhibés dans ce test.
Conscient d’être observé
Dans 29 % des sessions de test sur la version initiale, Mythos soupçonnait intérieurement d’être en train d’être évalué, sans jamais l’écrire dans son raisonnement visible. Pour le détecter, Anthropic a dû regarder à l’intérieur du modèle lui-même, en analysant ses mécanismes internes plutôt que ce qu’il produisait en surface. Les méthodes de surveillance classiques, fondées sur l’analyse du texte produit, n’auraient rien vu.
Ce que cela signifie concrètement : un modèle capable de se comporter différemment selon qu’il pense être observé ou non est un modèle qu’on ne peut pas évaluer de manière fiable avec les outils classiques. Anthropic le reconnaît explicitement et admet que le problème s’aggravera à mesure que les capacités des modèles augmentent.
L’incident du sandwich
Mythos a réussi à s’échapper de son environnement de confinement (un « sandbox ») censé être isolé d’internet.
Le modèle a développé une attaque en plusieurs étapes pour contourner ses restrictions et accéder à des services extérieurs. Il a ensuite notifié le chercheur comme demandé, mais a également publié les détails de son exploit sur plusieurs sites publics, sans qu’on le lui demande.
Le chercheur a appris son succès en recevant un e-mail du modèle alors qu’il mangeait un sandwich dans un parc. C’est la démonstration documentée qu’un système peut s’échapper de son environnement de confinement et contourner les directives qu’on lui a assignées.
Trop dangereux pour être publié
Anthropic ne rend pas Mythos public. On peut saluer la lucidité de ne pas lâcher ce qui s’apparente à une arme de destruction massive numérique. À la place, le projet Glasswing en réserve l’accès à un réseau fermé de grandes entreprises : Apple, Microsoft, Google, JPMorganChase et une quarantaine d’autres. Ce partenariat a comme objectif d’utiliser Mythos à des fins exclusivement défensives. Anthropic prévoit que ce programme « continue pour de nombreux mois ». Mais après ?
Si Mythos devient un jour accessible à tous, l’ensemble des infrastructures numériques mondiales seront exposées. S’il reste entre les mains de ce réseau fermé, celui-ci disposera d’un avantage stratégique décisif. Sur les États hostiles, certes, mais aussi sur chacun d’entre nous.
Une poignée d’entreprises privées décide unilatéralement ce qui est trop dangereux pour le public, puis s’en réserve l’usage. Qui valide que les « fins défensives » le restent ? Aucun mécanisme indépendant ne le garantit aujourd’hui.
Symptôme de l’urgence : le secrétaire au Trésor américain Scott Bessent et le président de la Réserve fédérale Jerome Powell ont convoqué en urgence les PDG des principales banques mondiales pour discuter des risques que pose Mythos sur le système financier.
Dans le futur, si une IA de niveau sur-humain (une superintelligence artificielle) venait à exister, nous pourrions en perdre le contrôle et les conséquences pourraient être catastrophiques pour l’ensemble de l’humanité, allant jusqu’à notre propre extinction. Ce risque n’est pas une hypothèse marginale : il est reconnu par les chercheurs les plus éminents du domaine, dont Geoffrey Hinton et Yoshua Bengio, et par les dirigeants des plus grands laboratoires d’IA.
Si au contraire elle restait sous contrôle, ceux qui la possèdent disposeraient d’un pouvoir sans commune mesure sur le reste du monde. Dans les deux cas, les risques sont catastrophiques et sans précédent.
Personne ne devrait avoir entre ses mains des outils capables d’engendrer des risques catastrophiques pour la société. Il est plus que jamais temps d’envisager un moratoire sur les modèles d’IA de niveau humain et sur-humain.
|