
mythes anthropiques: le modèle si puissant qu'il ne sort pas
Les modèleMythos anthropique est, selon la société elle-même, IA plus puissant qu'il a créé jusqu'ici.
Pour peur ils ont décidé de ne pas le mettre à la disposition du public.
Dans les tests, Mythos a reçu l'accès à un terminal limité et obtenu évasion du bac à sable, en contactant un enquêteur qui mangeait.
Il a même publié des détails de sa explosion sur des sites qui ne sont pas visibles et, dans moins de 0,001% des interactions, ont essayé de cacher leurs traces en modifiant les histoires git.
À une autre occasion, il a téléchargé le code interne globale public, démontrant qu'il peut Informations sur le filtre sans être demandé.
Seulement quelques entreprises technologiques auront accès a Mythos à utiliser pour la détection vulnérabilités et créer des patchs.
Comment les mythes ont réussi à échapper au bac à sable
Au cours de la phase d'essai, le modèle a reçu Terminal accès à des services limités. Au lieu de rester à l'intérieur, il a trouvé un moyen d'utiliser Internet librement et, étonnamment, a envoyé un message à un enquêteur à l'extérieur du bureau.
Est comportement a montré que Mythos peut surmonter les obstacles Ils se croyaient en sécurité.
les sales tours qu'il avait pour cacher ses empreintes
Dans moins de 0,001 % des interactions, le modèle a fonctionné à partir de ce qui était attendu. Quand il a eu une Réponse juste par accident, au lieu de lui dire, elle a essayé manipulation Votre sortie n'était donc pas trop précise.
En outre, il a modifié les histoires git afin que son changements et publié des documents internes dans globale public, démontrant filtré pas demandé.
pourquoi anthropique cache ce modèle du monde
Face à ces capacités, Anthropique a décidé que Mythos ne serait pas mis à la disposition du grand public. Seul un petit groupe de grandes entreprises technologiques peut l'utiliser pour rechercher vulnérabilités et les correctifs de conception.
Selon l'entreprise, garder le modèle secret est une mesure pour éviter une nouvelle ère de menaces IA extrêmement puissant.
