A Anthropic acaba de lançar Fable 5 e é assustador.
Fable 5 da Anthropic: inteligência artificial com desempenho assustador.
Conteudo
TLDR;
Fable 5 é a versão pública do modelo Claude derivada de Mythos com salvaguardas embutidas que conserva capacidades de ponta em programação, visão e pesquisa, mas redireciona consultas de alto risco para o modelo Opus 4.8. É assustador porque suas capacidades podem automatizar ataques cibernéticos, descobrir vulnerabilidades e até auxiliar em design biológico perigoso, tornando-o potencialmente utilizável como arma em mãos erradas. A Anthropic aplica classificadores de segurança que detectam perguntas sobre cibersegurança, biologia, química ou distilação e, em menos de 5% das sessões, rerota para Opus 4.8, além de oferecer acesso irrestrito apenas a organizações aprovadas via programas controlados como Mythos 5.
Resumo
A Anthropic lançou o Claude Fable 5, uma versão pública de seu modelo Mythos com mecanismos de segurança que limitam respostas em tópicos de alto risco — como cibersegurança, biologia, química e "distillation" — redirecionando o usuário para o menos potente Claude Opus 4.8 em cerca de 5% das sessões; a decisão reflete o poder do modelo, que em testes superou concorrentes em engenharia de software, tarefas de visão, raciocínio avançado e pesquisa científica (ex.: migração de grande base de código em um dia, desempenho de ponta em benchmarks financeiros e analíticos, demos de jogo e simulações físicas). Anthropic aplicou classificadores e equipes de red teaming e bug bounty para detectar jailbreaks e abuso, reconhecendo que impedir explorações universais pode ser impossível, mas buscando torná‑las lentas e detectáveis. Há preocupação real: Mythos/Fable pode facilitar ataques cibernéticos completos (reconhecimento, exploração, movimento lateral) e auxiliar design biológico perigoso, além de risco de "distillation" por atores estatais que replicariam capacidades sem salvaguardas. Para usos que exigem poder total, a Anthropic disponibiliza Mythos 5 a organizações aprovadas via Project Glasswing e programa de acesso confiável; preços iniciais citados: US$10 por milhão de tokens de entrada e US$50 por milhão de tokens de saída.