Anthropic LEAKED: NEW Claude Builder, Mythos Benchmarks & Opus 4.6 NERFED!
Novas revelações sobre o Anthropic: Claude Builder, benchmark de Mythos e nerf em Opus 4.6!
Conteudo
TLDR;
Vazamentos mostram um novo modo de "build" dentro do Claude com templates (chatbot, landing page, jogo), pré‑visualização ao vivo e um painel full‑stack com auth, banco, storage e verificação de segurança para criar apps completos. Benchmarks preliminares indicam que o Metis da Anthropic lidera em vários testes de raciocínio e programação e é mais barato por token que o GPT‑5.4 Pro em muitos cenários, embora o GPT‑5.4 vença em alguns evals de browser e as comparações tenham caveats. Retestes do Bridge Bench mostram que o Claude Opus 4.6 caiu de ~83,3% para ~68,3% de acurácia em um benchmark de análise de código, o que sugere alteração de performance (um possível "nerf").
Resumo
Vazamentos recentes indicam que a Anthropic está desenvolvendo dentro do Claude um novo modo de construção integrado, com interface para criar apps full‑stack (templates, preview, segurança, autenticação, banco de dados e deploy) e um painel de gerenciamento — recurso que aponta para concorrência direta com ferramentas do “vibe coding” como Lovable e Bolt. Outro vazamento mostra o Claude Code ganhando interface unificada para agentes que operam em múltiplos repositórios simultaneamente, facilitando fluxos multi‑agente e multi‑repo. Paralelamente, comparações preliminares entre o Metis (preview da Anthropic) e o GPT‑5.4 Pro (OpenAI) sugerem que Metis lidera em várias avaliações, especialmente em codificação e raciocínio em contexto longo (por exemplo Graph Walks a milhão de tokens), além de oferecer preços por token inferiores aos do GPT‑5.4 Pro; porém, esses benchmarks são de previews e nem sempre representam versões finais. Também foi observado um recuo de desempenho no Claude Opus 4.6 segundo o Bridge Bench, que reportou queda de ~83% para ~68% de acurácia em análise de código, o que pode indicar mudanças internas. Em suma, Anthropic parece alinhar recursos para cobrir o ciclo completo de desenvolvimento, mas tudo depende de anúncios oficiais e de possíveis ajustes antes do lançamento e de validações independentes futuras urgentes.