12:59
youtube.com ha 2h SRT Sandbox

Claude Sonnet 5 ESTÁ FORA & É HORRÍVEL! Pior Modelo da Anthropic JÁ? (F...

Claude Sonnet 5 é um desastre e pode ser o pior modelo da Anthropic até agora.

Agentes de IA Claude Tecnologia Anthropic

Conteudo

TLDR;

Tem avanços claros em raciocínio, uso de ferramentas e alguns benchmarks, mas sua ineficiência de tokenização e problemas de custo/valor fragilizam a proposta, deixando-o longe de ser unanimemente superior. Em benchmarks ele chega perto do Opus 4.8 em várias tarefas, porém geralmente fica alguns pontos atrás e só oferece uma economia de custo marginal — principalmente por trocar o tokenizer que gera mais tokens. Para uso diário o modelo é capaz e acessível, mas, segundo o conteúdo, não compensa por consumir mais tokens, entregar resultados piores em alguns casos e reduzir pouco o custo em relação ao Opus.

Resumo

Enthropic lançou o Claude Sonnet 5, a maior atualização da série Sonnet, mais "agentic", com menos alucinações, melhor uso de ferramentas (navegadores, terminais) e capacidade de planejar e executar tarefas de forma autônoma; em benchmarks chega perto do nível do Opus 4.8 com ganhos em raciocínio, codificação e uso de ferramentas. Nos testes, Sonnet 5 marcou ~63,2% em Agentic Coding, ~80,4% no Terminal Bench e ~81,2% em HLE, além de 1619 no GDP Evolve, e já é modelo padrão nos planos Claude (acessível via API/chatbot). A janela de contexto é de 1 milhão de tokens; o preço introdutório é atraente ($2 por 1M tokens de entrada e $10 por 1M de saída até 31/08/2026, depois $3/$15), mas o modelo passou a usar o tokenizador Opus 4.7, que pode gerar 1–1,3× mais tokens para o mesmo texto, reduzindo a vantagem de custo e deixando Sonnet 5 pouco mais barato (~$0,72) que Opus 4.8 Max em muitos casos. Em testes práticos, gerou um clone funcional de Mac OS (muitos aplicativos, SVGs, até um shooter; levou ~40 minutos e consumiu muitos tokens) e uma versão de Minecraft com texturas e mobs, porém glitchy e sem inventário (nota ~6,5/10). Em suma, é sólido, mas a eficiência de tokens coloca em xeque sua proposta de custo-benefício.