AI code benchmarks lied to us
Benchmarks de código de inteligência artificial nos enganaram.
Conteudo
TLDR;
Porque os benchmarks tradicionais usam problemas irreais e estão contaminados por soluções vazadas que permitem que modelos "trapaceiem" e inflacionem as pontuações. Muitos resultados são enganadores: modelos que pontuam alto em SWEBench ou arenas não necessariamente superam os modelos da OpenAI em testes mais realistas, segundo o conteúdo. O DBSE, criado pela Data Curve para refletir tarefas reais com agentes, mostrou resultados mais confiáveis e dramáticos, com GBT55 alcançando cerca de 70% de sucesso enquanto vários concorrentes ficaram muito atrás.
Resumo
O texto critica os benchmarks atuais para avaliar modelos de código, afirmando que ferramentas como SWEBench Pro apresentam problemas de contaminação de dados, tarefas pouco realistas e prompts inconsistentes, o que permite que modelos "trapaceiem" e produza resultados enganosos. Bancos alternativos tentados por grupos como Artificial Analysis agregam testes existentes, mas ainda falham em representar o trabalho real com agentes. Surge então o DBSE, criado pela Data Curve, que busca medir de forma mais fiel como os agentes atuam em projetos reais; seus resultados são tão contundentes que o autor antecipa acusações de parcialidade, as quais reconhece por ser investidor na empresa. O texto também destaca um patrocinador, Browserbase, uma CLI de navegador que usa "skills" para permitir que agentes operem interfaces web de modo confiável. Em relação a modelos recentes, comenta-se que Opus 4.8 teve ganhos de custo e desempenho variado dependendo do harness (mini SWE mostrou melhora substancial), mas ainda fica atrás de modelos da OpenAI, com GPT-4.5/5 (GPT‑55) liderando no benchmark DBSE. Por fim, o autor ressalta que o debate sobre cultura de benchmarking, técnicas de avaliação e prompting prático de agentes é o ponto mais relevante. Ele conclui que precisamos de métricas melhores, transparentes e reproduzíveis.