yoonholee.com 01/04/2026 MD Sandbox

Meta-Harness: Otimização de Ponta a Ponta de Arnês de Modelos

Paper Tecnologia Meta Harness Otimização

Conteudo

TLDR;

  1. O que é o Meta-Harness?
    É um método que otimiza “harnesses” de modelos de ponta a ponta, usando histórico completo, código, scores e logs de execução para propor melhorias mais precisas.

  2. Qual é a principal diferença dele em relação a outras abordagens de otimização?
    A principal diferença é que o Meta-Harness expõe ao otimizador todo o contexto disponível em um filesystem, em vez de resumir a história em poucas informações, permitindo diagnósticos muito mais detalhados.

  3. Que resultados o artigo mostra com essa abordagem?
    O conteúdo mostra ganhos em classificação de texto, raciocínio matemático e agentes de programação, incluindo melhorias de acurácia e desempenho em benchmarks como TerminalBench-2, onde o Meta-Harness supera ou se aproxima dos melhores agentes.,
    author={Lee, Yoonho and Nair, Roshen and Zhang, Qizheng and Lee, Kangwook and Khattab, Omar and Finn, Chelsea},
    booktitle={Preprint},
    year={2026}
    }

Formato de saida (IMPORTANTE - siga exatamente):
Escreva APENAS as 3 respostas, sem as perguntas, no formato:
[resposta 1]. [resposta 2]. [resposta 3]

NAO inclua as perguntas na saida, apenas as respostas em italico separadas por ponto. NAO comece as respostas com SIM ou NÃO. Va direto ao ponto.
}

Resumo

O texto apresenta o Meta-Harness, um método de busca evolutiva para otimizar “harnesses” de modelos de linguagem com acesso ao histórico completo de código, logs e métricas em um sistema de arquivos, permitindo diagnóstico causal de falhas em vez de depender apenas de resumos ou pontuações. A abordagem é comparada a métodos anteriores como Self-Refine, OPRO, MIPRO e AlphaEvolve, destacando que o Meta-Harness usa muito mais contexto por iteração. Nos experimentos, ele melhora a classificação de texto em três benchmarks, alcançando 48,6% de acurácia, acima do ACE, com menos tokens de contexto; também melhora raciocínio matemático com recuperação de exemplos, ganhando 4,7 pontos em média e transferindo bem entre diferentes modelos. No TerminalBench-2, focado em tarefas complexas de programação em terminal, o método evolui prompts, ferramentas e lógica de checagem, atingindo 76,4% de sucesso com Claude Opus 4.6 e 37,6% com Claude Haiku 4.5, ficando entre os melhores colocados. Em síntese, o trabalho mostra que fornecer logs completos e permitir análise detalhada do histórico gera melhorias consistentes em raciocínio, recuperação e agentes autônomos, superando abordagens que comprimem demais a informação durante a otimização.,
author={Lee, Yoonho and Nair, Roshen and Zhang, Qizheng and Lee, Kangwook and Khattab, Omar and Finn, Chelsea},
booktitle={Preprint},
year={2026}
}
}