China’s New Coding AI Beats GPT-5.1 & Claude Sonnet 4.5!
Por Universe of AI
Conteudo
TLDR;
Segundo os benchmarks citados (por exemplo Software Engineering Bench), o IQ Quest Coder v1 supera GPT‑5.1 e Claude Sonnet 4.5 em tarefas de engenharia de software realistas, alcançando 81,4% top‑1 na geração de patches que passam testes. Ele consegue esse desempenho por causa do treinamento "code flow" que aprende com históricos de commits, patches, falhas e recuperações, do mid‑training com contextos longos (até 128k tokens) e da arquitetura loop coder que reutiliza blocos transformer para iterações de raciocínio sem aumentar parâmetros. É apresentado como uma família de modelos de pesos abertos com versões de 7B, 14B e 40B parâmetros, projetada para eficiência de implantação em produção graças ao loop coder que reduz movimentação de memória e permite mais passos de raciocínio no mesmo hardware.
Resumo
IQ Quest Coder versão 1 é um novo modelo de código aberto chinês (7B/14B/40B parâmetros, com o flagship de 40B) projetado não só para autocompletar, mas para engenharia de software agentiva: tarefas de longo horizonte, uso de ferramentas, depuração e raciocínio em nível de repositório. Sua diferença está no pipeline de treinamento "code flow" em três estágios — pré-treino amplo e afinamento em repositórios de alta qualidade; mid-training com contextos longos (32k e 128k tokens), trajetórias de agentes e histórico de commits; e pós-treino dividido em versão instruct e uma “thinking” treinada por RL para raciocínio iterativo — o que ensina evolução de código, patches, falhas de teste e recuperações. A arquitetura "loop coder" reutiliza blocos transformer em iterações, oferecendo mais profundidade de raciocínio sem ampliar parâmetros, reduzindo movimentação de memória e custo de deployment. Nos benchmarks práticos que exigem planejamento, iteração e uso de ferramentas (Software Engineering Bench — 81,4% top1, superando GPT-5.1 e Claude Sonnet 4.5 — Live Codebench, Big Codebench, Terminal Bench, Mind-to-Web, BFCL, Full-Stack Bench), o IQC se destacou, especialmente a versão thinking. Demos mostram competência em sistemas stateful e interativos (sandbox de partículas, algoritmo de Boids e simulação 3D do sistema solar), confirmando sua capacidade de gerar, manter e iterar código complexo — sinalizando uma mudança de autocompletar para autonomia em IA para desenvolvimento.