Nova IA chocante acaba de atingir 12 milhões de tokens com 1000x menos processamento
Nova IA revolucionária atinge 12 milhões de tokens com desempenho 1000x mais eficiente.
Conteudo
TLDR;
A SubQ 1.1 Small alcançou 98% de acurácia em testes de busca dentro de um contexto de 12 milhões de tokens, atendendo apenas 0,13% dos pares de tokens e reportando quase 1.000x de redução no custo de atenção no benchmark Ruler. Isso foi viabilizado pela SSA (subquadratic sparse attention), que aprende quais relações entre tokens são relevantes e torna tanto a seleção quanto a atenção linear em custo, em vez de quadrática. O modelo teve seu model card publicado em 16 de junho de 2026 e está sendo lançado para parceiros selecionados, foi treinado principalmente até 1–2 milhões de tokens (não especificamente em 12M), há planos para janelas maiores até 12M e a equipe observou trade-offs que exigiram ajustes para preservar raciocínio pesado em conhecimento.
Resumo
Subquadratic anunciou uma técnica chamada SSA (subquadratic sparse attention) que promete permitir raciocínio sobre contextos gigantescos — bases de código, contratos e milhares de páginas — sem o custo computacional quadrático tradicional da atenção. Em vez de comparar todos os tokens entre si, SSA aprende relações relevantes pelo significado do conteúdo e seleciona dinamicamente pares de tokens, tornando tanto a seleção quanto a atenção lineares. Isso difere de atenções esparsas anteriores com padrões fixos e de modelos que comprimem contexto em memória fixa (RetNet, RWKV), além de evitar o problema de indexadores quadráticos como em Deepseek. No modelo SubQ 1.1 Small (divulgado em 16/06/2026), eles relatam resultados impressionantes: 100% no teste “needle in a haystack” até 2M tokens e 98% em 6–12M, atendendo a apenas 0,13% dos pares em 12M, o que explica reduções de até cerca de mil vezes em compute em benchmarks como Nvidia Ruler. Comparada ao Flash Attention 2, SSA empata em ~16k tokens e fica muito mais rápida em contextos maiores (até 56× em 1M). A eficiência permitiu mais de cem experimentos long-context e treinamento por etapas usando Yarn; contudo exigiu ajuste fino para não sacrificar raciocínio pesado em prol de recuperação de informação em cenários do mundo real.