15:11
youtube.com ha 9h SRT AI Coder TODAY

Nova IA chocante acaba de atingir 12 milhões de tokens com 1000x menos processamento

Nova IA revolucionária atinge 12 milhões de tokens com desempenho 1000x mais eficiente.

Tecnologia LLM IA

Conteudo

TLDR;

A SubQ 1.1 Small alcançou 98% de acurácia em testes de busca dentro de um contexto de 12 milhões de tokens, atendendo apenas 0,13% dos pares de tokens e reportando quase 1.000x de redução no custo de atenção no benchmark Ruler. Isso foi viabilizado pela SSA (subquadratic sparse attention), que aprende quais relações entre tokens são relevantes e torna tanto a seleção quanto a atenção linear em custo, em vez de quadrática. O modelo teve seu model card publicado em 16 de junho de 2026 e está sendo lançado para parceiros selecionados, foi treinado principalmente até 1–2 milhões de tokens (não especificamente em 12M), há planos para janelas maiores até 12M e a equipe observou trade-offs que exigiram ajustes para preservar raciocínio pesado em conhecimento.

Resumo

Subquadratic anunciou uma técnica chamada SSA (subquadratic sparse attention) que promete permitir raciocínio sobre contextos gigantescos — bases de código, contratos e milhares de páginas — sem o custo computacional quadrático tradicional da atenção. Em vez de comparar todos os tokens entre si, SSA aprende relações relevantes pelo significado do conteúdo e seleciona dinamicamente pares de tokens, tornando tanto a seleção quanto a atenção lineares. Isso difere de atenções esparsas anteriores com padrões fixos e de modelos que comprimem contexto em memória fixa (RetNet, RWKV), além de evitar o problema de indexadores quadráticos como em Deepseek. No modelo SubQ 1.1 Small (divulgado em 16/06/2026), eles relatam resultados impressionantes: 100% no teste “needle in a haystack” até 2M tokens e 98% em 6–12M, atendendo a apenas 0,13% dos pares em 12M, o que explica reduções de até cerca de mil vezes em compute em benchmarks como Nvidia Ruler. Comparada ao Flash Attention 2, SSA empata em ~16k tokens e fica muito mais rápida em contextos maiores (até 56× em 1M). A eficiência permitiu mais de cem experimentos long-context e treinamento por etapas usando Yarn; contudo exigiu ajuste fino para não sacrificar raciocínio pesado em prol de recuperação de informação em cenários do mundo real.