A nova IA do Google acabou de me deixar de boca aberta.
Nova IA do Google deixa especialistas impressionados com suas capacidades revolucionárias.
Conteudo
TLDR;
A nova IA do Google usa o TurboQuant para comprimir o KV cache, reduzindo bastante o uso de memória e acelerando partes do processamento sem perder qualidade relevante. Ela pode realmente funcionar, já que outros cientistas conseguiram reproduzir e benchmarkar a técnica, obtendo cerca de 30% a 40% menos memória e até 40% mais سرعت nesse contexto. A controvérsia é que a técnica combina ideias antigas e, embora os resultados sejam bons, alguns pesquisadores acham que ela se parece com métodos anteriores e que a divulgação exagerou seus efeitos.
Resumo
A Google anunciou o TurboQuant, uma nova técnica para reduzir drasticamente o custo de rodar sistemas de IA, especialmente modelos de linguagem, comprimindo o KV cache, que funciona como a memória de curto prazo do assistente. A proposta combina ideias já conhecidas, como quantização, rotação aleatória de vetores para distribuir melhor a informação antes do arredondamento e o uso do transformado de Johnson-Lindenstrauss para manter distâncias aproximadas entre os dados após a compressão. Embora nada disso seja totalmente novo, a combinação teria produzido um avanço relevante: os testes reproduzidos por outros pesquisadores indicaram redução de 30% a 40% no uso de memória e, surpreendentemente, cerca de 40% de ganho de سرعت em prompts, sem perda significativa de qualidade. O vídeo ressalta, porém, que os números divulgados pela mídia podem ser exagerados, já que os resultados valem mais para casos específicos, como contextos longos com PDFs, vídeos ou grandes bases de código. Ainda assim, a técnica foi considerada muito promissora e acabou publicada, apesar de críticas de que ela se sobrepõe a métodos anteriores e de que nem todas as preocupações foram totalmente resolvidas.