Google just casually disrupted the open-source AI narrative…

TLDR;

O Google lançou o Gemma 4 sob licença Apache 2.0, um LLM verdadeiramente open‑source e pequeno o suficiente para rodar em GPUs consumidoras e até em dispositivos de borda. A redução vem de atacar o gargalo de memória com técnicas como TurboQuant (quantização em coordenadas polares e uso do Johnson–Lindenstrauss para compressão de alta dimensão) e embeddings por camada que criam "parâmetros efetivos" por camada. A versão de 31 bilhões do Gemma 4 exige cerca de 20 GB para download e roda localmente em uma RTX 4090 a ~10 tokens/s, enquanto modelos maiores como Kimmy K2.5 demandam centenas de GB e hardware de data center.

Resumo

Na semana passada o Google lançou o Gemma 4, um grande modelo de linguagem verdadeiramente open source sob Apache 2.0 que se destaca por ser extremamente compacto e eficiente: a versão de 31 bilhões de parâmetros alcança resultados comparáveis a outros modelos avançados, mas cabe em uma GPU de consumidor (download ~20 GB, ~10 tokens/s numa RTX 4090), enquanto concorrentes como Kimmy K2.5 exigem centenas de GB e múltiplos H100s. O segredo não foi só reduzir parâmetros, mas atacar o gargalo da memória e da largura de banda; junto ao modelo o Google publicou uma nota sobre TurboQuant, uma nova técnica de quantização que transforma coordenadas para um sistema polar e aplica a transformação de Johnson–Lindenstrauss para compressão extrema preservando distâncias, além de estratégias de quantização agressivas. Porém, o ponto-chave do Gemma 4 são as “effective parameters” (modelos com E no nome, ex. E2B/E4B), que usam embeddings por camada para entregar informação específica no momento certo, reduzindo redundância e tornando o modelo pequeno, rápido e inteligente. Na prática, Gemma 4 é promissor para uso local e fine-tuning com ferramentas como Unsloth, embora ainda não substitua ferramentas de alto desempenho para programação; o vídeo também cita um patrocínio do Code Rabbit com novas funções de revisão de código via CLI.

Google just casually disrupted the open-source AI narrative…

Conteudo

TLDR;

Resumo

Relacionados

Instalar YouNews

Instalar YouNews