Open Models at Google DeepMind — Cassidy Hardin, Google DeepMind
Descubra os segredos dos modelos abertos no Google DeepMind com Cassidy Hardin
Conteudo
TLDR;
Gemma 4 é a nova família open‑source do Google DeepMind, lançada em quatro tamanhos (dois efetivos para on‑device e dois maiores: 26B MoE e 31B dense), com foco multimodal e ganhos de desempenho significativos em relação ao Gemma 3. Os modelos foram liberados sob licença Apache 2.0 para facilitar integração, testes e deployment por desenvolvedores e permitem execução local em dispositivos como celulares, iPads e laptops para os modelos efetivos. Tecnicamente, o Gemma 4 traz atenção intercalada local/globais com sliding windows (512/1.024), grouped query attention, a nova arquitetura Oure com 128 experts e suporte a contexto longo (31B com 256k), resultando em alta eficiência e ranking de ponta em benchmarks.
Resumo
Cassidy, pesquisadora do Google DeepMind, apresenta o Gemma 4, nova família open source com quatro tamanhos: dois modelos “effective” (2B e 4B) otimizados para rodar on‑device (telefones, tablets e laptops) e dois maiores — um Mixture of Experts de 26B (com apenas ≈3,8–3,9B parâmetros ativos) e um denso de 31B. O 31B multimodal possui 256k de contexto, suporte a workflows autônomos (thinking, function calling, JSON estruturado) e alcançou posição top‑3 na arena global, superando modelos muito maiores. O Gemma 4 introduz mudança de licença para Apache 2.0, facilitando integração por desenvolvedores. Arquiteturalmente, usa intercalamento de camadas locais e globais (razão 5:1, 4:1 no 2B), janelas deslizantes de 512/1024 tokens e garante a última camada como global. Para reduzir custo memória, implementa grouped query attention (agrupa 2 queries localmente, 8 globalmente) e alonga cabeças key/value globais para 512. O novo MOE “Oure” possui um roteador compartilhado, 128 experts pequenos (8 ativados por passada) e um expert constante maior. “Effective” refere‑se a parâmetros ativos versus representacionais (ex.: 2B efetivos ≈2,3B ativos e 5,1B representacionais). Também introduz PLE (per‑layer embeddings) para otimizações adicionais. Os modelos obtiveram ganhos expressivos em benchmarks de capacidades, codificação, multimodalidade e multilinguismo, superando a família Gemma 3 anteriormente e globalmente.