Gemma 4 no Raspberry Pi 5: Uma configuração de IA local surpreendentemente utilizável
Gemma 4 no Raspberry Pi 5: inteligência artificial local acessível e surpreendentemente eficaz.
Conteudo
TLDR;
Conseguiu-se executar Gemma 4 no Raspberry Pi 5 carregando a menor variante E2B (~4,5 GB, ~4B parâmetros) via LM Studio CLI, com o modelo sendo carregado em RAM. O processo envolveu instalar o LM Studio CLI com o script oficial, apontar o diretório de modelos para um SSD, baixar e carregar o E2B e usar socat para expor o servidor local na rede. Em uso o modelo responde a tarefas simples e integra-se a editores via endpoint compatível com OpenAI, mas sob carga ele utiliza intensamente CPU e RAM do Pi, indicando limites para tarefas maiores.
Resumo
Nick, um desenvolvedor com mais de 20 anos de experiência, testou rodar o menor modelo Gemma 4 (E2B) no Raspberry Pi 5 headless (Ubuntu Server) com 4 núcleos e 8 GB de RAM, acessível por SSH e usando tmux. Instalou a versão CLI do LM Studio, mudou o diretório de modelos para um SSD conectado e baixou o modelo de cerca de 4,5 GB com ~4 bilhões de parâmetros. Explicou que a família Gemma 4 foca em fluxos baseados em agentes, suporta chamadas de função, ferramentas, imagens, vídeo, e que modelos menores têm suporte nativo a áudio; também oferecem contexto de 128.000 tokens e são licenciados sob Apache 2.0. Após carregar o modelo na RAM, iniciou o servidor API local na porta 4000 e, como não foi possível vincular o host, usou socat para encaminhar para a porta externa 4001, tornando o serviço acessível na rede local. Testou via HTTP a partir de um Mac, integrou o endpoint local ao editor Zed e executou prompts; monitorou recursos pelo htop durante um teste mais pesado (geração de função Python para ordenar objetos), observando uso pleno da CPU e ficou surpreso com a capacidade do dispositivo para tarefas simples e futuras melhorias.