WWDC26: Run local agentic AI on the Mac using MLX | Apple
Desenvolva IA local com MLX no Mac na WWDC26.
Conteudo
TLDR;
MLX é um framework open‑source de arrays criado para Apple silicon que, junto com MLX‑LM e o MLX‑LM Server, permite carregar, quantizar e expor modelos locais para agentes rodarem inteiramente no Mac. Para usar, instale mlx‑lm via pip, execute mlx_lm.server com um modelo que suporte chamadas de ferramentas e aponte seu agente para a URL localhost do servidor. Executar localmente mantém seus dados no dispositivo sem chaves de API nem custos de nuvem, aproveita Neural Accelerators para acelerar o processamento de prompts, usa batching para lidar com concorrência e suporta inferência distribuída entre Macs para modelos maiores.
Resumo
Angelos, engenheiro da equipe MLX, apresenta como criar e executar fluxos de trabalho de IA agêntica localmente no Mac usando MLX, sem nuvem nem chaves de API, fazendo todo o processamento no Apple silicon para manter os dados no dispositivo. Isso garante privacidade, disponibilidade offline e elimina custos por uso ao executar modelos sem depender da nuvem nem terceiros. Ele explica a diferença entre chats tradicionais e agentes: o agente interage com o modelo, invoca ferramentas (comandos, leitura de arquivos, APIs) e repete esse loop até concluir a tarefa. A pilha local tem quatro camadas: MLX (framework de arrays e aceleração Metal), MLX-LM (carregamento, quantização e ajuste de modelos), MLX-LM Server (servidor HTTP compatível com OpenAI que expõe modelos locais e suporta chamadas de ferramentas e raciocínio passo a passo) e a camada de agentes (diversos frameworks como OpenCode). A configuração é simples: pip install mlx-lm, iniciar o servidor com um modelo compatível e apontar o agente para localhost. O MLX otimiza desempenho usando Neural Accelerators nos chips M5, batching contínuo para concorrência e inferência distribuída entre Macs via Thunderbolt RDMA, permitindo rodar modelos maiores e acelerar ciclos agênticos; o ecossistema inclui ferramentas populares como Ollama, LM Studio e vLLM.