25:40
youtube.com 19/05/2026 SRT AI Coder TODAY

Are Local Models Finally Good Enough?

Modelos locais estão finalmente à altura?

Technology AI OpenCode GPU

Conteudo

TLDR;

Com uma única GX10 rodando Qwen3.6‑35B via vLLM e OpenCode, o autor conseguiu fazer um agente construir e executar um app Homelab, mostrando que modelos locais já são práticos para tarefas reais, embora ainda apresentem limitações. Ao conectar duas GX10 via NVIDIA ConnectX‑7 (QSFP112) e ter 256 GB de memória unificada, o sistema permite mirar em modelos maiores e distribuir a carga, mas isso depende do software saber usar o cluster. O fluxo de trabalho descrito armazena modelos no NAS, carrega-os pelo GX10 servido pelo vLLM, usa OpenCode com VS Code remoto para desenvolvimento e Grafana/Prometheus para monitoramento.

Resumo

Este vídeo testa se a inteligência artificial local já é prática e útil usando um ou dois ASUS GX10 com plataforma NVIDIA GB10 (CPU ARM, GPU Blackwell) e 128 GB de memória unificada por máquina, formando um cluster local de 256 GB. O autor avalia hardware (rede 10GbE e ConnectX‑7 via QSFP112), consumo elétrico, temperaturas e utilização em Grafana/Prometheus, e prefere um fluxo remoto de desenvolvimento via NVIDIA Sync e VS Code Remote para manter a máquina principal no desktop enquanto o GX10 roda os modelos. Modelos ficam no NAS e são servidos por vLLM; alternativas como Ollama, llama.cpp e Docker Model Runner também são mencionadas. Como cliente/agent, usa OpenCode em terminal ou web, dando ao agente um escopo claro para implementar um app Homelab (rastreador de serviços) com especificações, tarefas e ciclos de desenvolvimento guiados. Na experiência com um GX10 usando Qwen3.6‑35B‑A3B‑FP8, o agente cria planos, pede permissões (loop humano) e às vezes travou exigindo comandos "continue", mas acabou construindo e executando a aplicação via Docker Compose na porta 3100, mostrando que fluxos agenticos locais já são viáveis, embora não perfeitos. O teste é prático, não científico, focando na integração de software e hardware e nas limitações atuais visíveis.