25:51
youtube.com 27/04/2026 SRT AI Coder TODAY

I built an 8x NVIDIA GB10 cluster for massive Local AI

Cluster de 8x NVIDIA GB10 impulsiona Inteligência Artificial local de forma massiva

RDMA Tecnologia GPUs Local AI

Conteudo

TLDR;

É um cluster de oito nós NVIDIA GB10 composto por diferentes servidores (Lenovo PGX, NVIDIA DGX, Dell Pro Max, ASUS) com 1 TB de memória, 160 núcleos ARM, alimentação por PDUs e rede RDMA de alta velocidade (200 Gb/s por link) usando switches MicroTik/QSFPDD para interconexão. O sistema foi projetado para rodar modelos gigantes locais, inclusive modelos enormes como Kimmy K2.5 e Quinn 3.5 (397B), além de VLMs pesados. A configuração deixou de ser proibitiva porque ferramentas como OpenCloud/Cloud Code automatizam a criação da infraestrutura, deploy e otimizações de modelo, tornando o principal obstáculo o custo do hardware e questões de segurança ao fornecer credenciais a agentes.

Resumo

O vídeo descreve a montagem de um cluster local de IA com oito nós Nvidia GB10 capaz de rodar modelos gigantes (ex.: Kimmy K2.5, Quinn 3.5 397B), apoiado por 1 TB de memória, rede RDMA de alta velocidade e muitos núcleos ARM; a principal mensagem é que, apesar da complexidade física (cabeamento, PDUs para alimentar cada GB10 via USB-C a ~240 W, switches e cabos QSFP56), ferramentas como OpenCloud/Cloud Code praticamente automatizam toda a configuração — infraestrutura, deploy de VLMs, otimizações de performance, documentação e monitoramento — reduzindo a barreira de entrada ao custo do hardware, embora levantando questões de segurança ao delegar acesso e credenciais a agentes de IA. A montagem usou equipamentos variados adquiridos conforme orçamento (Lenovo PGX, NVIDIA DGX Spark, Dell Pro Max, três Asus GX10), dois switches MicroTik CRS 804 DDQ com portas QSFP-DD que convertem 400 G em dois enlaces de 200 G para conectar as portas PCIe Gen5 x4 às ConnectX-7; recomenda-se padronizar portas (port0/port1) para evitar confusão no software, preferir cabos de cobre quando possível por menor consumo e maior confiabilidade, e considerar alternativas de particionamento em 100 G para escalar mais unidades. O projeto contou com patrocínio da MicroCenter.