Ethernet está MORTA?? Mac Studio é 100 vezes MAIS RÁPIDO!!
Por NetworkChuck
Conteudo
TLDR;
A atualização de software da Apple reduz a latência das conexões Thunderbolt entre Mac Studios, permitindo tensor parallelism em vez de pipeline parallelism, superando os gargalos do Ethernet anterior.. O cluster de quatro Mac Studios M3 Ultra com 2 TB de memória unificada e 320 núcleos GPU é até 100 vezes mais rápido que o setup anterior graças à otimização de networking via Thunderbolt 5 e baixa latência.. A Apple resolveu o problema de networking otimizando o software para latência de cerca de 30 microssegundos no Thunderbolt, tornando o clustering de AI viável e três vezes mais rápido no teste mostrado, com potencial muito maior.
Resumo
O criador do vídeo construiu um novo cluster de supercomputação para IA local com quatro Mac Studios Ultra de ponta, fornecidos pela Apple, totalizando 2 TB de memória unificada, 32 TB de armazenamento e 320 núcleos de GPU — possivelmente o setup mais poderoso já montado localmente, custando US$ 50 mil, contra mais de US$ 780 mil para um equivalente Nvidia H100. Após uma tentativa anterior com cinco Mac Studios M2 Max que foi 91% mais lenta devido à latência de rede em conexões Thunderbolt 4, ele agora usa Thunderbolt 5 (dobro da largura de banda) e Ethernet de alta velocidade para conectar os aparelhos em malha. Uma atualização de software da Apple revolucionou o desempenho, reduzindo a latência de ~300 microssegundos e permitindo trocar o pipeline parallelism (sequencial e lento, como uma corrida de revezamento) pelo tensor parallelism (todas as máquinas processando camadas simultaneamente, triplicando a velocidade de 5 para 15 tokens/segundo em testes iniciais). O objetivo é testar modelos gigantes de IA, como Llama 3.1 405B FP16 (735 GB), para verificar se o clustering local finalmente faz sentido e supera gargalos passados, prometendo respostas rápidas sem depender de nuvens caras.
(Palavras: 198)