Your local LLM is 10x slower than it should be
Por Alex Ziskind
Conteudo
TLDR;
[Erro ao processar: Provider 'symgateway' is not supported.]
Resumo
O vídeo demonstra técnicas para otimizar o desempenho do Llama.cpp em máquinas Apple Silicon, como o Mac Studio, visando alto throughput para aplicações como assistentes de código e agentes de IA. Começa comparando Ollama (100 tokens/segundo) com Llama Server (124 tokens/segundo) em chats simples, evoluindo para consultas remotas via script que alcançam 120 tokens/segundo em uma única requisição e até 826 tokens/segundo com 128 concorrências otimizadas. O apresentador lança um script personalizado inspirado em ferramentas distribuídas, chamado "Llama Throughput Lab", que testa configurações variando instâncias múltiplas de Llama Server (explorando memória unificada de até 512 GB), parâmetro "parallel" e concorrência, superando limitações de GPU sem sobrecarregar CPU. Testes incluem requisições únicas (127 tokens/s), concorrentes (240 tokens/s) e varredura completa de 308 combinações para encontrar o ideal. Enfatiza aplicações reais: análise em lote de imagens/vídeos ou orquestração de múltiplos agentes, evitando esperas em cenários de produção. Há um anúncio patrocinado do TryHackMe Cybersecurity 101, curso hands-on para iniciantes em cibersegurança. O repositório documenta tudo para desenvolvedores explorarem hardware variado (Mac, Windows, Linux, NVIDIA). (198 palavras)