techcrunch.com ha 3 dias MD Sandbox

Rodar modelos de IA está se tornando um jogo da memória.

Claude Anthropic Memória RAM Tecnologia

Conteudo

TLDR;

A memória está se tornando crucial nos custos de infraestrutura de IA, com preços de chips DRAM subindo cerca de 7x no último ano, rivalizando a importância das GPUs da Nvidia. O prompt-caching da Anthropic oferece tiers de 5 minutos ou 1 hora para manter prompts em cache, permitindo leituras mais baratas, mas novos dados podem expulsar outros do cache. Empresas que masterizarem a orquestração de memória usarão menos tokens, reduzirão custos de inferência e ganharão vantagem competitiva no mercado de IA.

Resumo

O custo da infraestrutura de IA vai além de GPUs da Nvidia: a memória, especialmente chips DRAM, está se tornando crucial, com preços saltando cerca de 7 vezes no último ano, à medida que hyperscalers investem bilhões em data centers. A orquestração eficiente dessa memória é essencial para entregar dados aos agentes certos no momento ideal, reduzindo o uso de tokens e cortando custos operacionais — o que pode definir a sobrevivência de empresas. Analista Doug O’Laughlin, em entrevista com Val Bercovici, chief AI officer da Weka, no Substack Fabricated Knowledge, destaca essa tendência, focando em hardware, mas com impactos no software de IA. Um exemplo marcante é a documentação de prompt-caching da Anthropic, que evoluiu de simples para um guia complexo sobre compras pré-pagas de cache (janelas de 5 minutos ou 1 hora), com oportunidades de arbitragem em leituras. Gerenciar o cache economiza muito, mas adicionar dados pode expulsar outros. Startups como Tensormesh avançam na otimização de cache, enquanto data centers debatem DRAM versus HBM, e usuários estruturam enxames de modelos para caches compartilhados. Com modelos mais eficientes por token, a inferência barateará, viabilizando novas aplicações. Dominar a memória será o diferencial competitivo no futuro da IA. (198 palavras)