10:58
youtube.com 21/05/2026 SRT AI Coder TODAY

CAG vs Long Context: How AI Models Use and Remember Information

Modelos de inteligência artificial: como usam e lembram informações em contextos longos.

Inteligência Artificial Tecnologia Context Engineering RAG

Conteudo

TLDR;

CAG (Cache Augmented Generation) salva as matrizes key/value geradas ao processar documentos para reutilizá-las em inferências posteriores, evitando que o modelo releia todo o contexto a cada consulta. Long context consiste em colocar todos os documentos diretamente na janela de contexto e é mais simples e útil para consultas únicas ou arquivos grandes, enquanto CAG é mais vantajoso para bases de conhecimento estáveis e consultas repetidas por reduzir custo e latência após a pré-computação. As limitações são que long context gera custos altos por token, maior latência e problema de "lost in the middle", e CAG exige que a base caiba na janela e que o cache seja recomputado quando os documentos mudam, embora provedoras ofereçam prompt caching para mitigar custos.

Resumo

O vídeo explica duas abordagens para dar a modelos de linguagem acesso a conhecimento externo: contexto longo e Cache Augmented Generation (CAG), mostrando como se complementam. Contexto longo consiste em colocar todos os documentos diretamente na janela de contexto do modelo — estratégia simples que se torna viável porque janelas têm crescido (GPT-3 ~1k tokens, GPT‑4 Turbo 128k, Gemini 1.5 Pro 2M), mas é cara e lenta porque cada consulta reprocessa todos os tokens, sofre do “lost-in-the-middle” (informações no meio perdem precisão) e cobra por token a cada inferência. CAG resolve isso com um KV cache: ao pré-processar documentos o modelo gera matrizes key/value (memória interna) que são salvas; em inferência, carrega-se o cache e injeta-se a pergunta, acelerando enormemente (10–40x) e reduzindo custo em consultas repetidas, mas exige que todo o conhecimento caiba na janela e requer recálculo do cache quando os dados mudam, o que penaliza bases muito dinâmicas. CAG é ideal para bases estáveis e consultas repetidas (ex.: chatbot de políticas internas). Por fim, provedores oferecem prompt caching (CAG como serviço), gerenciando KV caches e oferecendo leituras em cache com grande desconto (~90%), tornando a técnica prática para desenvolvedores.