10:31
youtube.com ontem SRT AI Coder TODAY

Why AI Models Pause to Think: Test Time Compute Explained

Tecnologia LLM AI

Conteudo

TLDR;

Porque o modelo está gastando um orçamento de inferência (test time compute) para gerar tokens de raciocínio antes de emitir a resposta final. Durante essa pausa ele pode produzir cadeia de pensamento, explorar ramos com busca em árvore, rodar múltiplas execuções para auto‑consistência e usar um verificador para escolher o melhor caminho. A técnica melhora a precisão (até fazendo modelos pequenos superarem modelos muito maiores) mas aumenta latência e custo por consulta e pode causar overthinking, por isso normalmente se usa um sistema adaptativo que decide quanto pensar por pedido.

Resumo

O vídeo explica que modelos de linguagem (transformers treinados por predição de próximo token) acumulam conhecimento nas suas pesos através de grande escala de parâmetros e dados — o chamado train-time compute, um custo fixo (CAPEX) que resulta em um único forward pass que vai se comprometendo token a token e pode levar a alucinações. Em contrapartida surge o test-time compute: um orçamento de computação gasto na inferência (OPEX) que permite ao modelo "pensar" antes de emitir a resposta, gerando tokens de raciocínio como um rascunho. Três mecanismos exploram essa ideia: chain-of-thought (explícito por prompt ou aprendido via RL em modelos de raciocínio), busca em árvore com verificador que escolhe ramos promissores, e self-consistency, que executa múltiplas execuções estocásticas e vota pela maioria. Pesquisas (DeepMind, 2024) mostram leis de escala próprias: aumentar computação de inferência melhora desempenho e pode permitir que modelos pequenos superem modelos muito maiores em tarefas difíceis. Os trade-offs incluem maior latência, custo por consulta e risco de "overthinking" que prejudica respostas simples. A solução prática é adaptativa: direcionar consultas fáceis para inferência rápida e as complexas para pipelines de raciocínio, equilibrando eficiência e precisão. Isso transforma a forma como projetamos e operamos sistemas de IA hoje.