Why (Senior) Engineers Struggle to Build AI Agents — Philipp Schmid, Google DeepMind

TLDR;

Porque precisam trocar o paradigma determinístico do software tradicional por um fluxo iterativo onde texto e contexto viram o estado, exigindo entregar controle ao modelo e lidar com comportamentos não determinísticos. É necessário abandonar só unit tests e usar evals que medem taxas de sucesso, usam juízes humanos/LLMs e rastreiam saídas subjetivas para garantir confiabilidade. Mudar práticas de engenharia: tratar erros como inputs, modelar memória/preferências via texto em vez de flags rígidas e desenhar integrações considerando que agentes evoluem independentemente das APIs.

Resumo

Philip, da DeepMind, explica por que engenheiros têm dificuldade em construir agentes comparando o processo tradicional de software (especificação, código, testes, deploy) com um ciclo iterativo de instruções, execução, observação e ajuste de prompts e ferramentas. Ele aponta cinco diferenças-chave: 1) texto é o novo estado — agentes usam texto/contexto (e multimídia) em vez de estruturas de dados rígidas, permitindo entendimento semântico e personalização dinâmica (ex.: preferências de temperatura); 2) é preciso delegar controle — agentes funcionam como despachantes que escolhem como alcançar objetivos, não seguem passos pré-definidos; 3) erros são entradas — falhas no fluxo devem ser tratadas como inputs para continuar sem reiniciar processos longos; 4) testar muda de unit tests para "evals" — agentes são não determinísticos, exigem avaliações probabilísticas, juízes LLMs ou humanos e rastreamento das ações; 5) agentes evoluem enquanto APIs são estáticas — agentes não conhecem contexto histórico do desenvolvedor e demandam desenho, instrumentação e métricas diferentes para garantir confiabilidade em produção. Ele ilustra com exemplos práticos — agente de pesquisa que propõe planos sem estruturas rígidas, preferências regionais (Celsius/Fahrenheit), fluxo de cancelamento de assinatura que pode mudar de intenção — e enfatiza a necessidade de instrumentar, monitorar e ajustar prompts e ferramentas continuamente para alcançar maior robustez e segurança operacional.

Why (Senior) Engineers Struggle to Build AI Agents — Philipp Schmid, Google DeepMind

Conteudo

TLDR;

Resumo

Relacionados

Instalar YouNews

Instalar YouNews