Missions: Multi-Agent Systems That Ship for Days — Luke Alvoeiro, Factory
Sistemas multiagente que funcionam por dias: o futuro da inteligência artificial.
Conteudo
TLDR;
Missions é um sistema que combina delegação, criador‑verificador, broadcast e negociação para orquestrar equipes de agentes que executam planos de software por horas ou dias, permitindo que humanos descrevam metas, aprovem planos e deixem o sistema executar. A arquitetura de três papéis (orquestrador, workers e validadores) faz o orquestrador planejar e criar contratos de validação, os workers implementarem features com contexto limpo e os validadores verificarem código e comportamento. A correção e prevenção de drift vêm do contrato de validação escrito durante o planejamento — com assertivas de correção independentes da implementação — e das validações de scrutiny e user testing que checam testes, code review e fluxos end‑to‑end.
Resumo
Luke apresenta um método para montar equipes de agentes capazes de executar tarefas muito mais complexas do que um agente único, partindo da experiência com Goose e seu trabalho na Factory. Ele afirma que o gargalo do desenvolvimento de software hoje é a atenção humana, não a inteligência dos modelos, e propõe uma taxonomia de cinco arquiteturas multiagente: delegação, criador-verificador, comunicação direta, negociação e broadcast. A solução que descreve, chamada missions, combina delegação, criador-verificador, broadcast e negociação num fluxo que permite sistemas autônomos rodarem por horas ou dias. Missions emprega três papéis: orquestrador, que planeja, esclarece requisitos e gera um plano com recursos, marcos e um contrato de validação que define o “feito” antes de qualquer implementação; workers, que recebem tarefas com contexto limpo, implementam e fazem commits; e validators, responsáveis por verificação. A validação difere do modelo tradicional porque inclui testes de comportamento end-to-end, evitando deriva causada por testes escritos após a implementação. Validators executam verificação tradicional (lints, testes, revisões) e testes de usuário que interagem com a aplicação para garantir fluxos funcionais. Com isso, missions libera a atenção humana para decisões estratégicas enquanto mantém coerência e qualidade, e reduz custos operacionais ao ampliar produtividade dos times de desenvolvimento.