Give Your Chat Agent a Voice — Luke Harries, ElevenLabs
Desenvolver uma voz para agentes de chat é o próximo passo na inteligência artificial com Luke Harries, da ElevenLabs.
Conteudo
TLDR;
A ElevenLabs lançou o Voice Engine, um produto que permite adicionar voz a agentes de chat existentes de forma simples, usando um wrapper via SDK que integra speech-to-text, text-to-speech e turn-taking avançado.. A voz torna as interações mais rápidas, interativas e acessíveis, especialmente para quem tem dificuldades com teclados ou dislexia, além de habilitar canais como chamadas Zoom ou suporte telefônico.. A integração é feita com poucas linhas de código no server SDK e client SDK, proxyando mensagens para o agente de chat atual, e inclui UI components prontos e suporte a telephony.
Resumo
Em uma palestra animada, o palestrante da ElevenLabs destaca 2025 como o ano dos agentes de chat, com empresas como Linear, PostHog e até o gov.uk adotando interfaces de chat como tela inicial, impulsionadas por tool calling e RAG para interações declarativas. No entanto, ele argumenta que o chat é limitado e propõe voz como o meio natural do futuro: mais rápida, interativa, acessível (para disléxicos ou quem evita teclados) e omni-canal, permitindo integrações como Zoom para correções em tempo real ou linhas telefônicas de suporte. Inicialmente focada em TTS de ponta, a ElevenLabs evoluiu para soluções completas, como o suporte ao Revolut. Muitos desenvolvedores já têm agentes de chat prontos e relutam em reconstruí-los, por isso anunciam o "Voice Engine", um preview de produto que lança em semanas: um wrapper simples para qualquer agente existente, combinando STT preciso (Scribe), TTS (V3), turn-taking emocional e semântico, milhares de vozes/idiomas. O SDK server/client é minimalista (poucas linhas de código), inclui widgets UI inspirados em shadcn/Vercel e suporta telefonia/VCs out-of-the-box. Uma demo mostra conversão de agente de chat local para voz via um prompt. Ferramentas de chamada são gerenciadas pelo agente original ou via client/server-side. O palestrante prevê: agentes de chat evoluem para voz ou morrem, convidando parceiros de design. (198 palavras)