Mistral releases a new open source model for speech generation
Conteudo
TLDR;
Mistral lançou o Voxtral TTS, um modelo de texto para fala open source voltado para assistentes de voz e usos corporativos, como atendimento ao cliente.. O modelo suporta nove idiomas, incluindo português, e foi feito para permitir troca de voz customizada com pouca amostra de áudio e boa preservação de sotaques e entonações.. Ele foi projetado para rodar em tempo real em dispositivos como smartwatches, celulares e laptops, com baixo custo e desempenho competitivo frente a rivais como ElevenLabs, Deepgram e OpenAI.
Resumo
A Mistral, empresa francesa de IA, lançou o Voxtral TTS, um modelo de texto para fala open source voltado para assistentes de voz e aplicações corporativas, como atendimento ao cliente, vendas e engajamento. Com suporte a nove idiomas — incluindo português —, o sistema foi projetado para rodar em dispositivos variados, como smartwatches, smartphones, laptops e outros equipamentos de borda, com baixo custo e desempenho avançado. Segundo a empresa, o modelo consegue adaptar uma voz personalizada com menos de cinco segundos de amostra e reproduzir características sutis, como sotaques, entonações e irregularidades naturais da fala, buscando um som mais humano e menos robótico. Baseado no Ministral 3B, o Voxtral TTS também alterna entre idiomas sem perder a identidade da voz, o que o torna útil para dublagem e tradução em tempo real. Em termos de performance, oferece baixa latência, com tempo de início de áudio de 90 ms e capacidade de gerar um clipe de 10 segundos em cerca de 1,6 segundo. Com isso, a Mistral amplia seu portfólio de voz após lançar modelos de transcrição e mira uma plataforma multimodal completa para empresas, competindo com nomes como ElevenLabs, Deepgram e OpenAI.