sotaque.ia.br 28/04/2026 MD Sandbox

SOTAQUE — Dataset aberto de vozes em português brasileiro

Tecnologia voz ASR

Conteudo

TLDR;

É um dataset público de gravações de vozes em português brasileiro criado para diversificar e melhorar modelos de síntese, transcrição e assistentes de voz. Para contribuir, basta gravar ou enviar um áudio, preencher um breve formulário com pseudônimo, e-mail, sotaque, região e faixa etária, ler e confirmar o Termo de Consentimento e enviar sua contribuição. O conjunto é aberto para uso por pesquisadores, startups, escolas, professores e criadores de conteúdo, com curadoria simples e disponível ao público.

Resumo

SOTAQUE é um projeto que reúne vozes reais do português brasileiro para corrigir a homogeneização das sínteses de fala, que geralmente soam neutras e urbanas e acabam sub-representando sotaques regionais como caipira, baiano, nortista, gaúcho, mineiro, paulistano e carioca. Ao coletar gravações voluntárias e metadados básicos (pseudônimo, e-mail, sotaque, região, faixa etária) e exigir consentimento informado, o SOTAQUE pretende criar o maior dataset aberto de vozes brasileiras, disponível para pesquisadores, startups, escolas, professores de português e criadores de conteúdo. Qualquer pessoa pode contribuir com uma gravação existente ou gravar algo novo — um relato do dia, a leitura de um texto ou um áudio de WhatsApp — e, após uma curadoria simples, a voz passa a integrar a base pública que servirá para treinar sintetizadores, assistentes de voz, audiobooks e sistemas de transcrição automática mais inclusivos e representativos. A iniciativa destaca que cada voz diferente tem peso porque corrige vieses dos modelos atuais e amplia a compreensão e expressão da fala brasileira em tecnologias de fala, promovendo acesso e justiça tecnológica ao tornar ferramentas de voz mais precisas para milhões de brasileiros. O projeto é aberto a todos e enfatiza transparência, responsabilidade ética e uso público sem barreiras comerciais de largo alcance.