SOTAQUE: Speech-Oriented Training Audio for Quality Understanding and Expression

Sua voz, no dataset aberto do português brasileiro.

Hoje, quando você ouve uma IA falar em português, ela quase sempre soa igual: neutra, sem cor regional. E quando alguém com sotaque caipira, baiano ou nortista tenta usar uma assistente de voz, costuma ser mal compreendido. Os dois problemas têm a mesma raiz: faltam vozes brasileiras diversas nos dados que treinam essas tecnologias. O SOTAQUE existe para mudar isso. Com a sua voz, construímos juntos uma base pública para que sintetizadores de voz, audiobooks, assistentes e transcrições automáticas representem o português brasileiro como ele realmente é falado.

Contribuir com minha voz Sobre o projeto

Representação por estado

Per capita·Contribuições por milhão de habitantes

Vazio

Topo

Toque num estado para ver os detalhes (ou passe o cursor no desktop).

Sua voz tem peso

Modelos de fala em português hoje são ajustados nas mesmas vozes urbanas, jovens, de classe média. Cada contribuição diferente disso é um peso real no resultado final.

Diversidade que a tecnologia ainda não tem

Caipira, baiano, nortista, gaúcho, mineiro, paulistano, carioca. Cada sotaque ausente do dataset são milhões de brasileiros sub-representados nas tecnologias que escutam e falam português.

Aberto para quem quiser usar

Pesquisadores, startups brasileiras, escolas, professores de português para estrangeiros, criadores de conteúdo. Ao contrário dos datasets fechados das big techs, o SOTAQUE é de todos.

Como funciona

1 Grave ou escolha um áudio. Qualquer gravação serve: você falando sobre seu dia, lendo uma notícia, ou um áudio do WhatsApp que você já tinha gravado.
2 Conte um pouco sobre você. Pseudônimo, e-mail, sotaque, região, faixa etária. Leva uns 2 minutos.
3 Confirme o consentimento lendo o Termo de Consentimento e Aviso de Privacidade e marcando as confirmações.
4 Pronto. Sua voz vai ajudar a construir o que pretendemos ser o maior dataset aberto de vozes brasileiras, depois de uma curadoria simples.