SOTAQUE: Speech-Oriented Training Audio for Quality Understanding and Expression
Sua voz, no dataset aberto do português brasileiro.
Hoje, quando você ouve uma IA falar em português, ela quase sempre soa igual: neutra, sem cor regional. E quando alguém com sotaque caipira, baiano ou nortista tenta usar uma assistente de voz, costuma ser mal compreendido. Os dois problemas têm a mesma raiz: faltam vozes brasileiras diversas nos dados que treinam essas tecnologias. O SOTAQUE existe para mudar isso. Com a sua voz, construímos juntos uma base pública para que sintetizadores de voz, audiobooks, assistentes e transcrições automáticas representem o português brasileiro como ele realmente é falado.
Sua voz tem peso
Modelos de fala em português hoje são ajustados nas mesmas vozes urbanas, jovens, de classe média. Cada contribuição diferente disso é um peso real no resultado final.
Diversidade que a tecnologia ainda não tem
Caipira, baiano, nortista, gaúcho, mineiro, paulistano, carioca. Cada sotaque ausente do dataset são milhões de brasileiros sub-representados nas tecnologias que escutam e falam português.
Aberto para quem quiser usar
Pesquisadores, startups brasileiras, escolas, professores de português para estrangeiros, criadores de conteúdo. Ao contrário dos datasets fechados das big techs, o SOTAQUE é de todos.
Como funciona
- 1 Grave ou escolha um áudio. Qualquer gravação serve: você falando sobre seu dia, lendo uma notícia, ou um áudio do WhatsApp que você já tinha gravado.
- 2 Conte um pouco sobre você. Pseudônimo, e-mail, sotaque, região, faixa etária. Leva uns 2 minutos.
- 3 Confirme o consentimento lendo o Termo de Consentimento e Aviso de Privacidade e marcando as confirmações.
- 4 Pronto. Sua voz vai ajudar a construir o que pretendemos ser o maior dataset aberto de vozes brasileiras, depois de uma curadoria simples.