SOTAQUE: Speech-Oriented Training Audio for Quality Understanding and Expression
Sobre o Projeto SOTAQUE
SOTAQUE (Speech-Oriented Training Audio for Quality Understanding and Expression) é uma iniciativa voluntária e open source para construir um dataset aberto de vozes em português do Brasil, com foco na diversidade de sotaques regionais.
Por que esse projeto?
Boa parte dos datasets de fala disponíveis hoje está em inglês ou em variantes europeias do português. Isso limita a qualidade de tecnologias como síntese de voz (TTS), reconhecimento de fala (ASR) e avaliação de modelos quando aplicados ao português brasileiro — especialmente fora dos sotaques mais representados na mídia. O SOTAQUE existe para contribuir com uma base aberta, diversa e documentada para pesquisa, ensino e desenvolvimento.
Como as contribuições são usadas
As gravações, transcrições e metadados permitidos são curados e publicados sob a licença CDLA-Permissive-2.0, que permite uso amplo, inclusive comercial, desde que observados os termos da licença. Os dados podem ser utilizados para treinar, avaliar, comparar e melhorar modelos de fala — incluindo TTS.
Os dados de contato (como e-mail) e as evidências de consentimento ficam em base separada e não são publicados. Somente o pseudônimo público e os metadados permitidos acompanham o áudio no dataset.
Quem está por trás
O Projeto é mantido por Fabrício Carraro, responsável pelos dados do Projeto. Os detalhes formais estão no Termo de Consentimento.
Como participar
Se você tem 18 anos ou mais, está no Brasil e quer doar uma gravação da sua própria voz, acesse a página Contribuir. Leia o termo antes de enviar.
Contato
Para dúvidas sobre privacidade, exercício de direitos ou revogação de consentimento: contato@fabriciocarraro.com.br.