SOTAQUE: Speech-Oriented Training Audio for Quality Understanding and Expression
Sobre o Projeto SOTAQUE
O SOTAQUE é uma iniciativa voluntária para construir um dataset aberto de vozes em português brasileiro, com foco na diversidade de sotaques regionais. Inspirado no Mozilla Common Voice, a referência mundial em datasets abertos de voz, e adaptado para a realidade do português do Brasil.
Por que esse projeto?
Boa parte das tecnologias de fala em português hoje foi treinada com vozes em inglês ou em português europeu. O pouco que existe em PT-BR concentra-se em sotaques urbanos do sudeste, especialmente paulistano e carioca. O resultado aparece em dois lados do dia a dia.
Quando uma IA fala em português, ela soa quase sempre igual: padronizada, sem cor regional. Isso limita audiobooks, dublagens automáticas, assistentes de voz e qualquer aplicação que precise de uma voz que pareça realmente brasileira. E quando alguém com sotaque caipira, baiano ou nortista tenta usar essas tecnologias, costuma ser mal compreendido.
O SOTAQUE existe para corrigir esse desequilíbrio, com uma base aberta, diversa e documentada que qualquer pessoa pode usar.
Nossas metas
O Projeto tem duas metas explícitas de coleta:
- Meta inicial: 1.000 horas de áudio coletado e curado, suficiente para treinar e avaliar modelos brasileiros pequenos a médios.
- Meta final: 10.000 horas, escala em que o dataset passa a ser referência aberta para toda a comunidade de fala em português.
O progresso atual aparece no contador no topo do site.
O que é publicado
As gravações, transcrições e metadados que você autorizar (sotaque declarado, região, faixa etária, gênero, escolaridade) serão publicados no Hugging Face sob a licença CDLA-Permissive-2.0, que permite uso amplo, inclusive comercial, desde que observados os termos. Pesquisadores, startups, escolas e qualquer pessoa interessada podem baixar, usar e redistribuir.
O que não é publicado
Seus dados de contato (como e-mail) e as evidências de consentimento ficam em base separada e nunca aparecem no dataset público. Apenas o pseudônimo público acompanha o áudio.
Quem está por trás
O Projeto é mantido por Fabrício Carraro, autor do best-seller Inteligência Artificial e ChatGPT (Casa do Código) e criador do podcast IA Sob Controle, número 1 do Brasil na categoria Tecnologia no Spotify e no Apple Podcasts. Ele também é responsável pelo tratamento dos dados coletados. Os detalhes formais sobre responsabilidade, direitos e contato estão no Termo de Consentimento e Aviso de Privacidade.
Como participar
Vá para a página Contribuir. Leva uns 2 minutos: você grava (ou escolhe) um áudio, conta um pouco sobre você, marca o consentimento. Pronto.
Contato
Para dúvidas sobre privacidade, exercício de direitos ou revogação de consentimento: contato@fabriciocarraro.com.br.