SOTAQUE: Speech-Oriented Training Audio for Quality Understanding and Expression

Sobre o Projeto SOTAQUE

O SOTAQUE é uma iniciativa voluntária para construir um dataset aberto de vozes em português brasileiro, com foco na diversidade de sotaques regionais. Inspirado no Mozilla Common Voice, a referência mundial em datasets abertos de voz, e adaptado para a realidade do português do Brasil.

Por que esse projeto?

Boa parte das tecnologias de fala em português hoje foi treinada com vozes em inglês ou em português europeu. O pouco que existe em PT-BR concentra-se em sotaques urbanos do sudeste, especialmente paulistano e carioca. O resultado aparece em dois lados do dia a dia.

Quando uma IA fala em português, ela soa quase sempre igual: padronizada, sem cor regional. Isso limita audiobooks, dublagens automáticas, assistentes de voz e qualquer aplicação que precise de uma voz que pareça realmente brasileira. E quando alguém com sotaque caipira, baiano ou nortista tenta usar essas tecnologias, costuma ser mal compreendido.

O SOTAQUE existe para corrigir esse desequilíbrio, com uma base aberta, diversa e documentada que qualquer pessoa pode usar.

Nossas metas

O Projeto tem duas metas explícitas de coleta:

Meta inicial: 1.000 horas de áudio coletado e curado, suficiente para treinar e avaliar modelos brasileiros pequenos a médios.
Meta final: 10.000 horas, escala em que o dataset passa a ser referência aberta para toda a comunidade de fala em português.

O progresso atual aparece no contador no topo do site.

O que é publicado

As gravações, transcrições e metadados que você autorizar (sotaque declarado, região, faixa etária, gênero, escolaridade) serão publicados no Hugging Face sob a licença CDLA-Permissive-2.0, que permite uso amplo, inclusive comercial, desde que observados os termos. Pesquisadores, startups, escolas e qualquer pessoa interessada podem baixar, usar e redistribuir.

O que não é publicado

Seus dados de contato (como e-mail) e as evidências de consentimento ficam em base separada e nunca aparecem no dataset público. Apenas o pseudônimo público acompanha o áudio.

Quem está por trás

O Projeto é mantido por Fabrício Carraro, autor do best-seller Inteligência Artificial e ChatGPT (Casa do Código) e criador do podcast IA Sob Controle, número 1 do Brasil na categoria Tecnologia no Spotify e no Apple Podcasts. Ele também é responsável pelo tratamento dos dados coletados. Os detalhes formais sobre responsabilidade, direitos e contato estão no Termo de Consentimento e Aviso de Privacidade.

Como participar

Vá para a página Contribuir. Leva uns 2 minutos: você grava (ou escolhe) um áudio, conta um pouco sobre você, marca o consentimento. Pronto.

Contato

Para dúvidas sobre privacidade, exercício de direitos ou revogação de consentimento: contato@fabriciocarraro.com.br.

Quero contribuir Ler o Termo de Consentimento