SOTAQUE Contribuir

SOTAQUE: Speech-Oriented Training Audio for Quality Understanding and Expression

Sua voz, no dataset aberto do português brasileiro.

O SOTAQUE é um projeto voluntário e open source para construir uma base pública de vozes em português do Brasil, representando a diversidade de sotaques do país. O resultado é publicado sob licença aberta (CDLA-Permissive-2.0) e pode ser usado para treinar e avaliar tecnologias de fala — como assistentes de voz, síntese de voz e reconhecimento de fala.

Para qualquer brasileiro adulto

A participação é aberta a qualquer pessoa maior de 18 anos, localizada no Brasil, que queira doar uma gravação da própria voz.

Para todos os sotaques

Caipira, gaúcho, nordestino, paulistano, carioca, mineiro, baiano e muitos outros — o projeto só faz sentido com diversidade regional.

Dataset aberto e reutilizável

As gravações e metadados permitidos são publicados sob licença CDLA-Permissive-2.0 e podem ser usados em pesquisa, ensino e tecnologias de fala.

Como funciona

  1. 1 Leia o Termo de Consentimento e Aviso de Privacidade.
  2. 2 Preencha o formulário com pseudônimo, e-mail e algumas informações sobre seu sotaque e sua gravação.
  3. 3 Envie o arquivo de áudio (até 100 MB, formatos comuns como WAV, MP3, FLAC, M4A, OGG).
  4. 4 Marque as confirmações de consentimento e envie. Sua contribuição passa por curadoria antes de entrar no dataset.