SOTAQUE Contribuir

Versão 1.0

Termo de Consentimento e Aviso de Privacidade

SOTAQUE: Speech-Oriented Training Audio for Quality Understanding and Expression

Resumo em linguagem simples

Antes de ler o termo completo, veja os pontos principais:

  • Sua voz, transcrições e parte dos metadados poderão ser publicados em repositórios públicos sob uma licença aberta (CDLA-Permissive-2.0).
  • Suas contribuições poderão ser usadas para treinar, avaliar e melhorar tecnologias de fala, inclusive modelos TTS.
  • Você pode retirar o consentimento para usos futuros sob controle do Projeto, mas isso pode não apagar cópias já redistribuídas nem modelos já treinados.
  • A participação é voluntária, gratuita e restrita a maiores de 18 anos que doem a própria voz e estejam localizados no Brasil no momento da contribuição.

1. Identificação do Projeto e do Controlador

Este documento regula a participação voluntária no Projeto SOTAQUE, iniciativa destinada a coletar contribuições de voz em português brasileiro, curar um dataset aberto e desenvolver, treinar, avaliar e melhorar tecnologias de fala.

Controlador: Fabrício Carraro (pessoa natural)

Canal para privacidade, exercício de direitos e revogação: contato@fabriciocarraro.com.br

Encarregado/DPO: Nos termos da Resolução CD/ANPD nº 2/2022, o controlador enquadra-se como agente de tratamento de pequeno porte, sendo dispensada a nomeação formal de encarregado. Solicitações relacionadas a dados pessoais devem ser dirigidas ao canal acima.

2. Quem pode participar

A participação é restrita a pessoas que atendam cumulativamente aos seguintes requisitos:

  • ter 18 (dezoito) anos completos ou mais;
  • ter capacidade civil para consentir;
  • estar localizada no Brasil no momento da contribuição;
  • contribuir exclusivamente com a própria voz.

Não é aceita a participação de menores de 18 anos em nenhuma hipótese.

A pessoa participante não deve enviar gravações de terceiros, nem áudios contendo dados pessoais de outras pessoas, dados financeiros, senhas ou qualquer conteúdo cujo compartilhamento público possa causar dano.

3. Dados que poderão ser coletados

Conforme o formulário, o fluxo de gravação e a curadoria adotados pelo Projeto, poderão ser coletados:

  • gravações de voz enviadas pela pessoa participante;
  • trechos de leitura, prompts, transcrições e anotações textuais associadas a cada contribuição;
  • metadados linguísticos e demográficos estritamente necessários para os objetivos do dataset, como faixa etária, região de socialização linguística, sotaque declarado e gênero (opcional e autoidentificado);
  • metadados técnicos relativos à gravação, como tipo de dispositivo, tipo de microfone, ambiente de gravação e autoavaliação de qualidade;
  • dados de segurança e governança, como data e hora, identificador da contribuição, versão do termo aceito, endereço IP, navegador, sistema operacional e trilhas de aceite;
  • dados derivados do processamento interno, como anotações de qualidade, segmentação, rotulagem e normalização.

Sempre que possível, os dados de contato e as evidências de consentimento serão mantidos em base separada do dataset público.

4. Finalidades do tratamento e bases legais

4.1. Finalidades baseadas em consentimento

O Projeto adota o consentimento (art. 7º, I e art. 11, I da LGPD) como base legal para as seguintes finalidades:

  • coletar, tratar, curar e documentar as contribuições para formação do dataset;
  • publicar, total ou parcialmente, as gravações, transcrições e metadados permitidos em repositórios públicos ou outros canais definidos pelo Projeto;
  • permitir acesso, download, cópia, redistribuição e reutilização do dataset por terceiros nos termos da licença aplicável;
  • treinar, avaliar, ajustar, comparar, documentar e melhorar tecnologias de fala, inclusive reconhecimento de fala, benchmarks, pesquisa científica, pesquisa educacional e desenvolvimento de produtos compatíveis com a licença e a governança do Projeto.

A natureza deste Projeto pressupõe a aceitação de todas as finalidades essenciais acima para que a contribuição seja recebida. O consentimento é coletado conforme descrito na Seção 12.

4.2. Finalidades baseadas em legítimo interesse

O Projeto adota o legítimo interesse (art. 7º, IX da LGPD) como base legal para as finalidades estritamente necessárias à governança e à segurança do tratamento, que independem do consentimento e subsistem mesmo após eventual revogação:

  • manter prova do consentimento, incluindo versão do termo aceito, data e hora do aceite, identificador da submissão e trilhas de auditoria;
  • prevenir fraude, abuso, envio de conteúdo ilícito e violações de segurança;
  • garantir rastreabilidade, atendimento a direitos de titulares e defesa de direitos do Projeto em processos administrativos ou judiciais.

Esses registros são mantidos pelos prazos indicados na Seção 7, independentemente de revogação do consentimento.

5. Natureza dos dados de voz e riscos específicos

A voz é um dado pessoal. Pela LGPD, dado biométrico vinculado à pessoa natural é dado pessoal sensível. O Projeto não tem como finalidade a autenticação biométrica, a verificação de identidade, a vigilância nem a clonagem personalizada para imitar uma pessoa identificada. O foco é a formação de um dataset aberto e o desenvolvimento de tecnologias de fala.

Riscos residuais que a pessoa participante deve considerar:

  • imitação ou geração de deepfake a partir de características vocais;
  • associação indevida da voz a conteúdos não autorizados;
  • inferências sobre o falante a partir de padrões de fala;
  • reuso por terceiros fora do contexto original do Projeto.

O Projeto compromete-se a não apresentar a base como destinada a imitação de identidade, autenticação biométrica ou vigilância, e a documentar riscos conhecidos, restrições de uso e limites do controle sobre reusos de terceiros. O Projeto não promete anonimato dos áudios quando os próprios arquivos de voz forem publicados.

6. Publicação aberta, destinatários e reuso por terceiros

O Projeto poderá publicar o dataset, total ou parcialmente, em repositórios públicos acessíveis no Brasil e no exterior, sob a licença CDLA-Permissive-2.0.

Os destinatários ou categorias de destinatários podem incluir:

  • equipe do Projeto, operadores, plataformas de hospedagem, provedores de nuvem e prestadores de serviços técnicos;
  • pesquisadores, universidades, empresas, desenvolvedores independentes, organizações da sociedade civil e usuários em geral que acessem o dataset;
  • autoridades públicas, quando exigido por lei ou ordem válida.

Uma vez publicado, o dataset poderá ser copiado, redistribuído, espelhado, combinado com outras bases e incorporado a modelos por terceiros. Esses terceiros poderão tornar-se controladores independentes de seus próprios tratamentos e deverão observar a legislação aplicável.

A publicação aberta na internet pode permitir acesso, cópia e reuso em outras jurisdições. As transferências internacionais sob controle direto do Projeto amparam-se no consentimento da pessoa participante e na natureza pública do dataset.

7. Prazo de retenção

O Projeto adota a seguinte política de retenção, sem prejuízo de prazos maiores quando exigidos por lei ou por defesa de direitos:

  • Dados de contato, prova do consentimento e trilhas de governança: enquanto a contribuição permanecer ativa e, após revogação ou encerramento da participação, por até 5 (cinco) anos, prazo compatível com a prescrição civil geral (art. 206, § 5º do Código Civil).
  • Submissões não publicadas, rejeitadas ou descartadas em curadoria: por até 12 (doze) meses, salvo necessidade de retenção por investigação de fraude, abuso ou incidente de segurança.
  • Dataset publicado nos canais oficiais do Projeto: mantido até remoção dos canais sob controle do Projeto, observados pedidos válidos de revogação e as limitações técnicas relativas a cópias já redistribuídas por terceiros.
  • Logs técnicos e de segurança: por até 12 (doze) meses, salvo extensão proporcional para investigação, auditoria ou resposta a incidente.
  • Backups: mantidos pelo prazo necessário à recuperação de desastre, com sobrescrita cíclica, sem reativação de contribuições revogadas.

8. Direitos da pessoa participante

Nos termos da LGPD, a pessoa participante poderá solicitar, observados os limites legais e técnicos:

  • confirmação da existência de tratamento e acesso aos dados;
  • correção de dados incompletos, inexatos ou desatualizados;
  • informação sobre compartilhamentos, destinatários e transferências internacionais;
  • revogação do consentimento;
  • eliminação, anonimização, bloqueio, restrição ou oposição, quando cabível;
  • portabilidade, quando juridicamente aplicável e tecnicamente viável;
  • reclamação perante a Autoridade Nacional de Proteção de Dados (ANPD).

O Projeto poderá solicitar informações adicionais e proporcionais para confirmar a identidade da pessoa solicitante antes de atender ao pedido, especialmente quando a solicitação envolver retirada de áudio ou exercício de direitos sobre contribuições publicadas.

9. Revogação do consentimento e seus limites

O consentimento poderá ser retirado a qualquer momento, sem afetar a licitude do tratamento realizado antes da retirada, por meio de:

Recebido pedido válido de revogação, o Projeto deverá, na medida do que estiver sob seu controle:

  • cessar novos usos baseados em consentimento;
  • registrar a revogação e bloquear fluxos internos futuros quando cabível;
  • remover ou despublicar a contribuição dos canais próprios quando tecnicamente viável;
  • explicar com clareza as limitações relativas a cópias, forks, caches, backups e modelos já treinados e distribuídos por terceiros.

Limitações importantes: A retirada do consentimento não garante a exclusão total de cópias já redistribuídas por terceiros nem a reversão integral de efeitos produzidos por treinamento de modelos já concluído e fora do controle do Projeto. Os registros necessários à prova do consentimento e à defesa de direitos serão mantidos conforme as Seções 4.2 e 7.

10. Segurança, minimização e governança

O Projeto adotará medidas técnicas e administrativas razoáveis de segurança, incluindo controle de acesso, segregação entre base pública e base de contato, trilhas de auditoria, revisão humana, resposta a incidentes e documentação de processos.

O Projeto observará o princípio da minimização, evitando coletar dados que não sejam necessários para os objetivos do dataset. Metadados de alta granularidade geográfica, identificadores diretos e informações excessivamente sensíveis não serão publicados sem necessidade claramente justificada.

RIPD/DPIA: Dada a natureza potencialmente sensível do tratamento (dados de voz em larga escala), o Projeto compromete-se a elaborar e manter Relatório de Impacto à Proteção de Dados Pessoais (RIPD), com avaliação periódica de riscos, conforme as melhores práticas e a regulamentação da ANPD.

Nenhuma medida de segurança é absoluta. Em caso de incidente relevante, o Projeto avaliará a necessidade de comunicação aos titulares e às autoridades competentes nos termos da legislação aplicável.

11. Encerramento do Projeto

Em caso de encerramento das atividades do Projeto, o dataset já publicado permanecerá disponível nos termos da licença CDLA-Permissive-2.0. Os dados de compliance e governança serão retidos pelos prazos previstos na Seção 7 e, após seu transcurso, eliminados. O Projeto comunicará o encerramento pelos canais disponíveis e indicará, quando possível, um canal temporário para exercício de direitos durante o período de transição.

12. Coleta do consentimento

Ao contribuir, você deverá confirmar, em caixas separadas e não previamente marcadas, sua elegibilidade (Seção 2), a leitura deste termo e o consentimento com cada finalidade descrita na Seção 4.1. A aceitação de todas as finalidades essenciais é condição para que sua contribuição seja recebida. O registro do aceite incluirá a versão do termo, o timestamp e o identificador da submissão.

Dúvidas ou revogação?

Para dúvidas sobre privacidade, exercício de direitos ou revogação de consentimento, escreva para contato@fabriciocarraro.com.br.

Também é possível pedir revogação pelo formulário de revogação.