
Materiais protegidos por direitos autorais também vêm sendo usados indiscriminadamente no treinamento de IA
Edição Scriptum com Estação do Autor e Estadão
Na era da Inteligência Artificial, o desafio é equilibrar o avanço da tecnologia com o uso de conteúdos protegidos que hoje envolve disputas jurídicas.
A IA generativa, como o ChatGPT, usa textos, imagens, vídeos, músicas e quaisquer outros conteúdos da internet como insumo para o treinamento de modelos. O problema é que materiais protegidos por direitos autorais também vêm sendo usados indiscriminadamente no treinamento de IA. E esse virou um ponto fundamental para o avanço de sistemas sofisticados no País. Reportagem de Henrique Sampaio para o Estadão (assinantes) traz mais detalhes sobre o assunto.
Segundo Diogo Cortiz, professor da PUC-SP e pesquisador no NIC.br, as big techs invocam o princípio do fair use (o uso justo), alegando que os conteúdos protegidos não são copiados, mas usados como base para processos transformativos.
Um dos que defendem essa tese é Sam Altman, CEO da OpenAI, criadora do ChatGPT. Ele afirma que o objetivo da empresa não é replicar conteúdos existentes, mas gerar textos novos com base nos padrões aprendidos durante o treinamento.
O Google manifestou posição semelhante, afirmando que regras de copyright, privacidade e patentes podem dificultar o acesso necessário a dados para treinar modelos de ponta. Para a empresa, políticas de uso justo e exceções para mineração de dados têm sido “críticas” para viabilizar o treinamento de IA com material público, sem prejudicar significativamente os detentores dos direitos e evitando negociações com os proprietários de dados durante o desenvolvimento científico e tecnológico.
Na prática, no entanto, o método levanta questões urgentes sobre competição desleal entre conteúdos gerados por IA e criações humanas originais, como textos jornalísticos, obras literárias ou ilustrações.
No Brasil, a Associação Nacional de Jornais (ANJ) tem acompanhado de perto os impactos sobre os direitos autorais e a sustentabilidade do jornalismo profissional. Para Marcelo Rech, presidente executivo da entidade, os grandes modelos de linguagem trazem benefícios, mas também desafios significativos. Ele aponta para o problema da apropriação indevida de conteúdos jornalísticos usados sem autorização para treinar sistemas de IA.
Dora Kaufman, pesquisadora dos impactos sociais da IA e professora da PUC-SP, ressalta que a maior parte dos sistemas generativos hoje é treinada com dados disponíveis livremente na internet, sem que se saiba quais textos, imagens ou músicas foram usados. Nesses casos, a remuneração dos autores se torna impraticável. A pesquisadora acredita que uma alternativa viável é o licenciamento explícito de bases de dados previamente definidas, como já ocorre em acordos firmados com gravadoras e veículos de imprensa.