Como as gigantes de tecnologia usam atalhos para coletar dados para a IA

Na corrida para alimentar modelos de linguagem, empresas cortam caminho e ignoram políticas corporativas

Por The New York Times — São Francisco, Califórnia


Grandes empresas de tecnologia ignoraram políticas corporativas e debateram sobre contornar a lei na corrida para alimentar modelos de IA Freepik

A corrida para liderar a IA tornou-se uma caçada desesperada pelos dados digitais necessários para avançar na tecnologia. Para obter esses dados, empresas de tecnologia, incluindo OpenAI, Google e Meta, cortaram caminhos, ignoraram políticas corporativas e debateram sobre contornar a lei, de acordo com uma análise do The New York Times.

Na Meta, que possui o Facebook e o Instagram, gerentes, advogados e engenheiros discutiram no ano passado a compra da editora Simon & Schuster para obter obras longas, segundo gravações de reuniões internas obtidas pelo Times.

Eles também conferiram a obtenção de dados protegidos por direitos autorais em toda a internet, mesmo que isso significasse enfrentar processos judiciais. Negociar licenças com editoras, artistas, músicos e a indústria de notícias levaria muito tempo, eles disseram.

Assim como a OpenAI, o Google transcreveu vídeos do YouTube para colher texto para seus modelos de IA, disseram cinco pessoas com conhecimento das práticas da empresa. Isso potencialmente violou os direitos autorais dos vídeos, que pertencem a seus criadores.

No ano passado, o Google também ampliou seus termos de serviço. Uma motivação para a mudança, segundo membros da equipe de privacidade da empresa e uma mensagem interna vista pelo Times, foi permitir que o Google pudesse acessar publicamente os documentos do Google, avaliações de restaurantes no Google Maps e outros materiais on-line para mais de seus produtos de IA.

As ações das empresas ilustram como as informações online - notícias, obras fictícias, postagens em fóruns, artigos da Wikipedia, programas de computador, fotos, podcasts e trechos de filmes - se tornaram cada vez mais o combustível da próspera indústria de IA.

Criar sistemas inovadores depende de ter dados suficientes para ensinar as tecnologias a produzir instantaneamente texto, imagens, sons e vídeos que se assemelham ao que um humano cria.

O volume de dados é crucial. Os principais sistemas de chatbot aprenderam a partir de pools de texto digital abrangendo até 3 trilhões de palavras, ou aproximadamente o dobro do número de palavras armazenadas na Biblioteca Bodleian da Universidade de Oxford, que coleciona manuscritos desde 1602.

O jogo dos seis erros da inteligência artificial

12 fotos
Os erros da IA

Os dados mais valorizados, disseram os pesquisadores de IA, são informações de alta qualidade, como livros e artigos publicados, que foram cuidadosamente escritos e editados por profissionais.

Por anos, a internet - com sites como Wikipedia e Reddit - era uma fonte aparentemente inesgotável de dados. Mas à medida que a IA avançava, as empresas de tecnologia buscavam mais repositórios. Google e Meta, que têm bilhões de usuários que produzem consultas de pesquisa e postagens em redes sociais todos os dias, eram amplamente limitados por leis de privacidade e suas próprias políticas de aproveitar grande parte desse conteúdo para IA.

A situação deles é urgente. As empresas poderiam esgotar os dados de alta qualidade na internet já em 2026, segundo o Epoch, um instituto de pesquisa. As empresas estão usando os dados mais rápido do que estão sendo produzidos.

— O único meio prático para essas ferramentas existirem é se elas puderem ser treinadas em enormes quantidades de dados sem precisar licenciar esses dados — disse Sy Damle, advogado que representa a Andreessen Horowitz, uma empresa de capital de risco do Vale do Silício, sobre modelos de IA no ano passado em uma discussão pública sobre direitos autorais.

As empresas estão tão ávidas por novos dados que algumas estão desenvolvendo informações "sintéticas". Estes não são dados orgânicos criados por humanos, mas texto, imagens e código que os modelos de IA produzem - em outras palavras, os sistemas aprendem com o que eles próprios geram.

A OpenAI disse que cada um de seus modelos de IA "tem um conjunto de dados único que curamos para ajudar em sua compreensão do mundo e permanecer competitivo globalmente em pesquisa".

O Google disse que seus modelos de IA "são treinados em algum conteúdo do YouTube", o que era permitido sob acordos com os criadores do YouTube, e que a empresa não usava dados de aplicativos de escritório fora de um programa experimental.

A Meta disse que havia "feito investimentos agressivos" para integrar IA em seus serviços e tinha bilhões de imagens e vídeos publicamente compartilhados do Instagram e do Facebook para treinar seus modelos.

Para os criadores, o aumento do uso de suas obras por empresas de IA tem gerado processos por direitos autorais e licenciamento. O New York Times processou a OpenAI e a Microsoft no ano passado por usar artigos de notícias protegidos por direitos autorais sem permissão para treinar chatbots de IA.

A OpenAI e a Microsoft disseram que usar os artigos era "uso justo", ou permitido pela lei de direitos autorais, porque transformaram as obras para um propósito diferente.

Dados sintéticos

Sam Altman, da OpenAI, tinha um plano para lidar com a iminente escassez de dados.

Empresas como a dele, ele disse na conferência de maio, eventualmente treinariam sua IA em texto gerado por IA - também conhecido como dados sintéticos.

Como um modelo de IA pode produzir texto semelhante ao humano, Altman e outros argumentaram que os sistemas podem criar dados adicionais para desenvolver versões melhores de si mesmos. Isso ajudaria os desenvolvedores a construir tecnologia cada vez mais poderosa e reduzir sua dependência de dados protegidos por direitos autorais.

— Desde que você consiga superar o horizonte de eventos de dados sintéticos, onde o modelo é inteligente o suficiente para gerar bons dados sintéticos, tudo ficará bem — disse Altman.

Pesquisadores de IA exploraram dados sintéticos há anos. Mas construir um sistema de IA que possa se treinar sozinho é mais fácil dizer do que fazer. Modelos de IA que aprendem com suas próprias saídas podem ficar presos em um ciclo onde reforçam suas próprias peculiaridades, erros e limitações.

Mais recente Próxima TikTok recorre a freiras, veteranos e fazendeiros enquanto enfrenta risco de ser banido nos EUA