Tecnologia
PUBLICIDADE

Por The New York Times — São Francisco, Califórnia

A corrida para liderar a IA tornou-se uma caçada desesperada pelos dados digitais necessários para avançar na tecnologia. Para obter esses dados, empresas de tecnologia, incluindo OpenAI, Google e Meta, cortaram caminhos, ignoraram políticas corporativas e debateram sobre contornar a lei, de acordo com uma análise do The New York Times.

Na Meta, que possui o Facebook e o Instagram, gerentes, advogados e engenheiros discutiram no ano passado a compra da editora Simon & Schuster para obter obras longas, segundo gravações de reuniões internas obtidas pelo Times.

Eles também conferiram a obtenção de dados protegidos por direitos autorais em toda a internet, mesmo que isso significasse enfrentar processos judiciais. Negociar licenças com editoras, artistas, músicos e a indústria de notícias levaria muito tempo, eles disseram.

Assim como a OpenAI, o Google transcreveu vídeos do YouTube para colher texto para seus modelos de IA, disseram cinco pessoas com conhecimento das práticas da empresa. Isso potencialmente violou os direitos autorais dos vídeos, que pertencem a seus criadores.

No ano passado, o Google também ampliou seus termos de serviço. Uma motivação para a mudança, segundo membros da equipe de privacidade da empresa e uma mensagem interna vista pelo Times, foi permitir que o Google pudesse acessar publicamente os documentos do Google, avaliações de restaurantes no Google Maps e outros materiais on-line para mais de seus produtos de IA.

As ações das empresas ilustram como as informações online - notícias, obras fictícias, postagens em fóruns, artigos da Wikipedia, programas de computador, fotos, podcasts e trechos de filmes - se tornaram cada vez mais o combustível da próspera indústria de IA.

Criar sistemas inovadores depende de ter dados suficientes para ensinar as tecnologias a produzir instantaneamente texto, imagens, sons e vídeos que se assemelham ao que um humano cria.

O volume de dados é crucial. Os principais sistemas de chatbot aprenderam a partir de pools de texto digital abrangendo até 3 trilhões de palavras, ou aproximadamente o dobro do número de palavras armazenadas na Biblioteca Bodleian da Universidade de Oxford, que coleciona manuscritos desde 1602.

Os dados mais valorizados, disseram os pesquisadores de IA, são informações de alta qualidade, como livros e artigos publicados, que foram cuidadosamente escritos e editados por profissionais.

Por anos, a internet - com sites como Wikipedia e Reddit - era uma fonte aparentemente inesgotável de dados. Mas à medida que a IA avançava, as empresas de tecnologia buscavam mais repositórios. Google e Meta, que têm bilhões de usuários que produzem consultas de pesquisa e postagens em redes sociais todos os dias, eram amplamente limitados por leis de privacidade e suas próprias políticas de aproveitar grande parte desse conteúdo para IA.

A situação deles é urgente. As empresas poderiam esgotar os dados de alta qualidade na internet já em 2026, segundo o Epoch, um instituto de pesquisa. As empresas estão usando os dados mais rápido do que estão sendo produzidos.

— O único meio prático para essas ferramentas existirem é se elas puderem ser treinadas em enormes quantidades de dados sem precisar licenciar esses dados — disse Sy Damle, advogado que representa a Andreessen Horowitz, uma empresa de capital de risco do Vale do Silício, sobre modelos de IA no ano passado em uma discussão pública sobre direitos autorais.

As empresas estão tão ávidas por novos dados que algumas estão desenvolvendo informações "sintéticas". Estes não são dados orgânicos criados por humanos, mas texto, imagens e código que os modelos de IA produzem - em outras palavras, os sistemas aprendem com o que eles próprios geram.

A OpenAI disse que cada um de seus modelos de IA "tem um conjunto de dados único que curamos para ajudar em sua compreensão do mundo e permanecer competitivo globalmente em pesquisa".

O Google disse que seus modelos de IA "são treinados em algum conteúdo do YouTube", o que era permitido sob acordos com os criadores do YouTube, e que a empresa não usava dados de aplicativos de escritório fora de um programa experimental.

A Meta disse que havia "feito investimentos agressivos" para integrar IA em seus serviços e tinha bilhões de imagens e vídeos publicamente compartilhados do Instagram e do Facebook para treinar seus modelos.

Para os criadores, o aumento do uso de suas obras por empresas de IA tem gerado processos por direitos autorais e licenciamento. O New York Times processou a OpenAI e a Microsoft no ano passado por usar artigos de notícias protegidos por direitos autorais sem permissão para treinar chatbots de IA.

A OpenAI e a Microsoft disseram que usar os artigos era "uso justo", ou permitido pela lei de direitos autorais, porque transformaram as obras para um propósito diferente.

Dados sintéticos

Sam Altman, da OpenAI, tinha um plano para lidar com a iminente escassez de dados.

Empresas como a dele, ele disse na conferência de maio, eventualmente treinariam sua IA em texto gerado por IA - também conhecido como dados sintéticos.

Como um modelo de IA pode produzir texto semelhante ao humano, Altman e outros argumentaram que os sistemas podem criar dados adicionais para desenvolver versões melhores de si mesmos. Isso ajudaria os desenvolvedores a construir tecnologia cada vez mais poderosa e reduzir sua dependência de dados protegidos por direitos autorais.

— Desde que você consiga superar o horizonte de eventos de dados sintéticos, onde o modelo é inteligente o suficiente para gerar bons dados sintéticos, tudo ficará bem — disse Altman.

Pesquisadores de IA exploraram dados sintéticos há anos. Mas construir um sistema de IA que possa se treinar sozinho é mais fácil dizer do que fazer. Modelos de IA que aprendem com suas próprias saídas podem ficar presos em um ciclo onde reforçam suas próprias peculiaridades, erros e limitações.

Webstories
Mais recente Próxima TikTok recorre a freiras, veteranos e fazendeiros enquanto enfrenta risco de ser banido nos EUA
Mais do Globo

Agenda

Idosa vive uma disputa judicial entre o marido e a família, que o acusa de violência doméstica e patrimonial

Polícia Civil pede ao MP que Regina Gonçalves seja cuidada por parentes e solicita distanciamento entre socialite e motorista

Herança dos povos que habitavam a costa do Brasil na época do descobrimento, peça deve ser exposta ao público pelo Museu Nacional em agosto

Ancião sagrado: manto Tupinambá, que foi devolvido ao Brasil pela Dinamarca, 'pediu' para ser trazido de volta; entenda

Três dos 66 passageiros dos dois veículos conseguiram escapar antes que eles caíssem no rio Trishuli

Mais de 60 estão desaparecidos após deslizamento de terra arrastar ônibus no Nepal; vídeos

Armas são invisíveis e silenciosas; relação entre países está cada vez mais tensa

Coreia do Sul vai usar lasers 'Star Wars' contra drones norte-coreanos

Homem e mulher são acusados de tentar enviar informações sigilosas para Moscou; eles podem enfrentar até 15 anos de prisão

Casal acusado de espionar para a Rússia é detido na Austrália

Time ficará uma rodada sem jogar e pode aproveitar período para se adaptar melhor às ideias de Mano Menezes

Criciúma x Fluminense: Intensidade na reta final aponta caminho para reação no campeonato; leia análise

Pesquisador da Universidade de Yale publicou vários livros comentando seus avanços e descobertas ao longo desses anos

Médico que ficou oito anos sem tomar banho revela efeitos no corpo; entenda

O incidente ocorreu nos Alpes italianos; a vítima, de 41 anos, estava de férias com sua família

Mulher cai 150 metros e morre após roupa prender em teleférico, na Itália