A corrida para liderar a IA tornou-se uma caçada desesperada pelos dados digitais necessários para avançar na tecnologia. Para obter esses dados, empresas de tecnologia, incluindo OpenAI, Google e Meta, cortaram caminhos, ignoraram políticas corporativas e debateram sobre contornar a lei, de acordo com uma análise do The New York Times.

Entenda o que são dados sintéticos: Empresas de tecnologia usam a IA para treinar seus modelos
Investindo no marketing: TikTok recorre a freiras, veteranos e fazendeiros enquanto enfrenta risco de ser banido nos EUA

Na Meta, que possui o Facebook e o Instagram, gerentes, advogados e engenheiros discutiram no ano passado a compra da editora Simon & Schuster para obter obras longas, segundo gravações de reuniões internas obtidas pelo Times.

Eles também conferiram a obtenção de dados protegidos por direitos autorais em toda a internet, mesmo que isso significasse enfrentar processos judiciais. Negociar licenças com editoras, artistas, músicos e a indústria de notícias levaria muito tempo, eles disseram.

Assim como a OpenAI, o Google transcreveu vídeos do YouTube para colher texto para seus modelos de IA, disseram cinco pessoas com conhecimento das práticas da empresa. Isso potencialmente violou os direitos autorais dos vídeos, que pertencem a seus criadores.

No ano passado, o Google também ampliou seus termos de serviço. Uma motivação para a mudança, segundo membros da equipe de privacidade da empresa e uma mensagem interna vista pelo Times, foi permitir que o Google pudesse acessar publicamente os documentos do Google, avaliações de restaurantes no Google Maps e outros materiais on-line para mais de seus produtos de IA.

Conheça a nova aposta da IA: 'Influenciadores' virtuais mais reais que os humanos

As ações das empresas ilustram como as informações online - notícias, obras fictícias, postagens em fóruns, artigos da Wikipedia, programas de computador, fotos, podcasts e trechos de filmes - se tornaram cada vez mais o combustível da próspera indústria de IA.

Criar sistemas inovadores depende de ter dados suficientes para ensinar as tecnologias a produzir instantaneamente texto, imagens, sons e vídeos que se assemelham ao que um humano cria.

O volume de dados é crucial. Os principais sistemas de chatbot aprenderam a partir de pools de texto digital abrangendo até 3 trilhões de palavras, ou aproximadamente o dobro do número de palavras armazenadas na Biblioteca Bodleian da Universidade de Oxford, que coleciona manuscritos desde 1602.

O jogo dos seis erros da inteligência artificial

12 fotos

Os erros da IA

Os dados mais valorizados, disseram os pesquisadores de IA, são informações de alta qualidade, como livros e artigos publicados, que foram cuidadosamente escritos e editados por profissionais.

Gentileza: Saiba por que (e por que não) deveríamos dizer 'obrigado' ou 'bom dia' a ferramentas de IA

Por anos, a internet - com sites como Wikipedia e Reddit - era uma fonte aparentemente inesgotável de dados. Mas à medida que a IA avançava, as empresas de tecnologia buscavam mais repositórios. Google e Meta, que têm bilhões de usuários que produzem consultas de pesquisa e postagens em redes sociais todos os dias, eram amplamente limitados por leis de privacidade e suas próprias políticas de aproveitar grande parte desse conteúdo para IA.

A situação deles é urgente. As empresas poderiam esgotar os dados de alta qualidade na internet já em 2026, segundo o Epoch, um instituto de pesquisa. As empresas estão usando os dados mais rápido do que estão sendo produzidos.

— O único meio prático para essas ferramentas existirem é se elas puderem ser treinadas em enormes quantidades de dados sem precisar licenciar esses dados — disse Sy Damle, advogado que representa a Andreessen Horowitz, uma empresa de capital de risco do Vale do Silício, sobre modelos de IA no ano passado em uma discussão pública sobre direitos autorais.

Inteligência Artificial:

Música, filmes, livros e artes visuais: Entenda como a inteligência artificial vai impactar o trabalho de criadores
Marcha da IA: Conheça cinco das maiores inovações de inteligência artificial de 2023
Inteligência artificial vai afetar quase 40% dos empregos, diz FMI
Enquanto a IA voa, a regulação caminha lentamente. Veja os 17 pontos mais discutidos
Dora Kaufman: ‘A criatividade ainda é um atributo humano’, diz pesquisadora de inteligência artificial

As empresas estão tão ávidas por novos dados que algumas estão desenvolvendo informações "sintéticas". Estes não são dados orgânicos criados por humanos, mas texto, imagens e código que os modelos de IA produzem - em outras palavras, os sistemas aprendem com o que eles próprios geram.

Sora: Treinamento do IA de vídeo com YouTube violaria regras da plataforma, afirma CEO

A OpenAI disse que cada um de seus modelos de IA "tem um conjunto de dados único que curamos para ajudar em sua compreensão do mundo e permanecer competitivo globalmente em pesquisa".

O Google disse que seus modelos de IA "são treinados em algum conteúdo do YouTube", o que era permitido sob acordos com os criadores do YouTube, e que a empresa não usava dados de aplicativos de escritório fora de um programa experimental.

A Meta disse que havia "feito investimentos agressivos" para integrar IA em seus serviços e tinha bilhões de imagens e vídeos publicamente compartilhados do Instagram e do Facebook para treinar seus modelos.

Meta: Empresa identificará em suas redes sociais áudios, imagens e vídeos gerados por IA

Para os criadores, o aumento do uso de suas obras por empresas de IA tem gerado processos por direitos autorais e licenciamento. O New York Times processou a OpenAI e a Microsoft no ano passado por usar artigos de notícias protegidos por direitos autorais sem permissão para treinar chatbots de IA.

A OpenAI e a Microsoft disseram que usar os artigos era "uso justo", ou permitido pela lei de direitos autorais, porque transformaram as obras para um propósito diferente.

Dados sintéticos

Sam Altman, da OpenAI, tinha um plano para lidar com a iminente escassez de dados.

Empresas como a dele, ele disse na conferência de maio, eventualmente treinariam sua IA em texto gerado por IA - também conhecido como dados sintéticos.

Aventura no espaço: Nasa contrata três empresas para desenvolver veículos para astronautas andarem na Lua

Como um modelo de IA pode produzir texto semelhante ao humano, Altman e outros argumentaram que os sistemas podem criar dados adicionais para desenvolver versões melhores de si mesmos. Isso ajudaria os desenvolvedores a construir tecnologia cada vez mais poderosa e reduzir sua dependência de dados protegidos por direitos autorais.

— Desde que você consiga superar o horizonte de eventos de dados sintéticos, onde o modelo é inteligente o suficiente para gerar bons dados sintéticos, tudo ficará bem — disse Altman.

Pesquisadores de IA exploraram dados sintéticos há anos. Mas construir um sistema de IA que possa se treinar sozinho é mais fácil dizer do que fazer. Modelos de IA que aprendem com suas próprias saídas podem ficar presos em um ciclo onde reforçam suas próprias peculiaridades, erros e limitações.

Webstories

Tecnologia

Como as gigantes de tecnologia usam atalhos para coletar dados para a IA

Na corrida para alimentar modelos de linguagem, empresas cortam caminho e ignoram políticas corporativas

O jogo dos seis erros da inteligência artificial

Inteligência Artificial:

Dados sintéticos

Duas Linhas e Meia (03-08-2024)

Plano macabro de Egídio, crise de ciúmes... Saiba como será o casamento de Buba e Augusto

Trânsito, calor e logística são problemas para público e profissionais em Paris-2024

Quadro de medalhas das Olimpíadas 2024: veja ranking atualizado

Trump afirma aceitar participar de debate com Kamala Harris

Olimpíadas 2024: Saiba quem é Jade Carey, ginasta que pode surpreender na final do salto

Medalhômetro: veja as chances de medalha do Brasil na programação deste sábado em Paris-2024

Tota Magalhães se prepara para disputar as primeiras Olimpíadas

Olimpíadas: Quanto Rebeca e Biles tiraram nos saltos até o momento; veja

Relembre: Rebeca derrotou Biles no salto do Mundial de 2023, marcado pela queda da americana