Como as gigantes de tecnologia usam atalhos para coletar dados para a IA

A corrida para liderar a IA tornou-se uma caçada desesperada pelos dados digitais necessários para avançar na tecnologia. Para obter esses dados, empresas de tecnologia, incluindo OpenAI, Google e Meta, cortaram caminhos, ignoraram políticas corporativas e debateram sobre contornar a lei, de acordo com uma análise do The New York Times.

Entenda o que são dados sintéticos: Empresas de tecnologia usam a IA para treinar seus modelos
Investindo no marketing: TikTok recorre a freiras, veteranos e fazendeiros enquanto enfrenta risco de ser banido nos EUA

Na Meta, que possui o Facebook e o Instagram, gerentes, advogados e engenheiros discutiram no ano passado a compra da editora Simon & Schuster para obter obras longas, segundo gravações de reuniões internas obtidas pelo Times.

Eles também conferiram a obtenção de dados protegidos por direitos autorais em toda a internet, mesmo que isso significasse enfrentar processos judiciais. Negociar licenças com editoras, artistas, músicos e a indústria de notícias levaria muito tempo, eles disseram.

Assim como a OpenAI, o Google transcreveu vídeos do YouTube para colher texto para seus modelos de IA, disseram cinco pessoas com conhecimento das práticas da empresa. Isso potencialmente violou os direitos autorais dos vídeos, que pertencem a seus criadores.

No ano passado, o Google também ampliou seus termos de serviço. Uma motivação para a mudança, segundo membros da equipe de privacidade da empresa e uma mensagem interna vista pelo Times, foi permitir que o Google pudesse acessar publicamente os documentos do Google, avaliações de restaurantes no Google Maps e outros materiais on-line para mais de seus produtos de IA.

Conheça a nova aposta da IA: 'Influenciadores' virtuais mais reais que os humanos

As ações das empresas ilustram como as informações online - notícias, obras fictícias, postagens em fóruns, artigos da Wikipedia, programas de computador, fotos, podcasts e trechos de filmes - se tornaram cada vez mais o combustível da próspera indústria de IA.

Criar sistemas inovadores depende de ter dados suficientes para ensinar as tecnologias a produzir instantaneamente texto, imagens, sons e vídeos que se assemelham ao que um humano cria.

O volume de dados é crucial. Os principais sistemas de chatbot aprenderam a partir de pools de texto digital abrangendo até 3 trilhões de palavras, ou aproximadamente o dobro do número de palavras armazenadas na Biblioteca Bodleian da Universidade de Oxford, que coleciona manuscritos desde 1602.

O jogo dos seis erros da inteligência artificial

O que foi informado ao sistema: imagem hiper-realista retrata um homem tirando uma selfie com os amigos em um cinema lotado. As pessoas assistem a uma comédia e riem muito — Foto: Imagem gerada por Midjourney

No cinema. A figura que segura o celular tem as mãos deformadas — Foto: Imagem gerada por IA/Midjourney

12 fotos

Harmonia: Um maestro conduz uma orquestra, rege com energia, a câmera está de costas para o maestro, os músicos estão de frente para a câmera, ele toca a Nona Sinfonia de Beethoven - Foto: imagem gerada por IA/Midjourney

4 de 12
Regência. A imagem exibe mão direita do maestro com dedo alongado. E a batuta se assemelha a um arco de violino — Foto: Imagem gerada por IA/Midjourney

5 de 12
O que foi informado ao sistema de inteligência artificial: imagem exibe uma pessoa com os braços cruzados, não foi solicitado que aparecesse o rosto - foto: imagem criada por IA/Midjourney

6 de 12
Em excesso. Imagem gerada por inteligência artificial mostra uma pessoa com mais um braço — Foto: Imagem gerada por IA/Midjourney

7 de 12
Alegria: Uma criança sorri imensamente feliz e até grita de boca aberta de tanta felicidade quando recebe um presente. Esta imagem serve como uma prova do poder da felicidade — Foto: Imagem gerada por IA/Midjourney

8 de 12
Sorriso assustador. O dente da criança que recebe o presente se confunde com a gengiva — Foto: Imagem gerada por IA/Midjourney

9 de 12
Dueto inusitado: Produção exibe a cantora brasileira Anitta cantando com o líder do Coldplay, Crhis Martin, dançando e cantando no palco, com luz de neon — Foto: Imagem gerada por IA/Midjourney

10 de 12
Atenção ao vocalista. A mão direita do cantor Chris Martin aparece com seis dedos — Foto: Imagem gerada por IA/Midjourney

11 de 12
Apreciando a vista. Um grupo de capivaras com a cidade do Rio de Janeiro ao fundo, em um dia de garoa, imagem no estilo de publicações voltadas para a vida animal — Foto: Imagem gerada por IA/Midjourney

12 de 12
É esse animal mesmo? Capivara aparece de rabo e mais parece um rato — Foto: Imagem gerada por IA/Midjourney

Os erros da IA

Os dados mais valorizados, disseram os pesquisadores de IA, são informações de alta qualidade, como livros e artigos publicados, que foram cuidadosamente escritos e editados por profissionais.

Gentileza: Saiba por que (e por que não) deveríamos dizer 'obrigado' ou 'bom dia' a ferramentas de IA

Por anos, a internet - com sites como Wikipedia e Reddit - era uma fonte aparentemente inesgotável de dados. Mas à medida que a IA avançava, as empresas de tecnologia buscavam mais repositórios. Google e Meta, que têm bilhões de usuários que produzem consultas de pesquisa e postagens em redes sociais todos os dias, eram amplamente limitados por leis de privacidade e suas próprias políticas de aproveitar grande parte desse conteúdo para IA.

A situação deles é urgente. As empresas poderiam esgotar os dados de alta qualidade na internet já em 2026, segundo o Epoch, um instituto de pesquisa. As empresas estão usando os dados mais rápido do que estão sendo produzidos.

— O único meio prático para essas ferramentas existirem é se elas puderem ser treinadas em enormes quantidades de dados sem precisar licenciar esses dados — disse Sy Damle, advogado que representa a Andreessen Horowitz, uma empresa de capital de risco do Vale do Silício, sobre modelos de IA no ano passado em uma discussão pública sobre direitos autorais.

Inteligência Artificial:

Música, filmes, livros e artes visuais: Entenda como a inteligência artificial vai impactar o trabalho de criadores
Marcha da IA: Conheça cinco das maiores inovações de inteligência artificial de 2023
Inteligência artificial vai afetar quase 40% dos empregos, diz FMI
Enquanto a IA voa, a regulação caminha lentamente. Veja os 17 pontos mais discutidos
Dora Kaufman: ‘A criatividade ainda é um atributo humano’, diz pesquisadora de inteligência artificial

As empresas estão tão ávidas por novos dados que algumas estão desenvolvendo informações "sintéticas". Estes não são dados orgânicos criados por humanos, mas texto, imagens e código que os modelos de IA produzem - em outras palavras, os sistemas aprendem com o que eles próprios geram.

Sora: Treinamento do IA de vídeo com YouTube violaria regras da plataforma, afirma CEO

A OpenAI disse que cada um de seus modelos de IA "tem um conjunto de dados único que curamos para ajudar em sua compreensão do mundo e permanecer competitivo globalmente em pesquisa".

O Google disse que seus modelos de IA "são treinados em algum conteúdo do YouTube", o que era permitido sob acordos com os criadores do YouTube, e que a empresa não usava dados de aplicativos de escritório fora de um programa experimental.

A Meta disse que havia "feito investimentos agressivos" para integrar IA em seus serviços e tinha bilhões de imagens e vídeos publicamente compartilhados do Instagram e do Facebook para treinar seus modelos.

Meta: Empresa identificará em suas redes sociais áudios, imagens e vídeos gerados por IA

Para os criadores, o aumento do uso de suas obras por empresas de IA tem gerado processos por direitos autorais e licenciamento. O New York Times processou a OpenAI e a Microsoft no ano passado por usar artigos de notícias protegidos por direitos autorais sem permissão para treinar chatbots de IA.

A OpenAI e a Microsoft disseram que usar os artigos era "uso justo", ou permitido pela lei de direitos autorais, porque transformaram as obras para um propósito diferente.

Dados sintéticos

Sam Altman, da OpenAI, tinha um plano para lidar com a iminente escassez de dados.

Empresas como a dele, ele disse na conferência de maio, eventualmente treinariam sua IA em texto gerado por IA - também conhecido como dados sintéticos.

Aventura no espaço: Nasa contrata três empresas para desenvolver veículos para astronautas andarem na Lua

Como um modelo de IA pode produzir texto semelhante ao humano, Altman e outros argumentaram que os sistemas podem criar dados adicionais para desenvolver versões melhores de si mesmos. Isso ajudaria os desenvolvedores a construir tecnologia cada vez mais poderosa e reduzir sua dependência de dados protegidos por direitos autorais.

— Desde que você consiga superar o horizonte de eventos de dados sintéticos, onde o modelo é inteligente o suficiente para gerar bons dados sintéticos, tudo ficará bem — disse Altman.

Pesquisadores de IA exploraram dados sintéticos há anos. Mas construir um sistema de IA que possa se treinar sozinho é mais fácil dizer do que fazer. Modelos de IA que aprendem com suas próprias saídas podem ficar presos em um ciclo onde reforçam suas próprias peculiaridades, erros e limitações.

Webstories

Mais recente Próxima TikTok recorre a freiras, veteranos e fazendeiros enquanto enfrenta risco de ser banido nos EUA

Tecnologia

Como as gigantes de tecnologia usam atalhos para coletar dados para a IA

Na corrida para alimentar modelos de linguagem, empresas cortam caminho e ignoram políticas corporativas

O jogo dos seis erros da inteligência artificial

Inteligência Artificial:

Dados sintéticos

'Renascer': ao saber que Eliana está grávida, Egídio toma decisão importante

Duas Linhas e Meia (12-07-2024)

Polícia Civil pede ao MP que Regina Gonçalves seja cuidada por parentes e solicita distanciamento entre socialite e motorista

Ancião sagrado: manto Tupinambá, que foi devolvido ao Brasil pela Dinamarca, 'pediu' para ser trazido de volta; entenda

Mais de 60 estão desaparecidos após deslizamento de terra arrastar ônibus no Nepal; vídeos

Coreia do Sul vai usar lasers 'Star Wars' contra drones norte-coreanos

Casal acusado de espionar para a Rússia é detido na Austrália

Criciúma x Fluminense: Intensidade na reta final aponta caminho para reação no campeonato; leia análise

Médico que ficou oito anos sem tomar banho revela efeitos no corpo; entenda

Mulher cai 150 metros e morre após roupa prender em teleférico, na Itália