A corrida para liderar a IA tornou-se uma caçada desesperada pelos dados digitais necessários para avançar na tecnologia. Para obter esses dados, empresas de tecnologia, incluindo OpenAI, Google e Meta, cortaram caminhos, ignoraram políticas corporativas e debateram sobre contornar a lei, de acordo com uma análise do The New York Times.
- Entenda o que são dados sintéticos: Empresas de tecnologia usam a IA para treinar seus modelos
- Investindo no marketing: TikTok recorre a freiras, veteranos e fazendeiros enquanto enfrenta risco de ser banido nos EUA
Na Meta, que possui o Facebook e o Instagram, gerentes, advogados e engenheiros discutiram no ano passado a compra da editora Simon & Schuster para obter obras longas, segundo gravações de reuniões internas obtidas pelo Times.
Eles também conferiram a obtenção de dados protegidos por direitos autorais em toda a internet, mesmo que isso significasse enfrentar processos judiciais. Negociar licenças com editoras, artistas, músicos e a indústria de notícias levaria muito tempo, eles disseram.
Assim como a OpenAI, o Google transcreveu vídeos do YouTube para colher texto para seus modelos de IA, disseram cinco pessoas com conhecimento das práticas da empresa. Isso potencialmente violou os direitos autorais dos vídeos, que pertencem a seus criadores.
No ano passado, o Google também ampliou seus termos de serviço. Uma motivação para a mudança, segundo membros da equipe de privacidade da empresa e uma mensagem interna vista pelo Times, foi permitir que o Google pudesse acessar publicamente os documentos do Google, avaliações de restaurantes no Google Maps e outros materiais on-line para mais de seus produtos de IA.
- Conheça a nova aposta da IA: 'Influenciadores' virtuais mais reais que os humanos
As ações das empresas ilustram como as informações online - notícias, obras fictícias, postagens em fóruns, artigos da Wikipedia, programas de computador, fotos, podcasts e trechos de filmes - se tornaram cada vez mais o combustível da próspera indústria de IA.
Criar sistemas inovadores depende de ter dados suficientes para ensinar as tecnologias a produzir instantaneamente texto, imagens, sons e vídeos que se assemelham ao que um humano cria.
O volume de dados é crucial. Os principais sistemas de chatbot aprenderam a partir de pools de texto digital abrangendo até 3 trilhões de palavras, ou aproximadamente o dobro do número de palavras armazenadas na Biblioteca Bodleian da Universidade de Oxford, que coleciona manuscritos desde 1602.
O jogo dos seis erros da inteligência artificial
![O que foi informado ao sistema: imagem hiper-realista retrata um homem tirando uma selfie com os amigos em um cinema lotado. As pessoas assistem a uma comédia e riem muito — Foto: Imagem gerada por Midjourney](https://s2-oglobo.glbimg.com/iMoTPHt3O9ExJUHARME6INKXdCA=/0x0:689x529/648x248/smart/filters:strip_icc()/i.s3.glbimg.com/v1/AUTH_da025474c0c44edd99332dddb09cabe8/internal_photos/bs/2024/O/g/0AfkXETSefvFzCYpVhBw/106073085-ec-credito-imagem-gerada-por-ia-midjourney-prompt-the-hyperrealistic-image-depicts-the-ma.jpg)
![O que foi informado ao sistema: imagem hiper-realista retrata um homem tirando uma selfie com os amigos em um cinema lotado. As pessoas assistem a uma comédia e riem muito — Foto: Imagem gerada por Midjourney](https://s2-oglobo.glbimg.com/TkhlvrytsKlogH0eXZY-fb4mPF0=/689x0/smart/filters:strip_icc()/i.s3.glbimg.com/v1/AUTH_da025474c0c44edd99332dddb09cabe8/internal_photos/bs/2024/O/g/0AfkXETSefvFzCYpVhBw/106073085-ec-credito-imagem-gerada-por-ia-midjourney-prompt-the-hyperrealistic-image-depicts-the-ma.jpg)
O que foi informado ao sistema: imagem hiper-realista retrata um homem tirando uma selfie com os amigos em um cinema lotado. As pessoas assistem a uma comédia e riem muito — Foto: Imagem gerada por Midjourney
![No cinema. A figura que segura o celular tem as mãos deformadas — Foto: Imagem gerada por IA/Midjourney](https://s2-oglobo.glbimg.com/vqNfZeZZF1m0mGH_iEKNrYjqSow=/0x0:1316x915/323x182/smart/filters:strip_icc()/i.s3.glbimg.com/v1/AUTH_da025474c0c44edd99332dddb09cabe8/internal_photos/bs/2024/Q/3/YOLFuJTWuG2HaoaVE25g/106073085-ec-credito-imagem-gerada-por-ia-midjourney-prompt-the-hyperrealistic-image-depicts-the-ma-1-.jpg)
![No cinema. A figura que segura o celular tem as mãos deformadas — Foto: Imagem gerada por IA/Midjourney](https://s2-oglobo.glbimg.com/x-Xn4bu1ktM76c625ZuiKkkWk38=/1316x0/smart/filters:strip_icc()/i.s3.glbimg.com/v1/AUTH_da025474c0c44edd99332dddb09cabe8/internal_photos/bs/2024/Q/3/YOLFuJTWuG2HaoaVE25g/106073085-ec-credito-imagem-gerada-por-ia-midjourney-prompt-the-hyperrealistic-image-depicts-the-ma-1-.jpg)
No cinema. A figura que segura o celular tem as mãos deformadas — Foto: Imagem gerada por IA/Midjourney
Publicidade
![Harmonia: Um maestro conduz uma orquestra, rege com energia, a câmera está de costas para o maestro, os músicos estão de frente para a câmera, ele toca a Nona Sinfonia de Beethoven - Foto: imagem gerada por IA/Midjourney](https://s2-oglobo.glbimg.com/JGn0rzYKl56kvwjd40tgdu83Mr0=/0x0:788x605/323x182/smart/filters:strip_icc()/i.s3.glbimg.com/v1/AUTH_da025474c0c44edd99332dddb09cabe8/internal_photos/bs/2024/w/w/WbJWvdQH6rEcsxxhBhzQ/106073097-ec-credito-imagem-gerada-por-ia-midjourney-prompt-a-conductor-leads-an-orchestra-conducts.jpg)
![Harmonia: Um maestro conduz uma orquestra, rege com energia, a câmera está de costas para o maestro, os músicos estão de frente para a câmera, ele toca a Nona Sinfonia de Beethoven - Foto: imagem gerada por IA/Midjourney](https://s2-oglobo.glbimg.com/jchLBnz4xv3Bk7rLH-0NfAtxGQg=/788x0/smart/filters:strip_icc()/i.s3.glbimg.com/v1/AUTH_da025474c0c44edd99332dddb09cabe8/internal_photos/bs/2024/w/w/WbJWvdQH6rEcsxxhBhzQ/106073097-ec-credito-imagem-gerada-por-ia-midjourney-prompt-a-conductor-leads-an-orchestra-conducts.jpg)
Harmonia: Um maestro conduz uma orquestra, rege com energia, a câmera está de costas para o maestro, os músicos estão de frente para a câmera, ele toca a Nona Sinfonia de Beethoven - Foto: imagem gerada por IA/Midjourney
![Regência. A imagem exibe mão direita do maestro com dedo alongado. E a batuta se assemelha a um arco de violino — Foto: Imagem gerada por IA/Midjourney](https://s2-oglobo.glbimg.com/DZLWWJiGRqcfNaAAtDvy8PaSXFc=/1248x0/smart/filters:strip_icc()/i.s3.glbimg.com/v1/AUTH_da025474c0c44edd99332dddb09cabe8/internal_photos/bs/2024/6/L/arZQ3aSguk4I4UnjeBBg/106073097-ec-credito-imagem-gerada-por-ia-midjourney-prompt-a-conductor-leads-an-orchestra-conducts.jpg)
Regência. A imagem exibe mão direita do maestro com dedo alongado. E a batuta se assemelha a um arco de violino — Foto: Imagem gerada por IA/Midjourney
Publicidade
![O que foi informado ao sistema de inteligência artificial: imagem exibe uma pessoa com os braços cruzados, não foi solicitado que aparecesse o rosto - foto: imagem criada por IA/Midjourney](https://s2-oglobo.glbimg.com/NRKfo0zYSxhP5Tf9WnLMjOQ5qWE=/625x0/smart/filters:strip_icc()/i.s3.glbimg.com/v1/AUTH_da025474c0c44edd99332dddb09cabe8/internal_photos/bs/2024/P/q/XLsEZlQeOQQSVhw7lcwA/106073077-ec-credito-imagem-gerada-por-ia-midjourney.-prompt-with-arms-crosse.jpg)
O que foi informado ao sistema de inteligência artificial: imagem exibe uma pessoa com os braços cruzados, não foi solicitado que aparecesse o rosto - foto: imagem criada por IA/Midjourney
![Em excesso. Imagem gerada por inteligência artificial mostra uma pessoa com mais um braço — Foto: Imagem gerada por IA/Midjourney](https://s2-oglobo.glbimg.com/_03jsUgiFSELbHOApAdOu0Szk3A=/1600x0/smart/filters:strip_icc()/i.s3.glbimg.com/v1/AUTH_da025474c0c44edd99332dddb09cabe8/internal_photos/bs/2024/R/E/2Rz8DUTJA8EZNPyQCoEQ/106073077-ec-credito-imagem-gerada-por-ia-midjourney.-prompt-with-arms-crosse.jpg)
Em excesso. Imagem gerada por inteligência artificial mostra uma pessoa com mais um braço — Foto: Imagem gerada por IA/Midjourney
Publicidade
![Alegria: Uma criança sorri imensamente feliz e até grita de boca aberta de tanta felicidade quando recebe um presente. Esta imagem serve como uma prova do poder da felicidade — Foto: Imagem gerada por IA/Midjourney](https://s2-oglobo.glbimg.com/wI8JxbOb8dcgOdtOZMMMPznBg5I=/1272x0/smart/filters:strip_icc()/i.s3.glbimg.com/v1/AUTH_da025474c0c44edd99332dddb09cabe8/internal_photos/bs/2024/B/8/8rXBM7S5K4mld8A9KYiA/106073063-ec-dente1jpg-credito-imagem-gerada-por-ia-midjourney-prompt-a-child-smiles-immensely-happ.jpg)
Alegria: Uma criança sorri imensamente feliz e até grita de boca aberta de tanta felicidade quando recebe um presente. Esta imagem serve como uma prova do poder da felicidade — Foto: Imagem gerada por IA/Midjourney
![Sorriso assustador. O dente da criança que recebe o presente se confunde com a gengiva — Foto: Imagem gerada por IA/Midjourney](https://s2-oglobo.glbimg.com/AZmP2OoerFUa1c-QQ7A4C8Hrmhw=/1600x0/smart/filters:strip_icc()/i.s3.glbimg.com/v1/AUTH_da025474c0c44edd99332dddb09cabe8/internal_photos/bs/2024/d/t/0mbdcPQcK2iBCko4ATCA/106073063-ec-dente1jpg-credito-imagem-gerada-por-ia-midjourney-prompt-a-child-smiles-immensely-happ-1-.jpg)
Sorriso assustador. O dente da criança que recebe o presente se confunde com a gengiva — Foto: Imagem gerada por IA/Midjourney
Publicidade
![Dueto inusitado: Produção exibe a cantora brasileira Anitta cantando com o líder do Coldplay, Crhis Martin, dançando e cantando no palco, com luz de neon — Foto: Imagem gerada por IA/Midjourney](https://s2-oglobo.glbimg.com/TOHoW1u2hh7JwrU9maiGjOmbbUY=/1000x0/smart/filters:strip_icc()/i.s3.glbimg.com/v1/AUTH_da025474c0c44edd99332dddb09cabe8/internal_photos/bs/2024/i/m/sdP1QyQlCy3MhKLcoJ0g/106073079-ec-credito-imagem-gerada-por-ia-midjourney.-prompt-production-still-of-a-brazilian-singe-1-.jpg)
Dueto inusitado: Produção exibe a cantora brasileira Anitta cantando com o líder do Coldplay, Crhis Martin, dançando e cantando no palco, com luz de neon — Foto: Imagem gerada por IA/Midjourney
![Atenção ao vocalista. A mão direita do cantor Chris Martin aparece com seis dedos — Foto: Imagem gerada por IA/Midjourney](https://s2-oglobo.glbimg.com/BcA_XwDkmnX0bgqhK_35uJQmVEQ=/1600x0/smart/filters:strip_icc()/i.s3.glbimg.com/v1/AUTH_da025474c0c44edd99332dddb09cabe8/internal_photos/bs/2024/n/c/WGBKgDQw67slQEjTU0NQ/106073079-ec-credito-imagem-gerada-por-ia-midjourney.-prompt-production-still-of-a-brazilian-singe.jpg)
Atenção ao vocalista. A mão direita do cantor Chris Martin aparece com seis dedos — Foto: Imagem gerada por IA/Midjourney
Publicidade
![Apreciando a vista. Um grupo de capivaras com a cidade do Rio de Janeiro ao fundo, em um dia de garoa, imagem no estilo de publicações voltadas para a vida animal — Foto: Imagem gerada por IA/Midjourney](https://s2-oglobo.glbimg.com/czI_fBnJgzlc6905ED71t-s7Cw0=/1600x0/smart/filters:strip_icc()/i.s3.glbimg.com/v1/AUTH_da025474c0c44edd99332dddb09cabe8/internal_photos/bs/2024/B/O/bp8KovREqBQ5Pvb5AGjg/106086327-production-still-a-hundred-capybara-the-city-of-rio-de-janeiro-in-the-background-rain-driz.jpg)
Apreciando a vista. Um grupo de capivaras com a cidade do Rio de Janeiro ao fundo, em um dia de garoa, imagem no estilo de publicações voltadas para a vida animal — Foto: Imagem gerada por IA/Midjourney
![É esse animal mesmo? Capivara aparece de rabo e mais parece um rato — Foto: Imagem gerada por IA/Midjourney](https://s2-oglobo.glbimg.com/ijWsS4rwau69tZ3V7M16bPt_YR4=/1304x0/smart/filters:strip_icc()/i.s3.glbimg.com/v1/AUTH_da025474c0c44edd99332dddb09cabe8/internal_photos/bs/2024/k/H/QAJqWJRlyhC5cEASVPCA/106086327-production-still-a-hundred-capybara-the-city-of-rio-de-janeiro-in-the-background-rain-driz-2-.jpg)
É esse animal mesmo? Capivara aparece de rabo e mais parece um rato — Foto: Imagem gerada por IA/Midjourney
Publicidade
Os dados mais valorizados, disseram os pesquisadores de IA, são informações de alta qualidade, como livros e artigos publicados, que foram cuidadosamente escritos e editados por profissionais.
Por anos, a internet - com sites como Wikipedia e Reddit - era uma fonte aparentemente inesgotável de dados. Mas à medida que a IA avançava, as empresas de tecnologia buscavam mais repositórios. Google e Meta, que têm bilhões de usuários que produzem consultas de pesquisa e postagens em redes sociais todos os dias, eram amplamente limitados por leis de privacidade e suas próprias políticas de aproveitar grande parte desse conteúdo para IA.
A situação deles é urgente. As empresas poderiam esgotar os dados de alta qualidade na internet já em 2026, segundo o Epoch, um instituto de pesquisa. As empresas estão usando os dados mais rápido do que estão sendo produzidos.
— O único meio prático para essas ferramentas existirem é se elas puderem ser treinadas em enormes quantidades de dados sem precisar licenciar esses dados — disse Sy Damle, advogado que representa a Andreessen Horowitz, uma empresa de capital de risco do Vale do Silício, sobre modelos de IA no ano passado em uma discussão pública sobre direitos autorais.
Inteligência Artificial:
- Música, filmes, livros e artes visuais: Entenda como a inteligência artificial vai impactar o trabalho de criadores
- Marcha da IA: Conheça cinco das maiores inovações de inteligência artificial de 2023
- Inteligência artificial vai afetar quase 40% dos empregos, diz FMI
- Enquanto a IA voa, a regulação caminha lentamente. Veja os 17 pontos mais discutidos
- Dora Kaufman: ‘A criatividade ainda é um atributo humano’, diz pesquisadora de inteligência artificial
As empresas estão tão ávidas por novos dados que algumas estão desenvolvendo informações "sintéticas". Estes não são dados orgânicos criados por humanos, mas texto, imagens e código que os modelos de IA produzem - em outras palavras, os sistemas aprendem com o que eles próprios geram.
A OpenAI disse que cada um de seus modelos de IA "tem um conjunto de dados único que curamos para ajudar em sua compreensão do mundo e permanecer competitivo globalmente em pesquisa".
O Google disse que seus modelos de IA "são treinados em algum conteúdo do YouTube", o que era permitido sob acordos com os criadores do YouTube, e que a empresa não usava dados de aplicativos de escritório fora de um programa experimental.
A Meta disse que havia "feito investimentos agressivos" para integrar IA em seus serviços e tinha bilhões de imagens e vídeos publicamente compartilhados do Instagram e do Facebook para treinar seus modelos.
Para os criadores, o aumento do uso de suas obras por empresas de IA tem gerado processos por direitos autorais e licenciamento. O New York Times processou a OpenAI e a Microsoft no ano passado por usar artigos de notícias protegidos por direitos autorais sem permissão para treinar chatbots de IA.
A OpenAI e a Microsoft disseram que usar os artigos era "uso justo", ou permitido pela lei de direitos autorais, porque transformaram as obras para um propósito diferente.
Dados sintéticos
Sam Altman, da OpenAI, tinha um plano para lidar com a iminente escassez de dados.
Empresas como a dele, ele disse na conferência de maio, eventualmente treinariam sua IA em texto gerado por IA - também conhecido como dados sintéticos.
Como um modelo de IA pode produzir texto semelhante ao humano, Altman e outros argumentaram que os sistemas podem criar dados adicionais para desenvolver versões melhores de si mesmos. Isso ajudaria os desenvolvedores a construir tecnologia cada vez mais poderosa e reduzir sua dependência de dados protegidos por direitos autorais.
— Desde que você consiga superar o horizonte de eventos de dados sintéticos, onde o modelo é inteligente o suficiente para gerar bons dados sintéticos, tudo ficará bem — disse Altman.
Pesquisadores de IA exploraram dados sintéticos há anos. Mas construir um sistema de IA que possa se treinar sozinho é mais fácil dizer do que fazer. Modelos de IA que aprendem com suas próprias saídas podem ficar presos em um ciclo onde reforçam suas próprias peculiaridades, erros e limitações.