Tecnologia
PUBLICIDADE

Por The New York Times — Nova York

OpenAI, Google e outras empresas de tecnologia treinam seus chatbots com enormes quantidades de dados extraídos de livros, artigos da Wikipedia, notícias e outras fontes da internet. Mas, no futuro, elas esperam usar algo chamado de dados sintéticos.

Isso porque as empresas de tecnologia podem esgotar o texto de alta qualidade que a internet tem a oferecer para o desenvolvimento da inteligência artificial. E as empresas estão enfrentando processos de direitos autorais de autores, organizações de notícias e programadores de computador por usarem seus trabalhos sem permissão. Em uma dessas ações, o New York Times processou a OpenAI e a Microsoft.

Eles acreditam que os dados sintéticos ajudarão a reduzir os problemas de direitos autorais e aumentarão o fornecimento de materiais de treinamento necessários para a IA. Veja abaixo o que você deve saber sobre isso.

O que são dados sintéticos?

São dados gerados pela inteligência artificial.

Isso significa que as empresas de tecnologia querem que a IA seja treinada pela IA?

Em vez de treinar modelos de IA com textos escritos por pessoas, empresas de tecnologia como Google, OpenAI e Anthropic esperam treinar sua tecnologia com dados gerados por outros modelos de I.A.

Os dados sintéticos funcionam?

Não exatamente. Os modelos de IA erram e inventam coisas. Eles também demonstraram que captam os vieses que aparecem nos dados da Internet com base nos quais foram treinados. Portanto, se as empresas usam a IA para treinar a IA, elas podem acabar ampliando suas próprias falhas.

Os dados sintéticos estão sendo amplamente utilizados pelas empresas de tecnologia atualmente?

Não. As empresas de tecnologia estão fazendo experiências com eles. Mas, devido às possíveis falhas dos dados sintéticos, eles não são uma grande parte da forma como os sistemas de IA são construídos atualmente.

Então, por que as empresas de tecnologia dizem que os dados sintéticos são o futuro?

As empresas acreditam que podem refinar a forma como os dados sintéticos são criados. A OpenAI e outras empresas exploraram uma técnica em que dois modelos diferentes de IA trabalham juntos para gerar dados sintéticos mais úteis e confiáveis.

Um modelo de IA gera os dados. Em seguida, um segundo modelo julga os dados, da mesma forma que um ser humano faria, decidindo se os dados são bons ou ruins, precisos ou não. Os modelos de IA são, na verdade, melhores para avaliar o texto do que para escrevê-lo.

— Se você der duas coisas à tecnologia, ela é muito boa em escolher qual delas parece melhor — disse Nathan Lile, executivo-chefe da start-up de inteligência artificial SynthLabs.

A ideia é que isso forneça os dados de alta qualidade necessários para treinar um chatbot ainda melhor.

Essa técnica funciona?

Mais ou menos. Tudo se resume ao segundo modelo de IA.

Qual é a sua capacidade de avaliar o texto?

A Anthropic tem sido a mais explícita em seus esforços para fazer isso funcionar. Ela ajusta o segundo modelo de IA usando uma "constituição" selecionada pelos pesquisadores da empresa. Isso ensina o modelo a escolher textos que apoiem determinados princípios, como liberdade, igualdade e senso de fraternidade, ou vida, liberdade e segurança pessoal. O método da Anthropic é conhecido como "I.A. Constitucional".

Mesmo assim, são necessários humanos para garantir que o segundo modelo de IA permaneça no caminho certo. Isso limita a quantidade de dados sintéticos que esse processo pode gerar. E os pesquisadores discordam sobre se um método como o da Anthropic continuará a aprimorar os sistemas de I.A.

Os dados sintéticos ajudam as empresas a evitar o uso de informações protegidas por direitos autorais?

Os modelos de IA que geram dados sintéticos foram treinados com dados criados por humanos, muitos dos quais protegidos por direitos autorais. Portanto, os detentores de direitos autorais ainda podem argumentar que empresas como a OpenAI e a Anthropic usaram textos, imagens e vídeos protegidos por direitos autorais sem permissão.

Jeff Clune, professor de ciência da computação da Universidade da Colúmbia Britânica, que trabalhou anteriormente como pesquisador da OpenAI, disse que os modelos de IA podem se tornar mais poderosos do que o cérebro humano em alguns aspectos.

Mas eles farão isso porque aprenderam com o cérebro humano.

—Tomando emprestado de Newton: A I.A. enxerga mais longe por estar sobre os ombros de conjuntos de dados humanos gigantescos — disse ele.

Webstories
Mais recente Próxima Como as gigantes de tecnologia usam atalhos para coletar dados para a IA
Mais do Globo

Evento da Fox News estaria marcado para 4 de setembro

Trump afirma aceitar participar de debate com Kamala Harris

Americana ficou na terceira posição nas qualificatórias do aparelho nos Jogos de Paris

Olimpíadas 2024: Saiba quem é Jade Carey, ginasta que pode surpreender na final do salto

Ferramenta criada pelo GLOBO mostra que Rebeca Andrade tem 97% de probabilidade de subir ao pódio na ginástica artística hoje

Medalhômetro: veja as chances de medalha do Brasil na programação deste sábado em Paris-2024

Ciclista de 23 anos estreia neste domingo em Paris, nas provas de estrada

Tota Magalhães se prepara para disputar as primeiras Olimpíadas

Americana teve nota superior em três das quatro vezes que passou pelo aparelho nos Jogos Paris

Olimpíadas: Quanto Rebeca e Biles tiraram nos saltos até o momento; veja

Brasileira conseguiu a primeira e única vitória sobre a bicampeã olímpica do individual geral no torneio disputado na Antuérpia

Relembre: Rebeca derrotou Biles no salto do Mundial de 2023, marcado pela queda da americana

Documento já tem mais de 30 mil assinaturas. Pentatlo em 2028 não terá participação de animais

Após incidentes e maus tratos na Olimpíadas de Paris-2024, petição pede a proibição de cavalos em competições esportivas

Prova que vale medalha no aparelho acontece neste sábado e promete mais um duelo acirrado entre Simone Biles e Rebeca Andrade, única brasileira na disputa

Ginástica artística: veja programação e horário da final do salto nas Olimpíadas de Paris 2024

Ginastas disputam neste sábado a prova com expectativa se brasileira realizará movimento inédito

Olimpíadas: final do salto é mais um capítulo no duelo entre Rebeca e Biles

Jogos das Olimpíadas deste sábado (3) serão transmitidos pela TV Globo, Sportv, Globoplay e CazéTV

Olimpíadas de Paris-2024 hoje: programação e onde assistir ao vivo aos jogos deste sábado (3)