Tecnologia
PUBLICIDADE

Por Por Cade Metz; do NYT


DALL-E, inteligência artificial que cria qualquer imagem a seu comando. NYT — Foto:
DALL-E, inteligência artificial que cria qualquer imagem a seu comando. NYT — Foto:

SÃO FRANCISCO - No OpenAI, um dos laboratórios de Inteligência Artificial mais ambiciosos do mundo, os pesquisadores estão desenvolvendo tecnologia que permite criar imagens digitais simplesmente descrevendo o que você deseja ver.

Eles chamam o sistema de DALL-E em alusão tanto a “WALL-E”, o filme de animação de 2008 sobre um robô autônomo, quanto a Salvador Dalí, o pintor surrealista.

A OpenAI, apoiada por US$ 1 bilhão em financiamento da Microsoft, ainda não está compartilhando a tecnologia com o público em geral. Mas, recentemente, Alex Nichol, um dos pesquisadores por trás do sistema, demonstrou como ele funciona.

Nichol pediu ao sistema “um bule em forma de abacate”, digitando as palavras em uma tela de computador praticamente vazia. Ele criou 10 imagens distintas de um bule de abacate verde-escuro, algumas com caroço e outras sem.

“DALL-E é bom em abacates”, disse Nichol.

A inteligência Artificial DALL-E pode criar qualquer desenho a seu comando NYT — Foto:
A inteligência Artificial DALL-E pode criar qualquer desenho a seu comando NYT — Foto:

Quando ele digitou “gatos jogando xadrez”, o sistema colocou dois gatinhos fofos de cada lado de um tabuleiro de jogo de xadrez com 32 peças alinhadas entre eles. Quando pediu “um ursinho de pelúcia tocando trompete debaixo d'água”, uma imagem mostrou pequenas bolhas de ar subindo da ponta da trombeta do urso em direção à superfície da água.

Não para por aí. DALL-E também pode editar fotos. Quando Nichol apagou a trombeta do ursinho de pelúcia e pediu um violão, um violão apareceu entre os braços peludos.

Uma equipe de sete pesquisadores passou dois anos desenvolvendo a tecnologia, que a OpenAI planeja eventualmente oferecer como uma ferramenta para pessoas como artistas gráficos, fornecendo novos atalhos e novas ideias à medida que criam e editam imagens digitais.

Os programadores de computador já utilizam o Copilot, uma ferramenta baseada em tecnologia similar da OpenAI, para gerar trechos de código de software.

Mas para muitos especialistas, DALL-E é preocupante. À medida que esse tipo de tecnologia continua a melhorar, dizem eles, pode ajudar a espalhar desinformação pela internet, alimentando o tipo de campanha on-line que pode ter ajudado a influenciar a eleição presidencial dos EUA em 2016, por exemplo.

Resultado do DALL-E para comando de imagem de 'cão Shiba Inu vestindo uma boina e gola alta preta' Reprodução — Foto:
Resultado do DALL-E para comando de imagem de 'cão Shiba Inu vestindo uma boina e gola alta preta' Reprodução — Foto:

"Poderia usá-lo para coisas boas, mas certamente poderia usá-lo para todo o tipo de outras aplicações malucas e preocupantes, e isso inclui falsificações profundas", como fotos e vídeos enganadores, disse Subbarao Kambhampati, professor de ciência da computação na Universidade do Arizona.

Há 50 anos, os principais laboratórios de IA do mundo construíram sistemas que podiam identificar objetos em imagens digitais e até gerar imagens por conta própria, incluindo flores, cães, carros e rostos.

Alguns anos mais tarde, criaram sistemas que poderiam fazer o mesmo com linguagem escrita, resumindo artigos, respondendo a perguntas, gerando tweets e até escrevendo posts em blogues.

Agora, os pesquisadores estão combinando essas tecnologias para criar novas formas de IA. DALL-E é um avanço notável porque faz malabarismos entre linguagem e imagens e, em alguns casos, capta a relação entre os dois.

“Agora podemos usar vários fluxos de informações que se cruzam para criar tecnologia cada vez melhor”, disse Oren Etzioni, CEO do Allen Institute for Artificial Intelligence, um laboratório de inteligência artificial em Seattle.

Rede neural

Mas a tecnologia não é perfeita. Quando Nichol pediu a DALL-E para “colocar a Torre Eiffel na lua”, ele não entendeu muito bem a ideia. Ele colocou a lua no céu por cima da torre. Quando ele pediu “uma sala cheia de areia”, produziu uma cena que mais parecia um canteiro de obras do que uma sala de estar.

Mas quando Nichol ajustou um pouco seus pedidos, adicionando ou subtraindo algumas palavras aqui ou ali, forneceu o que ele queria. Quando ele pediu “um piano em uma sala cheia de areia”, a imagem parecia mais uma praia em uma sala de estar.

O DALL-E, inteligência artificial, criou uma sala chei ade areia com um piano atendendo a um comando NYT — Foto:
O DALL-E, inteligência artificial, criou uma sala chei ade areia com um piano atendendo a um comando NYT — Foto:

DALL-E é o que os pesquisadores de inteligência artificial chamam de rede neural, um sistema matemático livremente modelado na rede de neurônios no cérebro. Essa é a mesma tecnologia que reconhece os comandos falados em smartphones e identifica a presença de pedestres enquanto carros autônomos percorrem as ruas da cidade.

Uma rede neural aprende competências analisando grandes quantidades de dados. Ao identificar padrões em milhares de fotos de abacate, por exemplo, ele pode aprender a reconhecer um abacate.

O DALL-E procura padrões ao analisar milhões de imagens digitais, bem como legendas de texto que descrevem o que cada imagem representa. Desta forma, aprende a reconhecer as ligações entre as imagens e as palavras.

Quando alguém descreve uma imagem para DALL-E, ele gera um conjunto de recursos-chave que essa imagem pode incluir. Uma característica pode ser a linha na borda de uma trombeta. Outra pode ser a curva na parte superior da orelha de um ursinho de pelúcia.

Em seguida, uma segunda rede neural, chamada de modelo de difusão, cria a imagem e gera os pixels necessários para realizar esses recursos.

A versão mais recente do DALL-E com um novo trabalho de pesquisa descrevendo o sistema, gera imagens de alta resolução que, em muitos casos, parecem fotos.

Embora o DALL-E muitas vezes não consiga compreender o que alguém descreveu e às vezes destrua a imagem que produz, o OpenAI continua aprimorando a tecnologia. Os pesquisadores geralmente podem refinar as habilidades de uma rede neural alimentando-a com quantidades ainda maiores de dados.

Eles também podem construir sistemas mais poderosos aplicando os mesmos conceitos a novos tipos de dados. O Allen Institute criou recentemente um sistema que pode analisar áudio, bem como imagens e texto.

Depois de analisar milhões de vídeos do YouTube, incluindo faixas de áudio e legendas, ele aprendeu a identificar momentos específicos em programas de TV ou filmes, como um cachorro latindo ou uma porta se fechando.

Especialistas acreditam que os pesquisadores continuarão a aprimorar esses sistemas. Em última análise, esses sistemas podem ajudar as empresas a melhorar os mecanismos de busca, assistentes digitais e outras tecnologias comuns, bem como automatizar novas tarefas para artistas gráficos, programadores e outros profissionais.

Mas há ressalvas para esse potencial. Os sistemas de IA podem mostrar preconceito contra mulheres e pessoas de cor, em parte porque aprendem suas habilidades a partir de enormes conjuntos de textos, imagens e outros dados on-line que mostram preconceito.

Eles podem ser usados para gerar pornografia, discurso de ódio e outros materiais ofensivos. E muitos especialistas acreditam que a tecnologia acabará tornando tão fácil criar desinformação que as pessoas terão que ser céticas em relação a quase tudo o que veem on-line.

“Nós podemos forjar texto. Podemos colocar texto na voz de alguém. E podemos forjar imagens e vídeos”, disse Etzioni. “Já existe desinformação on-line, mas a preocupação” é que isso leve a desinformação a novos níveis.

A OpenAI está mantendo uma rédea curta no DALL-E. Não permitiria que pessoas de fora usassem o sistema por conta própria. Ele coloca uma marca d'água no canto de cada imagem que gera.

Mais recente Próxima
Mais do Globo

Vencedores têm prazo de 90 dias para reclamar prêmio, antes que prescreva e valor seja repassado

Ganhadores 'abandonaram' mais de R$ 250 milhões em prêmios da Mega-Sena 2024; entenda

José Leonardo, caçula da influenciadora e do cantor, já é sucesso no Instagram

Herdeiro Virgínia Fonseca e Zé Felipe já ultrapassa marca 1 milhão de seguidores horas após nascimento

Com bons trabalhos em seus clubes, argentino e português são fortes candidatos ao prêmio se levarem seus times às conquistas até o fim de 2024

Ranking de Treinadores: Abel e Tite ameaçados por Vojvoda e Artur Jorge na disputa por melhor técnico da temporada

Valor não acumula e caso ninguém garante os 15 números, prêmio máximo será dividido entre outros acertadores

Lotofácil especial de Independência sorteia R$ 200 milhões nesta segunda; saiba como apostar

Associação de descendentes emitiu 'parecer desfavorável' à manutenção definitiva do símbolo olímpico no ponto turístico

Herdeiros de Eiffel cobram retirada dos anéis olímpicos da torre ícone de Paris

A Polícia de Queensland emitiu um mandado de prisão para um homem de 33 anos procurado por atos com a intenção de causar danos corporais graves,

Homem que jogou café quente em bebê vira alvo de caçada internacional; criança já passou por quatro cirurgias

Proposta é oferecer rótulos de pequenos produtores; comidinhas também são artesanais

Vinho brasileiro na torneira: Casa Tão Longe, Tão Perto abre em Botafogo

Pelo menos duas mil pessoas que fugiram dos seus países vivem na cidade

Debate sobre refugiados travado por candidatos a prefeito de Niterói  repercute entre imigrantes