Tecnologia
PUBLICIDADE

Por Por Cade Metz; do NYT


DALL-E, inteligência artificial que cria qualquer imagem a seu comando. NYT — Foto:
DALL-E, inteligência artificial que cria qualquer imagem a seu comando. NYT — Foto:

SÃO FRANCISCO - No OpenAI, um dos laboratórios de Inteligência Artificial mais ambiciosos do mundo, os pesquisadores estão desenvolvendo tecnologia que permite criar imagens digitais simplesmente descrevendo o que você deseja ver.

Eles chamam o sistema de DALL-E em alusão tanto a “WALL-E”, o filme de animação de 2008 sobre um robô autônomo, quanto a Salvador Dalí, o pintor surrealista.

A OpenAI, apoiada por US$ 1 bilhão em financiamento da Microsoft, ainda não está compartilhando a tecnologia com o público em geral. Mas, recentemente, Alex Nichol, um dos pesquisadores por trás do sistema, demonstrou como ele funciona.

Nichol pediu ao sistema “um bule em forma de abacate”, digitando as palavras em uma tela de computador praticamente vazia. Ele criou 10 imagens distintas de um bule de abacate verde-escuro, algumas com caroço e outras sem.

“DALL-E é bom em abacates”, disse Nichol.

A inteligência Artificial DALL-E pode criar qualquer desenho a seu comando NYT — Foto:
A inteligência Artificial DALL-E pode criar qualquer desenho a seu comando NYT — Foto:

Quando ele digitou “gatos jogando xadrez”, o sistema colocou dois gatinhos fofos de cada lado de um tabuleiro de jogo de xadrez com 32 peças alinhadas entre eles. Quando pediu “um ursinho de pelúcia tocando trompete debaixo d'água”, uma imagem mostrou pequenas bolhas de ar subindo da ponta da trombeta do urso em direção à superfície da água.

Não para por aí. DALL-E também pode editar fotos. Quando Nichol apagou a trombeta do ursinho de pelúcia e pediu um violão, um violão apareceu entre os braços peludos.

Uma equipe de sete pesquisadores passou dois anos desenvolvendo a tecnologia, que a OpenAI planeja eventualmente oferecer como uma ferramenta para pessoas como artistas gráficos, fornecendo novos atalhos e novas ideias à medida que criam e editam imagens digitais.

Os programadores de computador já utilizam o Copilot, uma ferramenta baseada em tecnologia similar da OpenAI, para gerar trechos de código de software.

Mas para muitos especialistas, DALL-E é preocupante. À medida que esse tipo de tecnologia continua a melhorar, dizem eles, pode ajudar a espalhar desinformação pela internet, alimentando o tipo de campanha on-line que pode ter ajudado a influenciar a eleição presidencial dos EUA em 2016, por exemplo.

Resultado do DALL-E para comando de imagem de 'cão Shiba Inu vestindo uma boina e gola alta preta' Reprodução — Foto:
Resultado do DALL-E para comando de imagem de 'cão Shiba Inu vestindo uma boina e gola alta preta' Reprodução — Foto:

"Poderia usá-lo para coisas boas, mas certamente poderia usá-lo para todo o tipo de outras aplicações malucas e preocupantes, e isso inclui falsificações profundas", como fotos e vídeos enganadores, disse Subbarao Kambhampati, professor de ciência da computação na Universidade do Arizona.

Há 50 anos, os principais laboratórios de IA do mundo construíram sistemas que podiam identificar objetos em imagens digitais e até gerar imagens por conta própria, incluindo flores, cães, carros e rostos.

Alguns anos mais tarde, criaram sistemas que poderiam fazer o mesmo com linguagem escrita, resumindo artigos, respondendo a perguntas, gerando tweets e até escrevendo posts em blogues.

Agora, os pesquisadores estão combinando essas tecnologias para criar novas formas de IA. DALL-E é um avanço notável porque faz malabarismos entre linguagem e imagens e, em alguns casos, capta a relação entre os dois.

“Agora podemos usar vários fluxos de informações que se cruzam para criar tecnologia cada vez melhor”, disse Oren Etzioni, CEO do Allen Institute for Artificial Intelligence, um laboratório de inteligência artificial em Seattle.

Rede neural

Mas a tecnologia não é perfeita. Quando Nichol pediu a DALL-E para “colocar a Torre Eiffel na lua”, ele não entendeu muito bem a ideia. Ele colocou a lua no céu por cima da torre. Quando ele pediu “uma sala cheia de areia”, produziu uma cena que mais parecia um canteiro de obras do que uma sala de estar.

Mas quando Nichol ajustou um pouco seus pedidos, adicionando ou subtraindo algumas palavras aqui ou ali, forneceu o que ele queria. Quando ele pediu “um piano em uma sala cheia de areia”, a imagem parecia mais uma praia em uma sala de estar.

O DALL-E, inteligência artificial, criou uma sala chei ade areia com um piano atendendo a um comando NYT — Foto:
O DALL-E, inteligência artificial, criou uma sala chei ade areia com um piano atendendo a um comando NYT — Foto:

DALL-E é o que os pesquisadores de inteligência artificial chamam de rede neural, um sistema matemático livremente modelado na rede de neurônios no cérebro. Essa é a mesma tecnologia que reconhece os comandos falados em smartphones e identifica a presença de pedestres enquanto carros autônomos percorrem as ruas da cidade.

Uma rede neural aprende competências analisando grandes quantidades de dados. Ao identificar padrões em milhares de fotos de abacate, por exemplo, ele pode aprender a reconhecer um abacate.

O DALL-E procura padrões ao analisar milhões de imagens digitais, bem como legendas de texto que descrevem o que cada imagem representa. Desta forma, aprende a reconhecer as ligações entre as imagens e as palavras.

Quando alguém descreve uma imagem para DALL-E, ele gera um conjunto de recursos-chave que essa imagem pode incluir. Uma característica pode ser a linha na borda de uma trombeta. Outra pode ser a curva na parte superior da orelha de um ursinho de pelúcia.

Em seguida, uma segunda rede neural, chamada de modelo de difusão, cria a imagem e gera os pixels necessários para realizar esses recursos.

A versão mais recente do DALL-E com um novo trabalho de pesquisa descrevendo o sistema, gera imagens de alta resolução que, em muitos casos, parecem fotos.

Embora o DALL-E muitas vezes não consiga compreender o que alguém descreveu e às vezes destrua a imagem que produz, o OpenAI continua aprimorando a tecnologia. Os pesquisadores geralmente podem refinar as habilidades de uma rede neural alimentando-a com quantidades ainda maiores de dados.

Eles também podem construir sistemas mais poderosos aplicando os mesmos conceitos a novos tipos de dados. O Allen Institute criou recentemente um sistema que pode analisar áudio, bem como imagens e texto.

Depois de analisar milhões de vídeos do YouTube, incluindo faixas de áudio e legendas, ele aprendeu a identificar momentos específicos em programas de TV ou filmes, como um cachorro latindo ou uma porta se fechando.

Especialistas acreditam que os pesquisadores continuarão a aprimorar esses sistemas. Em última análise, esses sistemas podem ajudar as empresas a melhorar os mecanismos de busca, assistentes digitais e outras tecnologias comuns, bem como automatizar novas tarefas para artistas gráficos, programadores e outros profissionais.

Mas há ressalvas para esse potencial. Os sistemas de IA podem mostrar preconceito contra mulheres e pessoas de cor, em parte porque aprendem suas habilidades a partir de enormes conjuntos de textos, imagens e outros dados on-line que mostram preconceito.

Eles podem ser usados para gerar pornografia, discurso de ódio e outros materiais ofensivos. E muitos especialistas acreditam que a tecnologia acabará tornando tão fácil criar desinformação que as pessoas terão que ser céticas em relação a quase tudo o que veem on-line.

“Nós podemos forjar texto. Podemos colocar texto na voz de alguém. E podemos forjar imagens e vídeos”, disse Etzioni. “Já existe desinformação on-line, mas a preocupação” é que isso leve a desinformação a novos níveis.

A OpenAI está mantendo uma rédea curta no DALL-E. Não permitiria que pessoas de fora usassem o sistema por conta própria. Ele coloca uma marca d'água no canto de cada imagem que gera.

Mais recente Próxima
Mais do Globo

Presidente compareceu a convenção que formalizou Evandro Leitão na disputa com proteção por estar resfriado; petista pertence ao grupo político de Cid desde quando eram filiados ao PDT

Com Lula de máscara no palanque, deputado do PT é oficializado candidato em Fortaleza e agradece a Cid Gomes

Imagem que mostra como genital de Anthony Ammirati o 'prejudicou' viralizou nas redes sociais

Francês do salto atrapalhado pelo próprio órgão genital tem perfil nas redes sociais descoberto e invadido por piadas: 'Abre um onlyfans'

Modelo e apresentadora está na capital francesa assistindo aos Jogos Olímpicos com a família

Giovanna Ewbank se emociona com Simone Biles e Rebeca Andrade em Paris: 'inspiração pra tantas Títis nesse mundo'

Doença viral é transmitida pelo Culicoides paraensis, conhecido como maruim

Febre oropouche: Ministério da Saúde confirma morte de feto em Pernambuco

A supermodelo, em entrevista ao Wall Street Journal, revelou que acorda às 5h para meditar e que faz exercícios 6 vezes por semana

'Minha vida é um pouco diferente', diz Gisele Bündchen sobre rotina de hábitos saudáveis e conciliação do tempo com filhos

Judoca foi decisiva para medalha de bronze do judô por equipes

Paris-2024: Rafaela Silva diz que torceu para ser sorteada para a luta do desempate: "Fiquei chamando o 57"

Yurchenko com tripla pirueta teria nota 6 de dificuldade e seria estratégia arriscada

Paris-2024: Por que Rebeca não tentou o salto novo? Poderia vencer Biles? Entenda

Segundo a pasta, a gestante tem 28 anos de idade e estava na 30ª semana de gestação

Ministério da Saúde confirma 1º caso de morte fetal por febre Oropouche no Brasil