Conheça o DALL-E, inteligência artificial que cria qualquer imagem a partir de uma descrição de texto

DALL-E, inteligência artificial que cria qualquer imagem a seu comando. NYT — Foto:

SÃO FRANCISCO - No OpenAI, um dos laboratórios de Inteligência Artificial mais ambiciosos do mundo, os pesquisadores estão desenvolvendo tecnologia que permite criar imagens digitais simplesmente descrevendo o que você deseja ver.

Eles chamam o sistema de DALL-E em alusão tanto a “WALL-E”, o filme de animação de 2008 sobre um robô autônomo, quanto a Salvador Dalí, o pintor surrealista.

A sexta geração da telefonia: Brasil quer largar na frente na corrida mundial da 'internet dos sentidos'

Futuro: Robôs, carros e óculos conectados: veja os planos das empresas de tecnologia para levar o 5G além do celular

Assistente virtual da Amazon: Por que americanos não querem mais dar o nome Alexa às suas filhas?

A OpenAI, apoiada por US$ 1 bilhão em financiamento da Microsoft, ainda não está compartilhando a tecnologia com o público em geral. Mas, recentemente, Alex Nichol, um dos pesquisadores por trás do sistema, demonstrou como ele funciona.

Nichol pediu ao sistema “um bule em forma de abacate”, digitando as palavras em uma tela de computador praticamente vazia. Ele criou 10 imagens distintas de um bule de abacate verde-escuro, algumas com caroço e outras sem.

“DALL-E é bom em abacates”, disse Nichol.

A inteligência Artificial DALL-E pode criar qualquer desenho a seu comando NYT — Foto:

Quando ele digitou “gatos jogando xadrez”, o sistema colocou dois gatinhos fofos de cada lado de um tabuleiro de jogo de xadrez com 32 peças alinhadas entre eles. Quando pediu “um ursinho de pelúcia tocando trompete debaixo d'água”, uma imagem mostrou pequenas bolhas de ar subindo da ponta da trombeta do urso em direção à superfície da água.

Epic Games: Empresa recebe aporte de US$ 2 bilhões da Sony e da holding do Grupo Lego

Não para por aí. DALL-E também pode editar fotos. Quando Nichol apagou a trombeta do ursinho de pelúcia e pediu um violão, um violão apareceu entre os braços peludos.

Uma equipe de sete pesquisadores passou dois anos desenvolvendo a tecnologia, que a OpenAI planeja eventualmente oferecer como uma ferramenta para pessoas como artistas gráficos, fornecendo novos atalhos e novas ideias à medida que criam e editam imagens digitais.

Os programadores de computador já utilizam o Copilot, uma ferramenta baseada em tecnologia similar da OpenAI, para gerar trechos de código de software.

Rival do Instagram: Sem filtros nem 'likes', BeReal vira tendência nos EUA

Mas para muitos especialistas, DALL-E é preocupante. À medida que esse tipo de tecnologia continua a melhorar, dizem eles, pode ajudar a espalhar desinformação pela internet, alimentando o tipo de campanha on-line que pode ter ajudado a influenciar a eleição presidencial dos EUA em 2016, por exemplo.

Resultado do DALL-E para comando de imagem de 'cão Shiba Inu vestindo uma boina e gola alta preta' Reprodução — Foto:

"Poderia usá-lo para coisas boas, mas certamente poderia usá-lo para todo o tipo de outras aplicações malucas e preocupantes, e isso inclui falsificações profundas", como fotos e vídeos enganadores, disse Subbarao Kambhampati, professor de ciência da computação na Universidade do Arizona.

Há 50 anos, os principais laboratórios de IA do mundo construíram sistemas que podiam identificar objetos em imagens digitais e até gerar imagens por conta própria, incluindo flores, cães, carros e rostos.

Alguns anos mais tarde, criaram sistemas que poderiam fazer o mesmo com linguagem escrita, resumindo artigos, respondendo a perguntas, gerando tweets e até escrevendo posts em blogues.

Metaverso: Veja como está sendo desenvolvido o espaço virtual idealizado por Zuckerberg

Metaverso: Ambiente que mescla físico e virtual é a nova aposta de ZuckerbergReprodução/Facebook

No metaverso idealizado por Zuckerberg, mundos virtuais em 3D poderão se conectar com experiências reaisReprodução/Facebook

7 fotos

No metaverso, corpos físicos se misturam com avatares e público poderá curtir um evento sem que o espaço físico limite o tamanho do público no localReprodução/Facebook

4 de 7
No metaverso, fronteira entre o físico e o digital é interrompidaReprodução/Facebook

5 de 7
No novo ambiente 'metaversal', artes serão em 3D e poderão proporcionar experiência imersivaReprodução/Facebook

6 de 7
No metaverso, ações do mundo físico podem ser reproduzidas no mundo digital e vice-versaReprodução/Facebook

7 de 7
Experiência imersiva deve mudar a forma como realizamos comprasReprodução/Facebook

Metaverso: Veja como está sendo desenvolvido o espaço virtual idealizado por Zuckerberg

Agora, os pesquisadores estão combinando essas tecnologias para criar novas formas de IA. DALL-E é um avanço notável porque faz malabarismos entre linguagem e imagens e, em alguns casos, capta a relação entre os dois.

“Agora podemos usar vários fluxos de informações que se cruzam para criar tecnologia cada vez melhor”, disse Oren Etzioni, CEO do Allen Institute for Artificial Intelligence, um laboratório de inteligência artificial em Seattle.

Rede neural

Mas a tecnologia não é perfeita. Quando Nichol pediu a DALL-E para “colocar a Torre Eiffel na lua”, ele não entendeu muito bem a ideia. Ele colocou a lua no céu por cima da torre. Quando ele pediu “uma sala cheia de areia”, produziu uma cena que mais parecia um canteiro de obras do que uma sala de estar.

Por US$ 125 mil: Que tal viajar ao espaço de balão? Voo levará turistas para contemplar a Terra

Mas quando Nichol ajustou um pouco seus pedidos, adicionando ou subtraindo algumas palavras aqui ou ali, forneceu o que ele queria. Quando ele pediu “um piano em uma sala cheia de areia”, a imagem parecia mais uma praia em uma sala de estar.

O DALL-E, inteligência artificial, criou uma sala chei ade areia com um piano atendendo a um comando NYT — Foto:

DALL-E é o que os pesquisadores de inteligência artificial chamam de rede neural, um sistema matemático livremente modelado na rede de neurônios no cérebro. Essa é a mesma tecnologia que reconhece os comandos falados em smartphones e identifica a presença de pedestres enquanto carros autônomos percorrem as ruas da cidade.

Uma rede neural aprende competências analisando grandes quantidades de dados. Ao identificar padrões em milhares de fotos de abacate, por exemplo, ele pode aprender a reconhecer um abacate.

Roman Abramovich: Bilionário russo tem fortuna confiscada até em paraíso fiscal. Ilha de Jersey bloqueia US$ 7 bilhões

O DALL-E procura padrões ao analisar milhões de imagens digitais, bem como legendas de texto que descrevem o que cada imagem representa. Desta forma, aprende a reconhecer as ligações entre as imagens e as palavras.

Quando alguém descreve uma imagem para DALL-E, ele gera um conjunto de recursos-chave que essa imagem pode incluir. Uma característica pode ser a linha na borda de uma trombeta. Outra pode ser a curva na parte superior da orelha de um ursinho de pelúcia.

Imagens do Neptune, cápsula puxada por balão gigante que levará turistas ao espaço

A Neptune será impulsionada por um balão gigante, que permitirá um voo suaveDivulgação

Visão do interior da cabine da Spaceship Neptune, com luzes roxaDivulgação

9 fotos

A Space Perspective acaba de divulgar imagens do balão Spaceship Neptune. que levará turistas ao espaçoDivulgação/ Space Perspective

4 de 9
Passageiros terão à disposição bar com drinks, copa e Wi-FiDivulgação

5 de 9
Poltronas recicláveis e giratórias permite que os passageiros contemplem a Terra e as estrelas, e também participem de eventos em grupoDivulgação/ Space Perspective

6 de 9
Cabine é equipada com um telescópio e telas interativasDivulgação

7 de 9
Turistas ficarão duas horas na estratosfera terrestre, tirar fotos e curtir o ambiente de luxo da cápsula com muitas regaliasDivulgação

8 de 9
Um bar com serviço completo estará disponível para os passageirosDivulgação

9 de 9
A cerca de 30 mil metros de altitude, passageiros poderão apreciar a vista da costa da Flórida e do Oceano AtlânticoDivulgação

Imagens do Neptune, cápsula puxada por balão gigante que levará turistas ao espaço

Em seguida, uma segunda rede neural, chamada de modelo de difusão, cria a imagem e gera os pixels necessários para realizar esses recursos.

A versão mais recente do DALL-E com um novo trabalho de pesquisa descrevendo o sistema, gera imagens de alta resolução que, em muitos casos, parecem fotos.

Embora o DALL-E muitas vezes não consiga compreender o que alguém descreveu e às vezes destrua a imagem que produz, o OpenAI continua aprimorando a tecnologia. Os pesquisadores geralmente podem refinar as habilidades de uma rede neural alimentando-a com quantidades ainda maiores de dados.

Quer viajar ao espaço? Veja o que você precisa além de (muito) dinheiro

Eles também podem construir sistemas mais poderosos aplicando os mesmos conceitos a novos tipos de dados. O Allen Institute criou recentemente um sistema que pode analisar áudio, bem como imagens e texto.

Depois de analisar milhões de vídeos do YouTube, incluindo faixas de áudio e legendas, ele aprendeu a identificar momentos específicos em programas de TV ou filmes, como um cachorro latindo ou uma porta se fechando.

Especialistas acreditam que os pesquisadores continuarão a aprimorar esses sistemas. Em última análise, esses sistemas podem ajudar as empresas a melhorar os mecanismos de busca, assistentes digitais e outras tecnologias comuns, bem como automatizar novas tarefas para artistas gráficos, programadores e outros profissionais.

Genshin Impact: o game chinês com cara de japonês que conquistou o mundo

Mas há ressalvas para esse potencial. Os sistemas de IA podem mostrar preconceito contra mulheres e pessoas de cor, em parte porque aprendem suas habilidades a partir de enormes conjuntos de textos, imagens e outros dados on-line que mostram preconceito.

Eles podem ser usados para gerar pornografia, discurso de ódio e outros materiais ofensivos. E muitos especialistas acreditam que a tecnologia acabará tornando tão fácil criar desinformação que as pessoas terão que ser céticas em relação a quase tudo o que veem on-line.

“Nós podemos forjar texto. Podemos colocar texto na voz de alguém. E podemos forjar imagens e vídeos”, disse Etzioni. “Já existe desinformação on-line, mas a preocupação” é que isso leve a desinformação a novos níveis.

A OpenAI está mantendo uma rédea curta no DALL-E. Não permitiria que pessoas de fora usassem o sistema por conta própria. Ele coloca uma marca d'água no canto de cada imagem que gera.

Mais recente Próxima

Tecnologia

Conheça o DALL-E, inteligência artificial que cria qualquer imagem a partir de uma descrição de texto

Novas tecnologias que misturam linguagem e imagens poderiam servir a artistas gráficos. Preocupação é que acelere também campanhas de desinformação

Metaverso: Veja como está sendo desenvolvido o espaço virtual idealizado por Zuckerberg

Rede neural

Imagens do Neptune, cápsula puxada por balão gigante que levará turistas ao espaço

Ganhadores 'abandonaram' mais de R$ 250 milhões em prêmios da Mega-Sena 2024; entenda

Herdeiro Virgínia Fonseca e Zé Felipe já ultrapassa marca 1 milhão de seguidores horas após nascimento

Jogador do Valencia se pronuncia sobre acusação de agressão sexual: 'Quero deixar clara minha inocência'

Ranking de Treinadores: Abel e Tite ameaçados por Vojvoda e Artur Jorge na disputa por melhor técnico da temporada

Lotofácil especial de Independência sorteia R$ 200 milhões nesta segunda; saiba como apostar

Kelly Key reage à participação da filha no 'Domingão'. Saiba por onde anda a cantora

Herdeiros de Eiffel cobram retirada dos anéis olímpicos da torre ícone de Paris

Homem que jogou café quente em bebê vira alvo de caçada internacional; criança já passou por quatro cirurgias

Vinho brasileiro na torneira: Casa Tão Longe, Tão Perto abre em Botafogo

Debate sobre refugiados travado por candidatos a prefeito de Niterói repercute entre imigrantes