Sora, novo chatbot da OpenAI, transforma prompts de texto em vídeos fotorrealistas

Imagem de vídeo criado pela Sora, nova ferramenta da OpenAI — Foto: OpenAI

Um novo aplicativo OpenAI chamado Sora espera dominar o cinema sem precisar frequentar escola de cinema. Ainda sem uma data de lançamento definida, a Sora está sendo testada por alguns criadores selecionados e por especialistas em segurança, que têm como missão apontar problemas e vulnerabilidades, relata a Wired.

Outras empresas, desde gigantes como o Google até startups como a Runway já revelaram seus projetos de IA que transformam texto em vídeo. Mas a OpenAI diz que a Sora se distingue por seu impressionante fotorrealismo e por sua capacidade de produzir clipes mais longos do que os breves trechos que outros modelos normalmente fazem, de até um minuto.

A OpenAI não permitiu aos “testadores” inserir seus próprios prompts, mas compartilhou quatro exemplos do que a Sora pode fazer. (Nenhum deles se aproximou do suposto limite de um minuto; o mais longo foi de 17 segundos.) O primeiro veio com um prompt tão detalhado que parecia um roteiro: “A linda e nevada cidade de Tóquio está movimentada. A câmera se move pelas ruas da cidade, acompanhando diversas pessoas aproveitando o lindo clima de neve e fazendo compras nas barracas próximas. Lindas pétalas de cerejeira estão voando ao vento junto com flocos de neve.”

O resultado é uma visão do que é claramente Tóquio, naquele momento mágico em que coexistem flocos de neve e flores de cerejeira. A câmera virtual, como se estivesse afixada a um drone, acompanha um casal enquanto eles caminham lentamente pela paisagem urbana. Um dos transeuntes está usando máscara. Os carros passam barulhentos em uma estrada à beira do rio à sua esquerda, e à direita os compradores entram e saem de uma fileira de pequenas lojas.

Não é perfeito. Quem assiste ao clipe algumas vezes percebe que os personagens principais – um casal passeando pela calçada coberta de neve – teriam enfrentado um dilema se a câmera virtual continuasse funcionando. A calçada que ocupam parece um beco sem saída; eles teriam que passar por cima de um pequeno corrimão para chegar a uma estranha passarela paralela à sua direita. Apesar dessa pequena falha, o exemplo de Tóquio é impressionante.

Outro vídeo marcante é o gerado pelo prompt “uma cena animada com um monstro pequeno e fofo ajoelhado ao lado de uma vela vermelha”, junto com algumas instruções detalhadas (“olhos arregalados e boca aberta”) e uma descrição da vibe desejada. Sora produz uma criatura no estilo Pixar que parece ter DNA de um Furby, um Gremlin e Sully em Monsters, Inc. “Ele aprende sobre geometria e consistência 3D”, diz Tim Brooks, cientista pesquisador do projeto, sobre a ultra- textura complexa do pelo da criatura em movimento. “Nós não criamos – simplesmente surgiu da observação de muitos dados.”

Alimentada por uma versão do modelo de difusão usado pelo gerador de imagens Dalle-3 da OpenAI, Sora não apenas produz vídeos que atendem às demandas dos prompts, mas o faz mostrando uma compreensão respeitável da gramática cinematográfica. Isso fica evidente no vídeo com o prompt “um mundo de papel artesanal maravilhosamente renderizado a partir de um recife de coral, repleto de peixes coloridos e criaturas marinhas”. Bill Peebles, outro pesquisador do projeto, observa que Sora criou uma narrativa impulsionada pelos ângulos de câmera e pelo tempo. “Na verdade, há diversas alterações de tomadas – elas não são costuradas, mas geradas pelo modelo de uma só vez”, diz ele. “Não lhe dissemos para fazer isso, apenas o fez automaticamente.”

Um recurso do Sora que a equipe OpenAI não mostrou, e pode não lançar por um bom tempo, é a capacidade de gerar vídeos a partir de uma única imagem ou sequência de frames. A OpenAI está ciente de que esse recurso em potencial para produzir deepfakes e desinformação. “Teremos muito cuidado com todas as implicações de segurança disso”, acrescenta Peebles. Espere que Sora tenha as mesmas restrições de conteúdo que Dall-E 3: sem violência, sem pornografia, sem apropriação de pessoas reais ou do estilo de artistas nomeados.

Mais recente Próxima IA recria vozes de pessoas assassinadas em ação para reivindicar leis mais duras contra armas de fogo

Inteligência
Artificial

Sora, novo chatbot da OpenAI, transforma prompts de texto em vídeos fotorrealistas

Ferramenta, ainda sem data de lançamento, é capaz de criar clipes curtos com realismo e visão cinematográfica, dizem seus criadores

Mais lidas

7 meses de festas: os detalhes do casamento de R$ 1,7 bilhões entre Anant Ambani e Radhika Merchant

Cientistas criam absorvente e coletor menstrual que conseguem solidificar o sangue

Missão chinesa planeja desviar asteroide para testar forma de proteger a Terra

Google vai oferecer serviço de monitoramento da dark web para todos os usuários

Amazon libera para todos os clientes dos EUA seu assistente de compras com IA

COI diz que apagão cibernético foi um bom teste para os sistemas dos Jogos de Paris

Criança com doença genética rara recebe transplante de células-tronco na Inglaterra

Como Nicarágua lucra com imigração ilegal para os EUA

7 falácias lógicas que ajudam a detectar um argumento infundado numa discussão - seja online, seja na vida real

Corredora de longa distância Hellen Oribi testa tênis fora do comum na Olimpíada

O simples erro da Crowdstrike que provocou o maior apagão cibernético de todos os tempos, na visão de especialistas

A ciência da beleza: como ver algo belo é bom para o humor, a cognição e também para os negócios

Apagão cibernético global afetou 8,5 mihões de dispositivos equipados com Windows, diz a Microsoft

Aliança Global contra Fome começa a tomar forma no G20

Tombo de 'big techs' aumenta pressão do mercado antes de balanços