![Imagem de vídeo criado pela Sora, nova ferramenta da OpenAI — Foto: OpenAI](https://s2-epocanegocios.glbimg.com/vkPH7MGY5SkjM8XK6Wa_04GOzUk=/0x0:1447x781/984x0/smart/filters:strip_icc()/i.s3.glbimg.com/v1/AUTH_e536e40f1baf4c1a8bf1ed12d20577fd/internal_photos/bs/2024/V/w/OWlz1wSuSUe1UQz7pqow/sora1.png)
Um novo aplicativo OpenAI chamado Sora espera dominar o cinema sem precisar frequentar escola de cinema. Ainda sem uma data de lançamento definida, a Sora está sendo testada por alguns criadores selecionados e por especialistas em segurança, que têm como missão apontar problemas e vulnerabilidades, relata a Wired.
Outras empresas, desde gigantes como o Google até startups como a Runway já revelaram seus projetos de IA que transformam texto em vídeo. Mas a OpenAI diz que a Sora se distingue por seu impressionante fotorrealismo e por sua capacidade de produzir clipes mais longos do que os breves trechos que outros modelos normalmente fazem, de até um minuto.
A OpenAI não permitiu aos “testadores” inserir seus próprios prompts, mas compartilhou quatro exemplos do que a Sora pode fazer. (Nenhum deles se aproximou do suposto limite de um minuto; o mais longo foi de 17 segundos.) O primeiro veio com um prompt tão detalhado que parecia um roteiro: “A linda e nevada cidade de Tóquio está movimentada. A câmera se move pelas ruas da cidade, acompanhando diversas pessoas aproveitando o lindo clima de neve e fazendo compras nas barracas próximas. Lindas pétalas de cerejeira estão voando ao vento junto com flocos de neve.”
O resultado é uma visão do que é claramente Tóquio, naquele momento mágico em que coexistem flocos de neve e flores de cerejeira. A câmera virtual, como se estivesse afixada a um drone, acompanha um casal enquanto eles caminham lentamente pela paisagem urbana. Um dos transeuntes está usando máscara. Os carros passam barulhentos em uma estrada à beira do rio à sua esquerda, e à direita os compradores entram e saem de uma fileira de pequenas lojas.
Não é perfeito. Quem assiste ao clipe algumas vezes percebe que os personagens principais – um casal passeando pela calçada coberta de neve – teriam enfrentado um dilema se a câmera virtual continuasse funcionando. A calçada que ocupam parece um beco sem saída; eles teriam que passar por cima de um pequeno corrimão para chegar a uma estranha passarela paralela à sua direita. Apesar dessa pequena falha, o exemplo de Tóquio é impressionante.
Outro vídeo marcante é o gerado pelo prompt “uma cena animada com um monstro pequeno e fofo ajoelhado ao lado de uma vela vermelha”, junto com algumas instruções detalhadas (“olhos arregalados e boca aberta”) e uma descrição da vibe desejada. Sora produz uma criatura no estilo Pixar que parece ter DNA de um Furby, um Gremlin e Sully em Monsters, Inc. “Ele aprende sobre geometria e consistência 3D”, diz Tim Brooks, cientista pesquisador do projeto, sobre a ultra- textura complexa do pelo da criatura em movimento. “Nós não criamos – simplesmente surgiu da observação de muitos dados.”
Alimentada por uma versão do modelo de difusão usado pelo gerador de imagens Dalle-3 da OpenAI, Sora não apenas produz vídeos que atendem às demandas dos prompts, mas o faz mostrando uma compreensão respeitável da gramática cinematográfica. Isso fica evidente no vídeo com o prompt “um mundo de papel artesanal maravilhosamente renderizado a partir de um recife de coral, repleto de peixes coloridos e criaturas marinhas”. Bill Peebles, outro pesquisador do projeto, observa que Sora criou uma narrativa impulsionada pelos ângulos de câmera e pelo tempo. “Na verdade, há diversas alterações de tomadas – elas não são costuradas, mas geradas pelo modelo de uma só vez”, diz ele. “Não lhe dissemos para fazer isso, apenas o fez automaticamente.”
Um recurso do Sora que a equipe OpenAI não mostrou, e pode não lançar por um bom tempo, é a capacidade de gerar vídeos a partir de uma única imagem ou sequência de frames. A OpenAI está ciente de que esse recurso em potencial para produzir deepfakes e desinformação. “Teremos muito cuidado com todas as implicações de segurança disso”, acrescenta Peebles. Espere que Sora tenha as mesmas restrições de conteúdo que Dall-E 3: sem violência, sem pornografia, sem apropriação de pessoas reais ou do estilo de artistas nomeados.