Vídeo generativo vive evolução exponencial
Quanta informação o ser humano produz diariamente? Em 1925, contando livros, jornais impressos, programas de rádio e filmes sendo produzidos, estima-se que era algo entre 2 a 3 terabytes por dia. A estimativa para 2025 é de exorbitantes 463 exabytes (ou 463 milhões de terabytes) por dia. Nos últimos 100 anos, a humanidade passou a produzir cerca de 230 milhões de vezes mais informação a cada dia — considerando como informação dados em qualquer formato, criados e distribuídos em qualquer meio.
Mais da metade (53,72%) da informação que circula diariamente na internet é consumida em formato de vídeo. Diariamente, o YouTube recebe 720 mil novas horas de conteúdo, equivalentes a cerca de 5 mil terabytes. Vídeos dominam o consumo de mídia no Facebook, no TikTok e no Snapchat, e geram até dez vezes mais engajamento e interação no Instagram e no X, plataformas originalmente voltadas para fotos e para texto, respectivamente.
Por mais impressionantes que esses números possam parecer, essa quantidade diária de informação em breve vai parecer irrisória. A era digital vem acelerando o compasso da produção de informação e, em breve, toda a produção humana será eclipsada por uma quantidade infinita de informação gerada por inteligência artificial (IA), que vai inundar servidores, mídias sociais e redes de forma avassaladora.
Imagens sintéticas vêm confundindo nossa percepção de realidade, sendo cada vez mais difíceis de identificar. Vídeos sintéticos são o próximo passo lógico, e será imenso o impacto que terão na produção audiovisual, no entretenimento, nas redes sociais e em diversos setores da sociedade e de nossas vidas.
Longe se vão os primeiros dias de 2023, em que vídeos sintéticos ainda eram um caos generativo fora de controle, em que objetos sumiam e ressurgiam aleatoriamente, pessoas ganhavam novos membros e carros se fundiam em movimentos impossíveis, em uma forma de surrealismo visual que poderá se tornar arte cult daqui a alguns anos.
A maior parte dos desafios das ferramentas de vídeo de IA passava, e ainda passa, pelo nível de controle oferecido. Nesse contexto, a Runway lançou o modelo Gen1, de transformação de vídeo-para-vídeo, em fevereiro de 2023, e em seguida lançou o revolucionário Gen-2, de texto e imagem para vídeo, em março. Embora impressionante à época, o Gen-2 recorria excessivamente à interpolação para conseguir gerações mais longas, e normalmente seus vídeos pareciam estar em câmera lenta. Ao longo do ano, eles adicionaram ferramentas de controle de câmera, de movimento e de estilo, além da capacidade de estender as gerações por mais 8 segundos por vez, chegando a mais de 30 segundos totais por take.
As ferramentas de controle que a Runway lançou nessa época ajudaram a mostrar que havia muito mais formas de controlar uma geração do que um simples prompt, e seguem orientando a indústria até hoje.
Quando o modelo SORA, da OpenAI, foi anunciado em fevereiro de 2024, as primeiras reações foram de espanto pelo realismo e pela qualidade das imagens produzidas. Naquele momento, a única forma de controle possível para o SORA ainda era o prompt, que podia ser extenso e detalhado, mas jamais entregaria exatamente tudo que era pedido.
Finalmente lançado em dezembro de 2024, o SORA evoluiu e permite a geração de vídeos a partir de textos, imagens ou outros vídeos, tem opções de estilos e uma ferramenta de storyboard para a geração de sequências de vídeos como parte de uma mesma história. E, sim, mesmo após tanta espera, o SORA ainda é muito impressionante — e caro.
Já a Runway lançou o Gen-3 em junho de 2024, com outro nível de qualidade, capaz de gerar vídeos a partir de textos, imagens ou vídeos. O modelo superou sua tendência de câmera lenta e veio ganhando recursos avançados ao longo do ano, como controle de câmera, expansão de vídeos, extensão de vídeos, uma versão turbo extremamente rápida e até mesmo a capacidade de incorporar a performance facial, de fala e sincronia labial de um vídeo real na geração de um vídeo de IA, com uma ferramenta chamada Act-One.
Nesse meio tempo, a China entrou de forma extremamente competitiva no espaço, com empresas como Kuaishou e Hailuo lançando seus respectivos serviços Kling e Minimax. A Kuaishou é uma concorrente do Tik-Tok e por isso tem acesso a uma vasta base de dados de vídeo para treinamento. O Kling foi lançado em junho de 2024, e seu modelo 1.0 já teve dois upgrades desde então, o 1.5 em setembro e, mais recentemente, o 1.6, em dezembro. Além das atualizações de modelo, o serviço também passou a oferecer resolução de FullHD e controles de câmera e movimento, como a Runway.
Mas o Kling tem outras surpresas: ele permite ao usuário treinar um personagem consistente, a partir de vídeos, e depois do treinamento se torna capaz de gerar vídeos daquele personagem em qualquer situação. Além disso, ele permite experimentar e trocar diferentes vestimentas em um mesmo personagem estático, para em seguida dar vida a ele em vídeo.
Embora mais recente e com menos recursos de controle, o Minimax impressiona pela qualidade. Recentemente, lançou um novo modelo, especializado em gerar animações 2D — um estilo de animação que os outros modelos ainda não lidam tão bem. E nesta última semana, lançou um novo recurso de consistência de personagens em vídeo, a partir de uma imagem de rosto.
Big techs
As gigantes de tecnologia Adobe, Meta e Google jamais iriam ficar de fora dessa arena — e as três já exibiram e estão lançando ou integrando seus modelos de geração de vídeo ao longo deste ano.
O Google lançou, por enquanto apenas nos EUA, o modelo VEO 2 da Deepmind, que parece estar bem à frente em qualidade e resolução de imagem (4K), duração (até dois minutos) e aderência aos prompts — embora, por questões de segurança, quem tem acesso só pode gerar vídeos de 720p e em cenas de até 8 segundos. Essa liderança em termos de qualidade certamente está relacionada à qualidade da base de vídeos do Youtube — a maior do mundo.
A Meta anunciou seu MovieGen em outubro de 2024, mas ainda não tornou a ferramenta pública, igualmente por questões de segurança. Seu modelo está entre os mais impressionantes, e se destaca dos outros também pela capacidade de editar vídeos usando apenas texto, algo inimaginável até pouco tempo atrás. Em seus planos, está integrar a ferramenta ao Instagram e ao Whatsapp.
E a Adobe lançou seu modelo Firefly em outubro, e vem integrando a capacidade de geração e extensão de vídeos em seus softwares. Ela se posiciona de forma distinta da concorrência, garantindo que seus modelos foram treinados apenas com dados e imagens sobre os quais ela tinha licenças e direitos.
Embora a geração artificial de vídeos ainda esteja longe de ser perfeita, entramos em 2025 com diversas ferramentas já cruzando ou prestes a cruzar a barreira do “vale do estranhamento” — o chamado uncanny valley. Esse feito, por si só representa um avanço enorme, que a indústria do 3D tenta há décadas superar sem sucesso — a capacidade de criar pessoas artificiais nos mínimos detalhes e movimentos, de forma indistinguível de uma pessoa real.
A combinação dessas duas tecnologias, IA e 3D, pode inclusive ser uma das grandes tendências do ano. Usar uma animação em 3D como base e aplicar uma segunda passagem de vídeo-para-vídeo usando IA parece ser uma receita promissora para se chegar ao mesmo tempo ao controle de cena, cinematografia e movimento desejado por diretores e produtores audiovisuais, e atravessar o “vale do estranhamento” de uma vez por todas.
A competição dos modelos de geração de vídeo por IA mal começou, e já parece atingir velocidade de escape. Entre novos atores e gigantes da tecnologia, existem diversos pesos-pesados bem posicionados. As preocupações éticas e de segurança começam a se tornar cada vez mais presentes, e importantes, à medida em que a qualidade das ferramentas sintéticas torna o conteúdo de vídeo generativo mais difícil de distinguir da própria realidade. As implicações dessa tecnologia para a sociedade contemporânea são imensas, e as potenciais consequências, enormes — para o bem e para o mal. Uma coisa é certa: esse vai ser o ano do vídeo de IA.