Vídeo generativo vive evolução exponencial

10/01/25 • 19:31

Quanta informação o ser humano produz diariamente? Em 1925, contando livros, jornais impressos, programas de rádio e filmes sendo produzidos, estima-se que era algo entre 2 a 3 terabytes por dia. A estimativa para 2025 é de exorbitantes 463 exabytes (ou 463 milhões de terabytes) por dia. Nos últimos 100 anos, a humanidade passou a produzir cerca de 230 milhões de vezes mais informação a cada dia — considerando como informação dados em qualquer formato, criados e distribuídos em qualquer meio.

Mais da metade (53,72%) da informação que circula diariamente na internet é consumida em formato de vídeo. Diariamente, o YouTube recebe 720 mil novas horas de conteúdo, equivalentes a cerca de 5 mil terabytes. Vídeos dominam o consumo de mídia no Facebook, no TikTok e no Snapchat, e geram até dez vezes mais engajamento e interação no Instagram e no X, plataformas originalmente voltadas para fotos e para texto, respectivamente.

Por mais impressionantes que esses números possam parecer, essa quantidade diária de informação em breve vai parecer irrisória. A era digital vem acelerando o compasso da produção de informação e, em breve, toda a produção humana será eclipsada por uma quantidade infinita de informação gerada por inteligência artificial (IA), que vai inundar servidores, mídias sociais e redes de forma avassaladora.

Imagens sintéticas vêm confundindo nossa percepção de realidade, sendo cada vez mais difíceis de identificar. Vídeos sintéticos são o próximo passo lógico, e será imenso o impacto que terão na produção audiovisual, no entretenimento, nas redes sociais e em diversos setores da sociedade e de nossas vidas.

Longe se vão os primeiros dias de 2023, em que vídeos sintéticos ainda eram um caos generativo fora de controle, em que objetos sumiam e ressurgiam aleatoriamente, pessoas ganhavam novos membros e carros se fundiam em movimentos impossíveis, em uma forma de surrealismo visual que poderá se tornar arte cult daqui a alguns anos.

A maior parte dos desafios das ferramentas de vídeo de IA passava, e ainda passa, pelo nível de controle oferecido. Nesse contexto, a Runway lançou o modelo Gen1, de transformação de vídeo-para-vídeo, em fevereiro de 2023, e em seguida lançou o revolucionário Gen-2, de texto e imagem para vídeo, em março. Embora impressionante à época, o Gen-2 recorria excessivamente à interpolação para conseguir gerações mais longas, e normalmente seus vídeos pareciam estar em câmera lenta. Ao longo do ano, eles adicionaram ferramentas de controle de câmera, de movimento e de estilo, além da capacidade de estender as gerações por mais 8 segundos por vez, chegando a mais de 30 segundos totais por take.

As ferramentas de controle que a Runway lançou nessa época ajudaram a mostrar que havia muito mais formas de controlar uma geração do que um simples prompt, e seguem orientando a indústria até hoje.

Quando o modelo SORA, da OpenAI, foi anunciado em fevereiro de 2024, as primeiras reações foram de espanto pelo realismo e pela qualidade das imagens produzidas. Naquele momento, a única forma de controle possível para o SORA ainda era o prompt, que podia ser extenso e detalhado, mas jamais entregaria exatamente tudo que era pedido.

Finalmente lançado em dezembro de 2024, o SORA evoluiu e permite a geração de vídeos a partir de textos, imagens ou outros vídeos, tem opções de estilos e uma ferramenta de storyboard para a geração de sequências de vídeos como parte de uma mesma história. E, sim, mesmo após tanta espera, o SORA ainda é muito impressionante — e caro.

Já a Runway lançou o Gen-3 em junho de 2024, com outro nível de qualidade, capaz de gerar vídeos a partir de textos, imagens ou vídeos. O modelo superou sua tendência de câmera lenta e veio ganhando recursos avançados ao longo do ano, como controle de câmera, expansão de vídeos, extensão de vídeos, uma versão turbo extremamente rápida e até mesmo a capacidade de incorporar a performance facial, de fala e sincronia labial de um vídeo real na geração de um vídeo de IA, com uma ferramenta chamada Act-One.

Nesse meio tempo, a China entrou de forma extremamente competitiva no espaço, com empresas como Kuaishou e Hailuo lançando seus respectivos serviços Kling e Minimax. A Kuaishou é uma concorrente do Tik-Tok e por isso tem acesso a uma vasta base de dados de vídeo para treinamento. O Kling foi lançado em junho de 2024, e seu modelo 1.0 já teve dois upgrades desde então, o 1.5 em setembro e, mais recentemente, o 1.6, em dezembro. Além das atualizações de modelo, o serviço também passou a oferecer resolução de FullHD e controles de câmera e movimento, como a Runway.

Mas o Kling tem outras surpresas: ele permite ao usuário treinar um personagem consistente, a partir de vídeos, e depois do treinamento se torna capaz de gerar vídeos daquele personagem em qualquer situação. Além disso, ele permite experimentar e trocar diferentes vestimentas em um mesmo personagem estático, para em seguida dar vida a ele em vídeo.

Embora mais recente e com menos recursos de controle, o Minimax impressiona pela qualidade. Recentemente, lançou um novo modelo, especializado em gerar animações 2D — um estilo de animação que os outros modelos ainda não lidam tão bem. E nesta última semana, lançou um novo recurso de consistência de personagens em vídeo, a partir de uma imagem de rosto.

Big techs

As gigantes de tecnologia Adobe, Meta e Google jamais iriam ficar de fora dessa arena — e as três já exibiram e estão lançando ou integrando seus modelos de geração de vídeo ao longo deste ano.

O Google lançou, por enquanto apenas nos EUA, o modelo VEO 2 da Deepmind, que parece estar bem à frente em qualidade e resolução de imagem (4K), duração (até dois minutos) e aderência aos prompts — embora, por questões de segurança, quem tem acesso só pode gerar vídeos de 720p e em cenas de até 8 segundos. Essa liderança em termos de qualidade certamente está relacionada à qualidade da base de vídeos do Youtube — a maior do mundo.

A Meta anunciou seu MovieGen em outubro de 2024, mas ainda não tornou a ferramenta pública, igualmente por questões de segurança. Seu modelo está entre os mais impressionantes, e se destaca dos outros também pela capacidade de editar vídeos usando apenas texto, algo inimaginável até pouco tempo atrás. Em seus planos, está integrar a ferramenta ao Instagram e ao Whatsapp.

E a Adobe lançou seu modelo Firefly em outubro, e vem integrando a capacidade de geração e extensão de vídeos em seus softwares. Ela se posiciona de forma distinta da concorrência, garantindo que seus modelos foram treinados apenas com dados e imagens sobre os quais ela tinha licenças e direitos.

Embora a geração artificial de vídeos ainda esteja longe de ser perfeita, entramos em 2025 com diversas ferramentas já cruzando ou prestes a cruzar a barreira do “vale do estranhamento” — o chamado uncanny valley. Esse feito, por si só representa um avanço enorme, que a indústria do 3D tenta há décadas superar sem sucesso — a capacidade de criar pessoas artificiais nos mínimos detalhes e movimentos, de forma indistinguível de uma pessoa real.

A combinação dessas duas tecnologias, IA e 3D, pode inclusive ser uma das grandes tendências do ano. Usar uma animação em 3D como base e aplicar uma segunda passagem de vídeo-para-vídeo usando IA parece ser uma receita promissora para se chegar ao mesmo tempo ao controle de cena, cinematografia e movimento desejado por diretores e produtores audiovisuais, e atravessar o “vale do estranhamento” de uma vez por todas.

A competição dos modelos de geração de vídeo por IA mal começou, e já parece atingir velocidade de escape. Entre novos atores e gigantes da tecnologia, existem diversos pesos-pesados bem posicionados. As preocupações éticas e de segurança começam a se tornar cada vez mais presentes, e importantes, à medida em que a qualidade das ferramentas sintéticas torna o conteúdo de vídeo generativo mais difícil de distinguir da própria realidade. As implicações dessa tecnologia para a sociedade contemporânea são imensas, e as potenciais consequências, enormes — para o bem e para o mal. Uma coisa é certa: esse vai ser o ano do vídeo de IA.

Meio

Vídeo generativo vive evolução exponencial

Você viu?

Oposição acusa Maduro de prender María Corina na véspera da posse

Crítica cultural ou vigilância moral?

Novo Curso do Meio — IA: Novos Modos de Usar

Veja mais

Mais clicados

Meta sem filtros

CES 2025 mostra as novidades no mercado de androides

Premium

Premium + Cursos