IA para Vídeos: Guia de Sobrevivência Definitivo

Guia de Comparação e Análise para Construção de Mundo, Design, Produção & Imersões Espaciais XR 2024

Thiago Toshio Ogusko
9 min readMar 14, 2024

O cenário de vídeos generativos está em alta graças às grandes novidades e lançamentos da OpenAI, Google e outros abaixo. Existem mais de uma dúzia de ferramentas acessíveis por aí que qualquer um pode usar para criar seus próprios vídeos em casa para telas maiores ou compartilhamento em redes sociais. A maioria dessas ferramentas está sendo utilizada para curtas-metragens, videoclipes musicais, publicidade e, em alguns casos, lançamentos cinematográficos. Essas ferramentas também estão sendo usadas para deepfakes, então por favor tenha cuidado e só utilize essas ferramentas com o consentimento das pessoas com quem você está trabalhando (não use sem o consentimento expresso das pessoas cujas imagens ou vídeos você está utilizando para testar).

Este é um guia de comparação de Ferramentas AI atualizado de 2024 que será atualizado conforme novas ferramentas estiverem disponíveis ao público.

Por favor, observe — esta é uma lista das melhores ferramentas e não uma lista exaustiva de todas as ferramentas ou suítes de vídeo generativo disponíveis em todos os conjuntos de idiomas e modelos. Eu atualizarei conforme tiver oportunidade de testar e experimentar mais ferramentas que estão saindo da fase beta. Por favor, deixe um comentário ou me envie uma mensagem privada com links se você quiser tem o interesse de levar isso para um treinamento. Eu ensino e produzo com essas ferramentas com a https://govision.com.br/ e https://www.instagram.com/boomreal.art/ onde tem alguns de nossos trabalhos.

Kaiber: Uma solução rápida para beleza abstrata

Benefícios: Cria vídeos audio-reativos mais longos a partir de uma imagem ou prompt, ou pode transformar vídeos em clipes longos com múltiplas cenas e movimentos, possui 2 geradores e versões para criar vídeos abstratos ou artísticos (veja nosso videoclipe @AuriclesAI aqui, processado duas vezes através do Kaiber e depois Topaz).

Desvantagens: Menos realista do que modelos futuros onde o realismo é alcançado por outros meios; requer créditos que podem ser caros para produções complexas onde a iteração ou o realismo humano são úteis para acertar cenas e sequências específicas.

Runway Gen2 — A versão mais recente da Runway para realismo e movimento

Benefícios: Múltiplos geradores e versões para transformar vídeos existentes em um novo estilo ou gerar clipes a partir de um prompt de texto ou imagem com algum grau de movimento realista através de pincel de movimento e pintura em áreas de movimento (recursos do Gen2). Aqui está um exemplo de vídeo que fiz na Runway usando pincel de movimento no Gen2:

Desvantagens: Pode ser caro adicionar créditos ao produzir trabalhos complexos com muitas cenas para combinar com outro conteúdo de mídia em uma obra publicada; espere gastar pelo menos $40–100 por mês se estiver produzindo mais do que alguns segundos de vídeo.

SORA — Em breve da OpenAI, realismo de difusão

Reservando julgamento sobre os benefícios e desvantagens até que seja público, o SORA promete ser mais próximo de um conjunto de ferramentas para construção de mundo com capacidade de publicação de vídeo se os primeiros previews persistirem até o produto lançado.

Premiere & Adobe Creative Suite, já utilizados em seu local de trabalho

Benefícios: Integrados às ferramentas que muitos criadores já utilizam, especialmente no trabalho. As ferramentas criativas para preenchimento generativo são bastante boas e capazes de antecipar diversos desafios de estilo e tamanho/escala que outras ferramentas generativas não conseguem atender.

Desvantagens: Pagar pela Creative Suite pode ser caro e uma conta completa com pagamento registrado é necessária para qualquer uso significativo de suas ferramentas generativas.

D-ID: a solução inicial para sincronização labial e deep fakes para facilitar o uso

Benefícios: Torna a criação de clipes de sincronização labial muito mais fácil do que a maioria das soluções existentes e está integrado em outras soluções como o Canva (veja abaixo). Foi uma das primeiras, mas não é necessariamente a melhor solução disponível atualmente para combinar movimentos labiais.

Desvantagens: A sincronização labial nem sempre corresponde às palavras que você esperaria naquele idioma e dialeto. Personagens não humanos são permitidos até certo ponto, mas raramente parecem realistas o suficiente para a maioria dos usos. Ferramentas mais realistas estão agora disponíveis e ferramentas mais acessíveis ou gratuitas também estão disponíveis.

Pika Labs: uma ótima escolha para começar com geração

Benefícios: Tem novos recursos como sincronização labial e efeitos sonoros para usuários profissionais; alguns desses recursos funcionam melhor do que outros. O realismo é relativamente realista; veja meus testes aqui. Eu achei as Barbies no Tapete Vermelho mais convincentes, a primeira cena não tinha nada a ver com o meu prompt. A correspondência de prompt com a saída é um problema comum na maioria dos geradores e não é específico dessa ferramenta; ideias realistas e concretas são mais fáceis de gerar a partir de uma foto do que diretamente do prompt.

Desvantagens: Uso do Discord necessário para geração no uso inicial, agora pode ser solicitado via web, mas nem todos os recursos estão disponíveis a menos que você seja um usuário profissional pagando $58 por mês para usar todos os seus serviços profissionais.

Augie (AugXLabs) — combina escrita multimodal, dublagem, clipes e edição

Benefícios: Torna relativamente simples fazer um vídeo gerado básico com clipes licenciados que já estão liberados para uso em redes sociais. Bom para contar histórias básicas, ok para professores que querem adicionar aos seus recursos e provavelmente ok para aqueles que têm uma oferta de aluguel ou venda e precisam fazer vídeos rapidamente. Usa GIFs e vídeos de fontes licenciadas verificadas como GettyImages.

Pode ser um pouco complicado editar e organizar como modificar vídeos de forma eficaz antes de publicar, precisa de implementação adicional de UX e, esperançosamente, implementação inter-setorial com parceiros no futuro. A narração é mais sutil com outros programas, mas é obtida através da ElevenLabs, que oferece serviços profissionais para aqueles que desejam fazer clones de voz para seus próprios audiolivros.

Wonder Dynamics: uma ferramenta VFX para o cineasta independente

Benefícios:

Ótimo para criar personagens não humanos mapeados para um movimento humano para vídeos que apresentam personagens dançantes ou outros efeitos cômicos humanos. Observação — não tenho tanta experiência, então incluí um vídeo de um usuário experiente aqui.

Desvantagens:

Não é um gerador de vídeo típico, é mais um conjunto de ferramentas VFX para um tipo específico de tiro de substituição onde um personagem generativo substitui um humano em uma cena. Útil para alguns tipos de filmes e lançamentos de vídeos curtos. Caro para fazer projetos de cinema maiores, embora seja menos caro do que outros fluxos de trabalho de VFX. “Estamos pagando à Wonder Dynamics para aprender a usar sua plataforma” — Brenda Blanco no vídeo acima revisando o custo do processamento e do promptcraft.

Pictory: a escolha de produção rápida e fácil para muitas empresas

Benefícios:

Uma solução de produção de vídeo de cima para baixo semelhante à do Augie, Canva, Adobe (Firefly) combinando modalidades para produção rápida de vídeo usando uma mistura de ferramentas e soluções gerativas parceiras. Mais um conjunto de ferramentas em sua caixa de ferramentas do que uma ferramenta específica para trabalhos muito específicos, isso pode resolver rapidamente algumas coisas da sua lista.

Desvantagens:

Soluções de edição alternativas incluem CapCut AI, Canva e Augie podem oferecer soluções mais realistas ou semelhantes à vida para aqueles que precisam de realismo ou mais controle sobre seu conteúdo no processo de edição.

Fulljourney

Benefícios: Relativamente fácil e gratuito de usar para começar, mas não de ótima qualidade.

Desvantagens: Uso do Discord necessário para geração de vídeo, não é útil para sincronização labial ainda e tem capacidade limitada para realismo nesta versão de seu desenvolvimento.

Lumiere (próximo lançamento do Google)

Ainda não em lançamento público, este conjunto de ferramentas promete maior realismo do que pode ser atualmente alcançado na maioria das ferramentas acima, exceto SORA; a iluminação pode ser o principal foco aqui, como o nome sugere, junto com a qualidade da equipe e do material de origem disponível para treinamento. No entanto, o Google nem sempre teve grande sorte ao estrear novas ferramentas generativas para o público (veja Gemini). Lumiere tem grande promessa de acordo com relatórios iniciais, mas ainda não está aberto para o resto de nós para testar.

NVIDIA AI: Picasso, ACE, SD Video + outros

A NVIDIA possui uma série de soluções para profissionais, incluindo soluções de código aberto e suporte em nuvem e servidor de custo mais alto para efeitos de filmes e televisão, desde recriações históricas até releitura, substituição de avatar e videoclipes estilizados para mistura de qualidade cinematográfica dentro de fluxos de trabalho profissionais.

https://catalog.ngc.nvidia.com/orgs/nvidia/collections/nvidiaai

https://www.nvidia.com/en-us/gpu-cloud/picasso/

Maxine Live Portrait: https://catalog.ngc.nvidia.com/orgs/nvidia/teams/ai-foundation/models/live-portrait

ComfyUI/AnimateDiff (Stable Diffusion)

Benefícios:

Capaz de ser instalado localmente e roda principalmente em um fluxo de trabalho OS.

Desvantagens: Qualidade, requer habilidades avançadas para melhor uso, não para iniciantes ou criativos não técnicos.

Canva (com Runway & D-ID dentro)

Benefícios: Fácil de editar e integrar em vídeos, reels e publicar em fluxos sociais e tira muito tempo da produção para reels simples e vídeos curtos, necessidades publicadas que incluem multimídia e multimodalidade de sugestão. O vídeo generativo dentro do Canva não é ótimo (habilitado para Runway), mas é melhor do que fundos em branco. Magic Studio é um pouco útil, a integração D-ID funciona um pouco melhor do que a geração de vídeo e a geração de texto é bastante forte.

Desvantagens: Exige uma assinatura mensal paga para integrar a maioria dos ativos em trabalhos publicados, a partir de cerca de US$ 15/mês para acesso a aplicativos e ferramentas de lançamento.

EMO: Emote Portrait Alive — Gerando Vídeos de Retrato Expressivos com o Modelo de Difusão de Áudio2Video em Condições Fracas

https://humanaigc.github.io/emote-portrait-alive/

Esta ferramenta é uma que estou acompanhando atualmente da China e parece promissora para sincronização labial em uma variedade de casos de uso e configurações. Se corresponder ao que estamos obtendo de SORA, NVIDIA ou LUMIERE, ainda está por ver.

Nota dos Produtores para pós-produção: Eu quase sempre uso as ferramentas de vídeo da Topaz Labs nos meus vídeos generativos para limpeza e às vezes para aumentar a resolução ou melhorar a taxa de quadros, já que muitas dessas ferramentas geram apenas 8 a 12 quadros por segundo. Isso pode adicionar efeitos artísticos se você for experimental e estiver disposto a aprender essas ferramentas. Orce o $$$ para ferramentas de pós-produção e mastering usando IA; elas valem a pena.

Qual é a melhor ferramenta de vídeo generativo?

Para realismo, fique de olho nos próximos lançamentos do SORA e do Lumiere. Pika é um ótimo lugar para fazer videoclipes hoje, juntamente com Runway Gen2 em motion brush. Runway trabalha com a NVIDIA, então se você é um profissional de produção de vídeo, assista às palestras da GTC na próxima semana sobre seus novos lançamentos de IA. As ferramentas NVIDIA e Adobe são fantásticas no geral e podem já estar sendo usadas pela sua empresa em outros projetos.

Outras ferramentas em beta ou agora disponíveis para o público (veja acima) são ótimas para edição, VFX, arte abstrata e transferências de estilo. Pessoalmente, uso mais o Kaiber e o Runway do que qualquer outra ferramenta para arte e conceitos. Eu direciono professores e pais para Pika, Augie ou Pictory se eles não forem muito familiarizados com tecnologia ou já forem usuários de produtos da Adobe. Eu uso o Canva regularmente para produção, mas acho irregular para saída generativa.

Uma Observação sobre Segurança e Riscos relacionados a IA e Vídeo Riscos e segurança continuam sendo preocupações não apenas dentro do espaço de mídia generativa, mas mais amplamente com o público e com os governos. Deep fakes sendo usados para manipulação pública são uma preocupação comum, juntamente com um aumento em hacking e ciberataques. Professores estão constantemente preocupados com o uso em salas de aula. Note que a UE lançou suas regulamentações de IA aguardando votação final: “Uma grande ‘vitória’ para a sociedade civil foram as Avaliações de Impacto de Direitos Fundamentais (FRIAs) — haverá uma obrigação para os implementadores de IA de alto risco conduzirem essas avaliações. Mas — e é um grande ‘mas’ — os FRIAs nem sempre incluem o setor privado, então apenas aqueles implementando IA no setor público e um pequeno subconjunto de empresas privadas terão que avaliar o risco aos direitos humanos — deixando muitas pessoas desprotegidas.” — Laura Lazaro Cabrera Como escolhemos construir essa indústria através de feedback cuidadoso cabe a todos nós. Quais ferramentas te interessam e quais são as maiores questões que você tem em relação ao seu uso e implantação segura com o público?

Use com sabedoria!

--

--

Thiago Toshio Ogusko

Produtor XR trabalhando na interseção de tecnologia|narrativa, arte|educação. Combinando audiovisual e desenvolvimento de experiência imersiva XR. @the.toshio