Nova Funcionalidade: Imagem para Vídeo com Áudio

O Google VEO-3 acaba de receber uma grande atualização com a introdução da funcionalidade de conversão de imagem para vídeo com áudio. Anteriormente, já existiam algumas opções de imagem para vídeo no V3, especificamente na função “frames to video”, mas os resultados eram inconsistentes.

Abaixo, temos o video curto criado pelo Tim.

Demonstração Prática

Para testar as novas capacidades, ele criou um projeto chamado “Operation Fuzzy Bunny”, utilizando três imagens do Midjourney com um código SREF específico para obter uma estética cinematográfica dos anos 90. O resultado foi impressionante, mostrando a capacidade do V3 de gerar diálogos e narrativas coerentes.

Limitações e Proteções

O VEO-3 possui proteções contra a geração de conteúdo com semelhanças de celebridades. Durante os testes, o sistema rejeitou imagens que se pareciam com Tom Cruise e Daniel Craig, recusando-se a processá-las. Importante notar que quando isso acontece, não são cobrados créditos do usuário.

Como Usar a Funcionalidade

Para utilizar a conversão de imagem para vídeo:

  1. Acesse o menu e selecione “frames to video”
  2. Você terá opções para primeiro quadro e último quadro
  3. Clique no botão “+” para fazer upload de uma imagem ou gerar uma nova
  4. A funcionalidade funciona tanto no VEO-3 padrão quanto no V3 Fast

Comparação: VEO-3 Fast vs Standard

Uma descoberta interessante é que a funcionalidade de frames para vídeo com áudio funciona também na versão V3 Fast, que é mais barata (20 créditos por geração) comparada à versão padrão (100 créditos).

Nos testes comparativos, as diferenças entre as versões Fast e Standard foram mínimas, tornando a versão Fast uma opção mais econômica sem sacrificar significativamente a qualidade.

Custos e Eficiência

Para o projeto “Operation Fuzzy Bunny”, foram necessárias 22 gerações no total para criar 6 cenas, mas considerando apenas as utilizadas no resultado final, foram 12 gerações – uma média de 2 gerações por cena, o que é bastante eficiente.

Dicas para Economizar

Uma estratégia útil é planejar para obter duas falas ou cenas de uma única geração, aproveitando os 8 segundos de duração disponíveis. Isso pode reduzir significativamente o número de gerações necessárias.

Consistência de Imagem

O VEO-3 se destaca especialmente na criação de personagens consistentes. A cadência vocal e performance dos personagens supera os métodos tradicionais de texto-para-voz sincronizado com lábios.

Consistência de Voz

Os testes mostraram que é possível manter vozes consistentes entre diferentes gerações, desde que se use descrições físicas detalhadas dos personagens em vez de nomes. Por exemplo, “a mulher de cabelo loiro preso em coque, com voz firme e comandante” funciona melhor que simplesmente usar um nome de personagem.

Limitações em Cenas de Ação

Embora o VEO-3 tenha evoluído muito, ainda apresenta limitações em sequências de ação, especialmente lutas. Os movimentos podem parecer sem energia ou pouco convincentes, embora o áudio e diálogos permaneçam sincronizados.

Atualização de Preços

Uma boa notícia é que agora assinantes do plano Pro ($20/mês) podem comprar créditos adicionais, funcionalidade que antes estava disponível apenas no plano Ultra ($250/mês). É possível gastar $50 por 5.000 créditos adicionais, resultando em aproximadamente 300 gerações Fast por mês por $70 total, uma economia significativa comparada ao plano Ultra.

Conclusão

O VEO-3 representa um avanço significativo na geração de vídeos com IA, especialmente com a nova funcionalidade de imagem para vídeo com áudio. Embora ainda tenha limitações em cenas de ação complexas, a qualidade geral dos personagens e a consistência vocal tornam-no uma ferramenta poderosa para criação de conteúdo audiovisual.


Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *