Vidu: A Nova Inteligência Artificial Chinesa que Desafia Sora na Geração de Vídeos
A corrida pela supremacia na geração de vídeo por inteligência artificial ganhou um novo e promissor competidor. A empresa chinesa ShengShu, em colaboração com a prestigiosa Universidade de Tsinghua, anunciou recentemente o Vidu, um modelo de IA capaz de transformar texto em vídeo que alega estar no mesmo nível do renomado Sora, desenvolvido pela OpenAI. Este anúncio não apenas agita o cenário tecnológico, mas também sublinha o rápido avanço da China no campo da inteligência artificial.
ShengShu e Tsinghua University Apresentam Vidu: Um Novo Marco na Geração de Vídeo com IA
O anúncio oficial do Vidu ocorreu durante o Fórum Zhongguancun em Pequim, um evento de destaque para inovações tecnológicas. De acordo com um artigo do Global Times, citado no vídeo de apresentação, o Vidu é apontado como o primeiro modelo na China a se equiparar ao Sora, representando mais uma manifestação do acelerado desenvolvimento chinês no emergente e crítico campo da IA.
A Tecnologia por Trás do Vidu: U-ViT e a Fusão de Modelos de Difusão e Transformer
A arquitetura central do Vidu é o Universal Vision Transformer (U-ViT), um modelo de transformação visual desenvolvido pela própria ShengShu. Conforme detalhado, o U-ViT integra de forma inovadora dois tipos de modelos de IA para conversão de texto em vídeo: os modelos de Difusão e os modelos Transformer.
A fusão dessas duas abordagens é considerada um passo significativo na IA generativa. Os modelos de Difusão, como o Stable Diffusion, são conhecidos por sua capacidade de gerar imagens de alta qualidade. Por outro lado, os modelos Transformer, cuja base teórica remonta ao influente artigo "Attention Is All You Need" do Google, são excelentes na compreensão de contexto e linguagem natural, sendo o alicerce de LLMs como o ChatGPT.
Ao combinar essas tecnologias, o Vidu busca unir a proeza na geração visual dos modelos de Difusão com a profunda compreensão contextual dos Transformers. O objetivo é produzir vídeos que não sejam apenas visualmente impressionantes, mas também coesos e fiéis às nuances dos prompts de texto. É interessante notar que, segundo o vídeo, a tecnologia central do U-ViT foi proposta pela equipe de pesquisa do Vidu em setembro de 2022, antes mesmo da arquitetura DiT (Diversity in Transformation) do Sora ser divulgada.
Capacidades do Vidu: Geração de Vídeo 1080p e Análise Comparativa
O Global Times informa que o Vidu pode gerar videoclipes de 16 segundos em resolução 1080p com apenas um clique. A análise do showreel apresentado revela pontos fortes e algumas áreas para desenvolvimento:
- Realismo e Geração de Mãos: Em várias cenas, o Vidu demonstrou uma capacidade notável de gerar mãos humanas com cinco dedos, um desafio comum para modelos de IA. O realismo geral das cenas também é alto.
- Comparações com Sora: O vídeo de apresentação faz comparações diretas com demonstrações do Sora:
- Falhas Observadas no Showreel do Vidu: Apesar da qualidade geral, algumas inconsistências foram notadas:
- Resolução do Vídeo de Demonstração: É importante ressaltar que o showreel do Vidu, obtido através do WeChat, estava em 720p. As demonstrações do Sora, por sua vez, são em 1080p, o que pode influenciar a percepção de qualidade e detalhe.
Vidu vs. Sora e Outros Geradores de Vídeo IA: Onde o Vidu se Encaixa?
O Vidu se posiciona como um concorrente direto do Sora da OpenAI. O narrador do vídeo que originou este artigo opina que o Vidu supera as ferramentas atualmente disponíveis ao público, como Runway e Pika. No entanto, com base no showreel, ele pondera que o Vidu pode ainda não estar no mesmo patamar das capacidades *demonstradas* pelo Sora, que, vale lembrar, ainda não foi lançado publicamente.
Zhu Jun, vice-reitor do Instituto de Inteligência Artificial da Universidade de Tsinghua e cientista-chefe da ShengShu-AI, mencionou, conforme o Global Times, que após o lançamento do Sora, perceberam um alinhamento com seu roadmap técnico, o que os motivou a avançar em suas pesquisas.
O Cenário Chinês de Inteligência Artificial: Avanços Além do Vidu
O lançamento do Vidu não é um evento isolado, mas parte de um avanço mais amplo da inteligência artificial na China. O vídeo também destaca outros progressos recentes:
- A SenseTime lançou o SenseNova 5.0, um LLM que, segundo relatos, supera o GPT-4 Turbo em quase todos os benchmarks, ostentando uma janela de contexto de 200k e treinamento com mais de 10TB de tokens.
- A Astribot revelou seu robô S1, que demonstrou velocidade e destreza impressionantes em suas tarefas.
Esses desenvolvimentos sinalizam um progresso rápido e um investimento significativo em IA por parte da China, que está se tornando uma força cada vez mais relevante no cenário global.
Como Acessar o Vidu: Um Guia para Interessados
Para aqueles interessados em experimentar o Vidu, é possível solicitar acesso através do website oficial da ShengShu AI. No site, ao navegar até a seção de geração de vídeo, há uma opção para "Apply for use" (Solicitar uso).
Ao clicar, um formulário é apresentado, solicitando informações como Nome, Número de Telefone, Nome da Empresa, Tamanho da Empresa e Setor de Atuação. A página informa que "Deixe suas informações de contato e nosso consultor de marketing irá atendê-lo". Os critérios de elegibilidade para acesso não foram especificados.
A chegada do Vidu ao mercado de geração de vídeo por IA é, sem dúvida, um acontecimento importante. Ele não apenas introduz um novo e poderoso concorrente, como também intensifica a competição global neste campo tecnológico em rápida evolução. Enquanto as comparações com o Sora são inevitáveis e continuarão à medida que mais demonstrações e acessos forem disponibilizados, a arquitetura U-ViT do Vidu demonstra um potencial considerável. Juntamente com outros avanços recentes, o Vidu reforça a posição da China como um polo de inovação em inteligência artificial, prometendo um futuro excitante e dinâmico para a tecnologia.