清华大学伙生数科技发表 国产影片大模型Vidu(图)

发布 : 2024-5-05  来源 : 明报新闻网


用微信扫描二维码,分享至好友和朋友圈

国产文字生成影片大模型Vidu号称更理解中国元素,产生包括熊猫、龙、东方人面孔的短片时,效果特别出色。(图片截取自央视新闻)


在4月底的中关村论坛年会未来人工智能先锋论坛上,清华大学联合生数科技发表了中国首个文字生成影片的大模型Vidu。清华大学教授、生数科技首席科学家朱军表示,Vidu和OpenAI的Sora相似,能够根据用户提供的文字描述,而一键生成,直接产生解像度达到1080p的高品质短片。

暂能产生16秒短片 特别理解中国元素

Vidu能够模拟真实物理世界,具备多镜头生成、时空一致性高之外,还强调特别理解中国元素,例如能够产生熊猫、龙等短片。不过,Vidu暂时只能产生16秒长的短片,与Sora的1分钟相比,仍然有颇大差距。

朱军表示,Vidu的突破,源自研发团队在贝叶斯机器学习和多模态大模型的长期累积和多项原创性成果。研发团队早在2022年9月提出其核心技术U-ViT架构,是全球首个将Diffusion和Transformer融合的架构。而在今年2月中OpenAI发表Sora之后,团队基于对U-ViT架构的深入理解,以及长期积累的工程和数据经验,再进一步突破关键技术,显著提升Vidu产生影片的连贯性和动态性。朱军又称,将这个国产影片大模型取名Vidu,是因为其发音和Video相似,也蕴含We do的寓意,未来希望与产业链上下游企业、研究机构加强合作,共同推动影片大模型进展。明报记者 薛伟杰