中国首个长时长、高一致性、高动态性视频大模型,「Vidu」登场!

作者: 生数科技分类: 设计·创意 发布时间: 2024-04-27 17:04:41 浏览:38895 次

中国首个长时长、高一致性、高动态性视频大模型,「Vidu」登场!

岭西二巷:
在Sora发布后,我们发现刚好和我们的技术路线是高度一致的,这也让我们坚定地进一步推进了自己的研究 忍住不笑

【回复】你是想说感谢马斯克开源sora吧?[doge]
【回复】sora也没发布吧,不知道你在嘲讽什么
【回复】你要能抄这么快,你最好也抄一下,没本事净会找爹了
无穷小亮的水猴子:
一帮啥都不懂的隔这指点江山看的人尴尬

TheFatPanda:
我也不懂为什么一定是中国的AI比较差呢?请问Sora已经应用了吗?如果没有的话,何来中国的AI比较差呢?

【回复】因为他们说sora是第九次工业革命呀,中国AI要是强,岂不是在第九次工业革命领先了吗[doge]
【回复】回复 @以神皇之名1 : 事实就是中国已经在工业生产领域应用了AI,这点你不用怀疑,中国有无数的AI公司,它们运用在不同领域,有混子吗?肯定有啊,但有真本事的更多,所以一般别人举例子说中国AI等别人开源的,我都会问是哪家公司,公司名字都说不出来,整天就学会个开源到处喷,再说sora也没开源啊!
【回复】回复 @小懒虫趴着上网 :sora可没开源吧,也没开放使用
式姐和我周年婚庆:
Sora还没正式发布吧?不会有说套壳的吧?

【回复】sora没开源,也没放开使用。
【回复】谁来套壳一个没开源的sora[吃瓜]
【回复】肯定有,那些人有不懂技术,只要国内不是第一就是用的开源,即使是第一也是用人家未来发明的技术。
冰川轮回:
终于等到国产的视频大模型了,坐等一批吹毛求疵的黑子

【回复】回复 @燕尾晴岚 :我寻思你爹openai也没说是自主知识产权,猜你🐴呢猜
【回复】回复 @狂暴的头盔男 :跟这若智说什么,连这两个模型的结构都不知道,还自称内行,中专出来的吧
【回复】回复 @燕尾晴岚 :宁去sora偷代码抢劫研发?
奋斗新青年明哥:
我只有一个问题,里面几乎所有元素都是非中国元素,我可以合理怀疑训练的库就没有中国的东西,那团队核心成员没有中国人?中国的模型值得自豪,但我看到的可以说是没有一个中国元素。

【回复】说得轻巧,国内哪去找合适的素材库?开源/国产/高质量,不可能三角了属于是。 你如果干过媒体,你就知道CC0了,基本都没有国内来源。
【回复】怎么还能从生成结果判断国籍的,怎么,你中国人和美国人写的同一行代码还能输出不同的结果不成
【回复】回复 @奋斗新青年明哥 :模型训练又不是直接把素材输入进去就完了,模型训练是需要专门的数据集的,而数据集都是人工一份份标注出来的。像这种视频生成模型需要的训练集基本都是一个视频内容描述对应一段视频,如果要保证训练效果那训练素材描述的语法,图像的质量,图像内容的分布等等还会有特殊的要求。这些数据的需求量非常大,要靠专门的数据标准公司去做,而世面上公开现成的数据集几乎都是欧美世界的,你要一个包含国内元素的数据集,那就得找别人公司定制,一是费钱二是费时间,生数一看就是没钱没时间的公司
凯久条:
刚刚申请了资格,我的建议是赶在SORA之前出,抢占市场,现在pika,runway出的PPT视频已经看腻了

【回复】就目前的效果根本不能商用,涂抹感严重,细节经不起深究,而且跟定格动画一样一卡一卡的,还是再打磨打磨吧
【回复】回复 @燕尾晴岚 :敢问是哪一家?
【回复】给你讲个故事,我手头的这个项目 甲方报价90W,我们采购了75W的系统,外包了7W做二次开发,我们自己压8W 整个大项目300W,我们只赚了不到15%,大头全部在供应商手上,二次开发和承包商五五分账 看上去我是项目经理指点江山,实际上是给供应商的产品做的免费商务,到处给他们找客户 在AI领域,只有一家供应商
Mr-Anonymous-:
隔壁sora刚翻车,这个有多少剪辑和夸大呢🧐

【回复】嘿嘿,一个卧龙,一个凤雏
澤頔不说话:
评论区有的人真的小丑,我问他国外哪个已经开源的AI能像视频中一样生成高时长高连贯性的视频,他咋不回答我。怎么,就你知道国外开源是吧。说句实话,现阶段已经开源的,基本没有可以做到视频中一样的水平,更何况你列举的都是换脸换头的AI 自己说话丝毫没有什么论据,怎么,国外已经开源,只要我们有同类技术就是套壳? 视频中没有中国元素就是抄袭?为什么不能是也用国外的视频数据训练的呢? 说句实话,一个普通平均水平的程序员如果都能没看代码直接依据视频得出是否抄袭的活,国产AI也不至于分数没输过,使用没赢过

沐沐兮涵:
之前sora都被爆有人工参与了,别最后又是他们提概念我们来实现[笑哭]

chuckyice:
罗马不是一天建成的,所以不要在意某些人的阴阳怪气,现在咱有了就是进步,继续努力,总有比肩超越的时刻!

【回复】回复 @里奥梅次朗 :你看看你会吃饭是不是抄袭你爹我
【回复】回复 @冰凌玄雨 :Vidu的快速突破源自于团队在贝叶斯机器学习和多模态大模型的长期积累和多项原创性成果。其核心技术U-ViT架构由团队于2022年9月提出,早于Sora采用的DiT架构,是全球首个Diffusion与Transformer融合的架构。2023年3月,团队开源了全球首个基于U-ViT融合架构的多模态扩散模型UniDiffuser,率先完成了U-ViT架构的大规模可扩展性验证。
【回复】回复 @里奥梅次朗 :罕见收收味,好几个vidu的视频下面看到你发这种逆天言论了。 还一个别人的评论都不敢回,你这样发也能3块一条吗?
无穷小亮的水猴子:
《发个证件照要别人50的大厂程序员》[doge]

【回复】这位大厂专业人员是专业问题一个说不出,东拉西扯倒是一绝,可能就指着给人看50块钱一张的工作证换钱呢。
superbow:
这评论区太草了,感觉懂哥比我那搞ai的朋友还懂[笑哭]

【回复】ai嘛,跟量子一样,懂得人都不懂,不懂的人都懂[吃瓜]
先後:
我希望起码生成的是一些中国人形象吧,不知道是你们训练数据的问题还是有什么偏好

【回复】公用免费数据库是就是外国人
卢来上:
为什么我找不到vidu的网站?难道没有官方网站吗?都上新闻了网站发布在哪了?

【回复】好像是这个:https://pw.shengshu-ai.com/mobile
含梦前行:
(以下来自央视新闻)这就是由微度生成的高清视频。 在中关村论坛上,清华大学教授生数科技首席科学家朱军进行了现场展示。 他介绍,微度支持一键生成长达16秒,分辨率高达1080P的高清视频内容。不仅能够模拟真实物理世界,还拥有丰富想象力。 此外,微度还能理解中国元素,并生成视频,例如熊猫龙等。 他与Sorra一样都抓住了视频生成的精髓,对现实世界物理规律的模拟,并且从文本到视频的转换都是直接而连续的微度的。 快速突破,源自于团队在贝叶斯机器学习和多模态大模型的长期积累和多项原创性成果,其核心技术UVA T架构由团队于2022年9月提出,早于Sora采用的dit架构,是全球首个diffusion与transformer融合的架构,完全由团队自主研发。 朱军告诉记者,今年1月,微都团队已实现4秒视频的生成,在骚扰发布之前,业内大多专注的是已有视频质量如何再提升,而open AI团队则在一开始就主攻长视频。 Sora的发布,极大的刺激了朱军和他的团队。 包括自媒体上会说,目前在这个视频生成的这个大模型里边,只有骚扰和其他。 换句话说,就是所有其他的这个都和骚扰差的很远,我们是第一时间去做的紧急的公关的一个部署,我们应该算是以最快的速度在朝前跑。 经过团队的努力,3月底微度一键生成视频,突破到了8秒。在此次中关村论坛上,微度对外展示的是16秒的阶段性成果,虽然与sora对外发布的可一键生成一分钟视频,时长有差距,但朱军告诉记者,过去两个月,他们的技术路线已经走通,微度正以更快的速度迭代。 对于网友提出的疑问,为何视频中出现的人物,西方面孔偏多? 主要原因是目前用于训练的视频素材数据集中的内容比例存在不均。 有的像这个西方人脸居多,还是东方的居多的话,这主要的根源在这个你训练的这个数据集,就是他看的多了,他就会生成的这个概率也会更高一点,但不代表就是我们不能生成。比如像中国人,或者像东方的这种人,我们也有这种例子,大家可以去生成。

【回复】为何视频中出现的人物,西方面孔偏多? 主要原因是目前用于训练的视频素材数据集中的内容比例存在不均。 有的像这个西方人脸居多,还是东方的居多的话,这主要的根源在这个你训练的这个数据集,就是他看的多了,他就会生成的这个概率也会更高一点,但不代表就是我们不能生成。比如像中国人,或者像东方的这种人,我们也有这种例子,大家可以去生成。
jdjs12:
智能生成算法的完整体应该是外求是,内求非。求是以搜刮设定,求非以确立设定。形成内外一致和谐的意识中心,即设定运作中心,从而能够解析一切外部世界。 现在关键的是要建立求非算法,也就是确立设定算法,将它与现行的求是算法,经过改良之后统一起来,形成集合体内外两套算法,进而通过外部资料的解析认识,真正建立一个设定运作中心,形成稳定可靠的意识。 这一旦成立,那就是真正意义上的意识体,能够稳定不息的解释外部世界的一切设定,要生成一个合理的视频,或者像人一样的做事,也是非常轻松的。

【回复】比如说通过求是我们知道大象是动物,通过球非,我们知道大象不是食肉动物,大象不是会飞的动物,大象不是鱼类,那么当我们运行这个设定核心系统时,我们就不会因为大象是动物而产生逻辑上的偏差,将大象导入到其他形象中去。而能够通过求非来确定大象的设定形象,再这样稳定的形象进行设定的行为调用。 这就形成了内外两层的影响。外层的求是不断的增添正确的设定,使得内部积累了正确的设定,而内部的求非也通过这些正确的设定来建立求非的设定。通过求是的内容丰富度来形成求非的多角度,多层次和多方面的内容,进而确立出稳定的设定。而反过来,这种求非出来的稳定设定核心,也能在外部求是当中,将更多的,各种不同指向,不同侧面,不同运行逻辑的求是内容纳入到求是的运行覆盖中来,拓展求是的范围,层次和角度,从而形成内外的双向正循环,稳定不息的设定内核运作。这便是意识体的真正出现。

人工智能 sora AI改变世界 这就是AI

如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!