重磅黑科技!让照片“开口说话”,这项AI技术终于可以用了!阿里EMO正式开放,一键同步音频表情、眼神、嘴型,还能唱歌、RAP?新一代AI“数字人”使用教程

作者: Nenly同学分类: 设计·创意 发布时间: 2024-04-25 20:26:56 浏览:130613 次

重磅黑科技!让照片“开口说话”,这项AI技术终于可以用了!阿里EMO正式开放,一键同步音频表情、眼神、嘴型,还能唱歌、RAP?新一代AI“数字人”使用教程

做梦练习生:
看第一遍:啊? 再看一遍:哦! 第三遍,配合罗老师的刑法看,效果极佳

【回复】EMO的Demo里有一个高启强说刑法的,笑死我了
【回复】回复 @Nenly同学 : AI歌手我记得好像酷狗也行
【回复】回复 @Nenly同学 :哥,我咋没找到说刑法的
用2B卷磁带的铅笔:
没记错的话被vasa爆杀,而且这俩都不开源

【回复】回复 @为了它O_O : 各有千秋吧,vasa眉眼表情更生动,整个头部动作幅度感觉可以做到更大,但是可能因为幅度大嘴部橡胶感也更明显,阿里特色应该是做了脖子,感觉喉结也在动,更贴近真人说话的感觉
阿诺小小:
假的,只能上船个图片配合他软件的预设语音,只有十几秒,而且生成时间要20分钟左右,,无法上传自己的语音!局限性非常大,更像个demo

飞天轩辕:
试完了,效果很不错,可惜不能自己订制音频进行预训练,我猜不开放的原因一个是预训练成本高,另一个是很刑[呲牙]

星夢飛:
以前照片可能是假的,现在视频也可以是假的,还让你都看不出来[笑哭]

【回复】回复 @飞翔的小糍粑 : 仿生机器人
【回复】也许现在绝大部分人的记忆不是真实的,也许真相一直埋藏在信息洪流中[doge]
【回复】未来 人也是假的了[藏狐]
FKLTROUBLE:
阿里做的东西还是比百度有节操的多[吃瓜]

高贵的天际公民:
不是早就有了吗?那个“哒咩哒累,哒咩哟,哒咩那喏哟”

【回复】这个就是进阶版的意思,以前的人眼一眼能看出来是AI合成的,以后会越来越逼真
火力Honlly滑板基:
阿里不开源,过几个月就会被开源项目占领先机,期待开源。

【回复】回复 @晓晓学3D : sora gpt4也没说要开源啊
Emamily_Wang:
只能用他们的语音模版吧?怎么上传自己的音频呢

【回复】回复 @刀烤鱼盾护你 : 他的意思是同样文案的声音,如果新文案就没办法
【回复】回复 @刀烤鱼盾护你 :对啊
【回复】回复 @徐别林 : 换声音口型就不对了。。
晓亮1983:
没想的那么好,只能用他提供的模板,不能自已选图片和声音合成,还是有待加强,什么时候可以用自己提供的图片说话就完美了

狼外婆的兔子:
老师能讲讲faceID吗,我按照网上一些教程操作,但是效果都很差[大哭][大哭]

【回复】谢谢老师[星星眼][星星眼],主要我看视频感觉别人的效果很好,但是在自己的机器上只能看出有一点效果,也有人说是显卡的问题,我是8g的卡,最后就放弃了,不过instant ID还没了解过,我先去看看
【回复】Face ID目前不能说很完善,可以试试基于它进一步开发的Instant ID,可能会好一些。以后做IPA的专题有机会讲讲!
蛋蛋爱打游戏:
MuseV和MuseTalk被整合到comfyUI了,UP主可以讲讲怎么用

【回复】回复 @Nenly同学 : up 你卡在哪里了,我也是卡了好久,现在环境都配好了,但 MuseTalk 在运行的时候发现会有内存泄漏的问题,导致运行不了
【回复】回复 @Nenly同学 : up 我可以帮忙配置环境[doge]
冷墨凉:
这下这个视频可以更上一层楼了[吃瓜][吃瓜] 【王冰冰的痛-哔哩哔哩】 https://b23.tv/FcUykqa

xcger:
可惜用的是定制声音,而且大多不是影视里的原版

AI EMO 人工智能 通义千问 通义舞王 通义照片唱歌 EmotePortraitAlive 阿里 使用教程 数字人

如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!