重磅黑科技！让照片“开口说话”，这项AI技术终于可以用了！阿里EMO正式开放，一键同步音频表情、眼神、嘴型，还能唱歌、RAP？新一代AI“数字人”使用教程

作者: Nenly同学分类: 设计·创意发布时间: 2024-04-25 20:26:56 浏览:130613 次

做梦练习生:
看第一遍：啊？再看一遍：哦！第三遍，配合罗老师的刑法看，效果极佳

【回复】EMO的Demo里有一个高启强说刑法的，笑死我了
【回复】回复 @Nenly同学 : AI歌手我记得好像酷狗也行
【回复】回复 @Nenly同学 :哥，我咋没找到说刑法的
用2B卷磁带的铅笔:
没记错的话被vasa爆杀，而且这俩都不开源

【回复】回复 @为了它O_O : 各有千秋吧，vasa眉眼表情更生动，整个头部动作幅度感觉可以做到更大，但是可能因为幅度大嘴部橡胶感也更明显，阿里特色应该是做了脖子，感觉喉结也在动，更贴近真人说话的感觉
阿诺小小:
假的，只能上船个图片配合他软件的预设语音，只有十几秒，而且生成时间要20分钟左右，，无法上传自己的语音！局限性非常大，更像个demo

飞天轩辕:
试完了，效果很不错，可惜不能自己订制音频进行预训练，我猜不开放的原因一个是预训练成本高，另一个是很刑[呲牙]

星夢飛:
以前照片可能是假的，现在视频也可以是假的，还让你都看不出来[笑哭]

【回复】回复 @飞翔的小糍粑 : 仿生机器人
【回复】也许现在绝大部分人的记忆不是真实的，也许真相一直埋藏在信息洪流中[doge]
【回复】未来人也是假的了[藏狐]
FKLTROUBLE:
阿里做的东西还是比百度有节操的多[吃瓜]

高贵的天际公民:
不是早就有了吗？那个“哒咩哒累，哒咩哟，哒咩那喏哟”

【回复】这个就是进阶版的意思，以前的人眼一眼能看出来是AI合成的，以后会越来越逼真
火力Honlly滑板基:
阿里不开源，过几个月就会被开源项目占领先机，期待开源。

【回复】回复 @晓晓学3D : sora gpt4也没说要开源啊
Emamily_Wang:
只能用他们的语音模版吧？怎么上传自己的音频呢

【回复】回复 @刀烤鱼盾护你 : 他的意思是同样文案的声音，如果新文案就没办法
【回复】回复 @刀烤鱼盾护你 :对啊
【回复】回复 @徐别林 : 换声音口型就不对了。。
晓亮1983:
没想的那么好，只能用他提供的模板，不能自已选图片和声音合成，还是有待加强，什么时候可以用自己提供的图片说话就完美了

狼外婆的兔子:
老师能讲讲faceID吗，我按照网上一些教程操作，但是效果都很差[大哭][大哭]

【回复】谢谢老师[星星眼][星星眼]，主要我看视频感觉别人的效果很好，但是在自己的机器上只能看出有一点效果，也有人说是显卡的问题，我是8g的卡，最后就放弃了，不过instant ID还没了解过，我先去看看
【回复】Face ID目前不能说很完善，可以试试基于它进一步开发的Instant ID，可能会好一些。以后做IPA的专题有机会讲讲！
蛋蛋爱打游戏:
MuseV和MuseTalk被整合到comfyUI了，UP主可以讲讲怎么用

【回复】回复 @Nenly同学 : up 你卡在哪里了，我也是卡了好久，现在环境都配好了，但 MuseTalk 在运行的时候发现会有内存泄漏的问题，导致运行不了
【回复】回复 @Nenly同学 : up 我可以帮忙配置环境[doge]
冷墨凉:
这下这个视频可以更上一层楼了[吃瓜][吃瓜] 【王冰冰的痛-哔哩哔哩】 https://b23.tv/FcUykqa

xcger:
可惜用的是定制声音，而且大多不是影视里的原版