AI发展到现在,每个垂直分类隔三差五就一定会爆出大新闻,行业展现出蓬勃发展的态势,然而数字人这个领域始终在某些厂商的手中牢牢把控着,也鲜少有新闻。
无他,这东西实践起来可太麻烦了,有分语音驱动的、文本驱动的、图像驱动的,又分为实时无延迟的、非实时有延迟的。而数字人的本地训练也不大可能,隔壁AI生图/AI生视频领域已经低到6GB可跑了(ControlNet的作者吕敏,敏神最近出了个超强的本地6GB家用机可跑的视频模型,有空我测试一下),数字人的训练成本还是非常高,非常吃GPU,吃电脑配置。
数字人其实我个人觉得是个非常具有普适性的AI项目,它上可做B端,替代广播员、评论员的角色,将减少出镜人员需要抽空录播的时间差;下可让每个人依据自己的需要,比如老师可以考虑用它做课件,在我的设想中,数字人可以承担一部分念PPT的工作,随时可以暂停来讲真正的重点,对老师的嗓子也是一种另辟蹊径的保护。电商和直播项目也可以用数字人来进行推广,以往的静态推广完全可以使用动态数字人的形式,深度挖掘动态推广素材和静态推广素材的对比,来提高整体的付费转化。
当然了,我更希望用它来做我的“数字分身”,这样能够方便我这类打算出点小教程但不太想要出镜的人们。
我最近找到了一个开源的数字人项目,项目作者说手机端可用,它能够做到低延时处理。
这个项目叫DH_live。我混进作者的群里,作者说这个项目已经停止维护一段时间了,但不妨碍拉代码本地操作。而整个项目最具特色的是,它不需要训练模型,直接静态视频+动态视频+音频搞定。
项目地址:https://github.com/kleinlee/DH_live?tab=readme-ov-file
使用起来也很简单,可以参照项目地址的进行,一共也就4、5步这样。
这就是下载好了相关的环境等等的样子
安装完本地环境,从项目的网盘里拿到模型文件,下载解压到对应路径里,首次运行输入 python xxxxx(文件夹安装地址)/app.py,启动成功后会得到一个本地的GUI网址。
“Running on local URL:xxxxx”这一串就是本地的网址,复制粘贴到网页
打开网址,整个GUI界面长这样
合成音频部分界面
第一步需要先上传静态的视频,等待执行完成
左侧是上传的音频,右侧是第一步上传的视频和音频合成的形象
第一步需要先上传静态视频,点击“处理视频”后,得到上面的执行处理结果,然后再上传音频上传,,点击生成视频,在右侧最后会得到一个数字人形象视频,嘴型动作十分不错。
音频片段来源于本人录音+无害化处理,图片来源于Comfyui跑的图
音频片段来源于本人录音+无害化处理,图片来源于自训练的Lora出的图
网页版由于作者需要商用授权,所以最后我是在作者给的手机端上、Web打开,简单演示一下效果。
几乎没有延迟,嘴型对得上,效果挺不错的
经过我好几天的试验,我认为这是比较不错的开源数字人,重点在于小白也能玩,比如我本地就已经跑通了,中间有出现一些小问题,让Cursor给解决了。不需要推理,生成的速度也算快,2分钟内基本上可以合成自上传的视频形象和音频。
感兴趣的朋友去玩吧,这个项目目前有1.3K的Star,不晓得作者是否会重启项目维护呢~
题图:AI
长文制作不易,如果可以,希望您点个赞~设置星标,更新内容不错~
领取专属 10元无门槛券
私享最新 技术干货