前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >AI视听应用逐渐成为Agent发展趋势和机会

AI视听应用逐渐成为Agent发展趋势和机会

作者头像
否子戈
发布2024-05-13 17:01:02
1110
发布2024-05-13 17:01:02
举报
文章被收录于专栏:

近期,多家厂商发布了视觉模型,结合C端应用市场的情况,我有理由相信,AI应用方向正在从LLM聊天应用向视觉应用转变。从单纯的聊天工具大行其道,到类似写作类copilot工具的盛行,AI应用在2024年已经呈现出了巨大的潜力,但你要知道,现在才5月,从业界顶尖会议提出AI应用将成大趋势,到现在才不过短短半年,可见在AI应用领域,世界发展的有多快。本文就来聊一聊我所看到的趋势和机会。

大模型成为AI领域统治级范式

在GPT-3.5之前,AI训练总是具有针对性,不同厂商、团队的方案百家争鸣,但在ChatGPT被广泛认可之后,大模型已经成为AI领域的核心范式,甚至成为一家新的AI创业公司的唯一选择。通过训练大模型来获得需要的AI能力,已经成为一种普遍被认可的方式,这一模式从LLM领域扩展到多模态领域、文生图领域、图生图领域、文生视频领域、图生视频领域……几乎我们已知的各类领域,都可以使用训练大模型的方式,获得针对该领域的AI模型。

AI领域当下发生着哪些有趣的事?

Stability在经历了创始人出走的情况下,发布了Stable Diffusion 3,获得了更优秀的成图能力,结合早前发布的Stable Diffusion XL底层架构,可以预测新版本的SD将拥有更强的性能。同时,官方推出的Stable Video Diffusion也是令人眼前一亮。SD生态中,SD webui发布了1.9,新工具forge将让客户端具有更强的性能和能力。在文生图领域,除了Stability之外,国内的一众团队开发出的新产品也是令人兴奋,在开源工具的基础上,分享绘画模型、工作流等,形成了AI视觉领域的社区氛围。

在Suno几乎成为统治者的时候,Udio横空出世与之分庭抗礼。从歌词到歌曲再到MV,几个新平台可以让音乐创作从专业工作,变为普通人可以短短几分钟实现的有趣事情,AI在音乐领域真正做到了平权,让普通人可以通过音乐这种形式,完成自己抒发某时某刻心情的创意。

从阿里所谓开源EMO引起的争议,到最终在通义应用中落地的不错效果,在AI视频领域也出现百花斗艳的场景。通过一张照片就可以让其中的人物活起来,并且具有较强的口型拟合,非常有意思。腾讯开源VideoReTalking,微软在azure平台上线具有情感和语气的文转音,数字人领域平民化也是指日可待。

从年初Sora PPT式发布,到陆续有厂商进入内测名单,到open-sora开源项目上线,再到业内其他竞品陆续跟进,虽然sora至今未上线对公众服务,但是整个业界在AI生成视频领域已经发出了最强的期待之声。虽然目前几乎所有的工具在生成视频这件事上,还很难做到完全规避大模型的幻觉问题,以及保持一致性问题,但是在退一步的情况下,利用SD关键帧等的技术方案,也可以实现视频换风格、换脸、换人、换背景等效果,和传统视频处理工具要方便很多。

对于老厂家们而言,微软在office软件中接入copilot技术,实现文件编辑时局部生成能力;Adobe在其全线设计软件中接入AI能力,可以通过涂抹局部后,用文字描述来实现设计,效果炸裂;苹果则是在前脚宣布与谷歌合作后,推出自己的小体量参数大模型ReALM,实现了对屏幕信息的识别和理解,让大模型在用户操作的理解上更进一步。

AI将主导内容领域生产

这一轮LLM-based Agent的大发展,将会颠覆内容生产方式,无论是在C端还是B端,过去我们很多内容生产很多讲创意,讲技术,但真正是创意的寥寥无几,很多都是搬运工。而这一轮AI技术的发展,将彻底颠覆之前的状况,B站百大影视飓风之前一期节目讲帮助一个残疾的兄弟实现运动梦想,使用了非常多传统的影视剪辑和特效技术,成本巨大,但就当前的AI技术而言,要实现相同的效果,或许并不需要那么大的人力物力成本。在B端,很多所谓的编辑、整理、分析工作,本质上都是文字处理的关联工作,在AI的冲击下,这些工作人的成分会逐渐减少,除了人力成本的考虑之外,内容质量和时间效率的考量才是最重要的。

过去半年,我注意到抖音上AI创作的内容比重在不断攀升。以网文故事创作为例,通过大模型生成故事,通过生图、生视频模型完成素材生产,再配合工具自动完成剪辑,连载网文短视频以强烈的AI画风口感和爆爽的故事背景设定,剥夺了很多其他短视频的生成空间。而就这类短视频的制作团队而言,除了成本降低之外,还可以通过推流来实现为其他短剧、游戏平台、购物平台的引流,从而实现盈利。这种AI内容抢占用户流量的现象,在未来只会愈演愈烈。不能说劣币驱逐良币,只能说基于流量为目的的内容推送时代,会被AI所统治,进而有可能出现,人类的内容消费由AI来决定的最终局面。

AI向内容领域的入侵,必然带来某些职业群体的危机,这值得我们关注。从辅助人类提升效率提升生产力的工具,到变成抢人类工作的威胁,AI在现实中的应用范围,应该值得所有人思考。

为什么视听领域是Agent趋势

首先,当下的AI技术本身具有内容增强属性,人们正在利用AI的工具属性改造现有工具,以在内容创作领域更快的产生内容,而内容领域的终极就是视听产品,例如短视频、电影、电视节目、游戏等。这一轮AI技术的发展,就目前来看,在应用领域,将AI作为内容生产工具首当其冲,而技术研究和应用总是相辅相成的,当应用领域对内容生产的需求巨大时,大模型基座的研究也会顺着需求的方向,在内容生产的终极方向——视听领域——不断发力。如此相互作用,类似Stability的SDXL方向,清华研究团队的LCM方向,都为实现实时生成(Realtime Generation)提供了可能性。一旦实时生成技术成熟,那么我在以前多次提到的实时互动视频生成将成为可能。

其次,图像和声音的生成,给大模型团队更多挑战的刺激感,而大模型范式遵循scaling law,只要按照其范式训练大模型,总是能大力出奇迹,看到胜利的曙光,不用担心失败,因此,对于视听大模型的训练团队而言,将来必然获得成就感,而难度摆在那里,未来成功的可能性也大大增强。南开大学和字节跳动合作,提出了StoryDiffusion模型,以较小的训练代价生成一致的漫画和长视频。随着商业应用的竞争白热化,底层模型的研究也愈发激烈。视听模型的潜在商业价值无可估量,甚至一个模型的应用化就是一家独角兽创业公司的全部核心。

最后,视听是人类对世界模型认知的凝固。人类对外界的认知,80%以上来自视听感官,而很明显,即便是盲人摸象,这80%的认知也足够构建起真实世界80%的真相。可见,视听模型的建立,对人类认识这个世界意义重大。从Sora出现开始,对建立AI自动生成的世界模型的追求,成为很多人在AI领域研究的主要动力。把人类认知中,最高形态的部分,通过AI表现出来,在现实世界中也可能存在重要意义,例如对自闭症患者认知世界的理解,对婴幼儿认知教育的辅助等等。正如我们在有些电影中听到的一样,正常人眼中的数字,在文字认知障碍小孩眼中可能就是遨游在宇宙中的怪物一样。通过构建世界模型,我们可以更了解人类自身。

Agent的智能将成为人类的第二大脑

目前,AI在内容领域的颠覆性已经被展现的淋漓尽致,但作为“人工智能”的“智能”部分,并不局限于对人类语言的理解和生成。例如我多次提到的comfyui,其本质上还是利用SD的生成能力,而在智能上的体现,显得非常死板。

人类对AI的最终幻想,是有自我意识和决策能力的超级智能体。最近微软首次推出了VIDiff(Video Instruction Diffusion),一个通用的视频扩散框架,统一的视频理解和编辑。据我所知,剪映团队也正在利用AI升级其视频编辑系统。被称为“人工智能教母”的李飞飞宣称将休学创业,她提出一种可以合理推断出图像和文字在三维环境中的样子的算法,并据此预测采取行动,这种算法概念被称为“空间智能”。而openAI与Figure合作后,公开视频显示该公司最新机器人在有了大模型的支持后,自主决策能力更强。

LLM涌现的推理能力、CoT等,让我们意识到,“思考”这件事本身是有迹可循的。AI智能体的终极形态,是完全自主的思考和决策,以服务于人。但就当下而言,我们对这个部分的开发还很少,我们把大部分精力都投入在内容生产方面,而对开发“第二大脑”的重要程度放在“后面再说”的位置上。最近以付盛为代表的人士提出类似“大模型没必要,小模型刚刚好”这样的理念,他们关注实际应用的商业成本与利润,大于让大模型在思考能力上更进一步。

虽然当下,AI在内容生产领域非常火爆,但是我相信,在工业领域、交通领域、金融领域、安全领域等的AI应用,才意味着作为“工业革命”概念股的成功。而能够作为“人类第二大脑”存在,弥补人类在认知和决策上的不足,才是这一轮Agent发展的目标。

结语

2024年,作为AI元年次年,整个行业发生着巨大的变化。而2024年的国际金融处于冰封期,AI行业没有遇到投资的好时候,却也能如此强劲的发展,在夹缝中投资者们依然看好这一领域。第一次工业革命大约从18世纪末开始,持续到19世纪中叶,大约100年左右的时间;第二次工业革命大约从1870年代开始,到1920年代结束,大约50年不到的时间;第三次科技革命大约从1970年代开始,到1990年代,大约20年左右的时间。科技革命的迭代速度就如宇宙的膨胀速度一样,越来越快,意味着这其中的挑战和机遇将难以想象的一闪而过。被预测为“第四次科技革命”的AI浪潮或许在5年以内就会完成整个底层技术的构建,并在未来几十年中不断开枝散叶。虽然当下在内容领域应用火爆,但我相信,很快,在其他领域,AI也将展现其超凡能力。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-05-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 唐霜 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
媒体处理
媒体处理(Media Processing Service,MPS)是一种云端音视频处理服务。基于腾讯多年音视频领域的深耕,为您提供极致的编码能力,大幅节约存储及带宽成本、实现全平台播放,同时提供视频截图、音视频增强、内容理解、内容审核等能力,满足您在各种场景下对视频的处理需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档