前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >国内首个音乐版「ChatGPT」来了!Sora同款架构,唱作技巧全面发展,还剧透了全新MoE大模型

国内首个音乐版「ChatGPT」来了!Sora同款架构,唱作技巧全面发展,还剧透了全新MoE大模型

作者头像
量子位
发布2024-04-03 17:10:01
1210
发布2024-04-03 17:10:01
举报
文章被收录于专栏:量子位量子位
允中 发自 凹非寺 量子位 | 公众号 QbitAI

AI音乐大模型最近有多火,不用多介绍了吧?

不过,海外版应用别的先不说,奇奇怪怪的中文AI发音就能把人难受死……

好在卷应用嘛,国产大模型厂商没在怕的,这不,国产版音乐“ChatGPT”这就来了~

话不多说,先听效果:

这情感表现力,是有那么点竞争短视频神曲的潜质了。

如此作品,背后作者正是刚刚开放邀测的国产AI音乐生成大模型「天工SkyMusic」

4月2日,昆仑万维官宣,「天工SkyMusic」基于昆仑万维「天工3.0」超级大模型打造,即日起面向社会开启免费邀测。

本轮测试已开放1000个免费名额,面向行业媒体、专家,以及感兴趣的音乐从业者开放。

据官方消息称,昆仑万维「天工SkyMusic」首日预约申请已有几十万。

已经有网友玩上并po出了作品:

「天工SkyMusic」也是目前国内唯一公开可用的AI音乐生成大模型。

昆仑万维工程师透露,「天工SkyMusic」是昆仑万维情感AGI研究方向上的重要成果:

智力固然重要,但情感是我们能够被称之为人的关键。 我们发现相比文本和图片,音频内容是理解人类情感最好的方式,而音乐又是人类情感表达最充沛、最不受地域和文化限制的内容载体。

采用自研类Sora模型架构

来看具体技术细节。

「天工SkyMusic」采用音乐音频领域类Sora模型架构:

Large-scale Transformer 负责谱曲,来学习 Music Patches 的上下文依赖关系,同时完成音乐可控性;

Diffusion Transformer 负责演唱,通过LDM让Music Patches被还原成高质量音频,使得「天工SkyMusic」能够支持生成80秒44100Hz 采样率双声道立体声歌曲。

这套模型架构在处理视频、音频和音乐领域效果极佳。昆仑万维团队还计划在后续逐步迭代和添加新的能力,让模型具备多模态的情感理解与表达能力。

「天工SkyMusic」具有以下五大特点:

  • 高质量AI音乐

「天工SkyMusic」能够生成80秒44100Hz采样率双声道立体声AI歌曲,并可根据用户输入的歌词风格生成对应歌曲风格。

  • 人声以假乱真

人声合成是AI音乐生成中最重要、最能体现生成效果和品质的维度。「天工SkyMusic」的AI人声合成能够达到业内顶尖的SOTA水平,尤其是中文发音清晰、无异响,演唱效果显著好于国外产品。

  • 歌词段落控制

「天工SkyMusic」能够通过歌词来控制歌曲,让生成的歌曲可以明确分辨出不同歌词段落的情绪变化,体现出主歌和副歌、前奏和主歌的段落差异。

  • 多种音乐风格

「天工SkyMusic」支持说唱、民谣、放克、古风、电子等多种音乐风格,用户在创作音乐时,可以通过参考音频制定想要的音乐风格。

比如说唱风格,效果如下:

  • 音乐智能表达:歌唱技巧学习

「天工SkyMusic」同时能够学习如颤音、歌剧、吟唱、男女对唱,自动和声等多种歌唱技巧,让用户创作的歌曲得到更恰当的情感表达。

基于「天工3.0」大模型打造

在「天工SkyMusic」背后,有一点值得关注的是,昆仑万维同时剧透了自家MoE大模型「天工3.0」的最新信息:

4月17日,「天工3.0」将正式开启公测,并同步开源。

「天工3.0」是4000亿级参数MoE混合专家模型,是全球模型参数最大、性能最强的MoE模型之一。

官方表示,相较于上一代「天工2.0」MoE大模型,「天工3.0」在模型语义理解、逻辑推理、以及通用性、泛化性、不确定性知识、学习能力等领域都拥有显著的性能提升,其模型技术知识能力提升超过20%,数学/推理/代码/文创能力提升超过30%。

同时,「天工3.0」新增了搜索增强、研究模式、调用代码及绘制图表、多次调用联网搜索等能力,并针对性地训练了模型的Agent能力,使得「天工3.0」能够独立完成规划、调用、组合外部工具及信息,以精准高效地完成产业分析、产品对比等各类复杂需求。

「天工3.0」也是全球首个多模态“超级模型”(Super Model),集成了AI搜索、AI写作、AI长文本阅读、AI对话、AI语音合成、AI图片生成、AI漫画创作、AI图片识别、AI音乐生成、AI代码写作、AI表格生成等多项能力,堪称大模型时代的“超级应用”。

更多剧透,我们分成四个方面来看:

逻辑推理能力更强

逻辑推理能力的提升对于大模型解决复杂问题至关重要,「天工3.0」的数学与推理能力均提升超过30%,强大的逻辑推理能力使其能够在实际应用中更加准确和高效地处理信息。

例如,在「天工3.0」AI搜索的研究模式中,模型能够围绕用户的某个简单指令进行相关问题的延伸,并实时判断该段落信息是否需要联网搜索,能够实现如对某个行业进行细致的拆解分析,总结相关事件、拆解产业链地图等复杂功能,并以结构化或思维导图的形式进行最终展示,让模型更“聪明”。

语义理解能力更强

「天工3.0」能够更好地理解和处理用户自然语言Query中的复杂语义信息,包括隐喻、多义词等。

例如,在「天工3.0」AI搜索的增强搜索中,模型能够针对用户的复杂Query进行拆解、细化、并进行追问、信息理解与补全,使其在自然语义理解方面性能更强,面对不确定性知识时表现更好,能够更精准、高效地满足用户需求。

专项Agent训练,应对复杂需求能力更强

大模型时代,AI Agent(智能体)已经成为大模型技术的主流落地方向。

「天工3.0」针对模型独立规划、调用、组合外部工具及信息的能力进行了专项训练,使其能够独立生成并调用代码,完成包括产业研究、产品横评、信息分析、图片生成、图表绘制等多种复杂用户需求,并成为具备多个领域专业知识和能力的全能专家,以强大的语义理解及逻辑推理能力对用户需求进行深度理解,并把任务拆解成细分环节,发到不同的最优模型去处理,最大程度提升模型性能。

同时,针对B端用户,「天工3.0」也在知识库能力、任意工具调用能力、复杂角色指令追寻能力等领域进行了全面升级,企业用户可以通过上传知识文档构建专属知识库及Agent,并实现自动调用制定工具、完成复杂指令遵循Agent构建等实用能力。

内容创作能力全面升级

内容创作能力一直是「天工」系列大模型的强项,在上一代「天工2.0」大模型的基础上,「天工3.0」更是进行了全面的内容创作能力升级,其不仅能实现AI音乐生成、AI语音、AI对话、AI二次元漫画生成等强大的内容创作能力,更是通过专项Agent训练实现了在对话中结合文本需求实时生成图片、结合文本需求实时内容分析及图表构建等能力,成为真正能搜、能写、能读、能聊、能听、能说、能画、能看、能唱的超级模型。

昆仑万维董事长兼CEO方汉对此表示,“超级模型”是大模型时代发展的必然,未来,行业内将出现不止一个“超级模型”,昆仑万维也将持续朝着这一方向不断努力,持续为用户提供更智能、更高效、更可靠的人工智能服务。

All in AGI与AIGC

自2023年确定“All in AGI 和 AIGC”战略后,在AIGC应用领域,昆仑万维已围绕自研「天工」系列大模型,推出了一系列前沿AI产品:

2023年8月,昆仑万维推出国内第一款AI搜索产品天工AI搜索。

9月,昆仑万维推出多模态大模型Skywork-MM,在多模态大语言模型测评MME中综合得分排名第一。

10月,昆仑万维开源百亿级大语言模型天工Skywork-13B系列。

12月,昆仑万维发布国内领先的AI Agent开发平台天工SkyAgents。

2024年2月,天工基座大模型更是迎来了推出以来的最大版本更新天工2.0,成为国内首个搭载MoE架构并面向全体C端用户免费开放的千亿级参数大语言模型AI应用。

再加上最新亮相的天工SkyMusic,基于天工系列大模型,昆仑万维已构建起AI大模型、AI搜索、AI音乐、AI 社交、AI动漫、AI游戏等AI业务矩阵,是国内模型技术与工程能力最强、布局最全面的人工智能企业之一。

这样的成绩单之下,此番「天工3.0」究竟会带来怎样的体验,值得期待。

我们也将第一时间测评体验,你有什么想测试的,不妨在评论区告诉我们~

*本文系量子位获授权刊载,观点仅为作者所有。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2024-04-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量子位 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 采用自研类Sora模型架构
  • 基于「天工3.0」大模型打造
    • 逻辑推理能力更强
      • 语义理解能力更强
        • 专项Agent训练,应对复杂需求能力更强
          • 内容创作能力全面升级
          • All in AGI与AIGC
          相关产品与服务
          语音合成
          语音合成(Text To Speech,TTS)满足将文本转化成拟人化语音的需求,打通人机交互闭环。提供多场景、多语言的音色选择,支持 SSML 标记语言,支持自定义音量、语速等参数,让发音更专业、更符合场景需求。语音合成广泛适用于智能客服、有声阅读、新闻播报、人机交互等业务场景。
          领券
          问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档