Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >Step-Audio:开箱即用的语音大模型

Step-Audio:开箱即用的语音大模型

原创
作者头像
算法一只狗
发布于 2025-03-21 15:26:04
发布于 2025-03-21 15:26:04
1900
举报
文章被收录于专栏:算法一只狗算法一只狗

阶跃最近还开箱了一个语音大模型 Step-Audio,实现了从语音理解到生成的 端到端整合,在多个关键维度展现出卓越优势:

  • 情绪感知与理解 —— 识别语气、语调中的情绪信息,结合语境提供精准回应。
  • 多语种与方言支持 —— 覆盖多语言、多方言,中英文交流可实现同声传译。
  • 自然流畅的通话体验 —— 提供更低时延、个性化风格表达,通话更自然。

还记得 2024 年 5 月 14 日凌晨的那场直播吗?GPT-4o 横空出世,为 ChatGPT 带来了全新的实时语音通话能力,被业内誉为“震撼全球的发布”。然而,当这项功能全面上线后,实际体验却并未达到发布会演示时的惊艳程度。

如今,轮到阶跃星辰发布的语音大模型震撼世界了。在正式上线前,内部团队围绕推理逻辑、创作能力、指令控制、语言能力、角色扮演、文字游戏、情感价值等多个维度进行了全面的评测。从评测效果上看,模型的能力雷达图超越了之前开源的GLM-4-Voice和Qwen2-Audio模型,取得了最好的成绩

1. 实际App体验效果测试

目前这个模型已经上线“跃问”APP上,普通用户也能够通过APP进行在线的语音对话。我们打开APP之后,可以看到一个打电话的按钮,点击之后就可以进行实时语音对话了

在进行实时语音对话的时候,可以进行随时打断,只要点击一下屏幕就可以了。就像和正常人说话一样。

在进行语音对话的时候,它能够模仿不同的人类语气,比如面对 500 万元彩票的,它能够表现出开心的语气出来

共情能力拿捏得恰到好处。当我们带着沮丧的情绪表达坏消息时,它会以平静而温暖的语气安慰我们。它不仅具备类人的情感响应能力,还能展现丰富的副语言特征,如语气词、迟疑和停顿,使交流更加自然流畅。

而在方言的识别上,能比较准备,这里我用了粤语和它进行对话,它虽然优点“笨拙”,但是已经能够大概理解我的意思

2.背后的是哪些技术

在语音AI相关领域的大模型训练的过程中,要训练初一个类似于真人级别的实时语音大模型,其技术难点有两个。

一个是需要尽量让大模型趋向于人类说话的自然度和流畅度。

从论文中,Step-Audio采用了一个端到端的多模态训练架构,其参数高达130B的多模态大模型。

同时为了提升语音理解能力和情感上的表达,采用了Linguistic(语言)编码器和Semantic(语义)编码器共同学习,使语音表达更加流畅。

传统的语音 tokenization 方式通常分为两类:一个是基于理解的 tokenizer,主要侧重于提取语言学特征,例如音素、语法结构等,但忽略了音频的细节信息。另一个是基于生成的 tokenizer,主要关注音频合成过程中需要的语音特征,如音色、韵律和情感,但不能很好地表达语言信息。

这种方式导致理解和生成任务在信息提取上存在分裂,使得模型在执行语音任务时不能兼顾两者。

为了弥补传统 Tokenizer 的不足,Step-Audio 采用了一种 双码本(dual-codebook)语音 tokenizer 方案,包含了语言学(Linguistic)Tokenization和语义(Semantic)Tokenization。

其中语言学(Linguistic)Tokenization:

  • 主要提取 音素级别和语言学特征,捕捉语音的结构性信息,确保语音的可理解性。
  • 采用 Paraformer 编码器对输入语音进行特征提取,并以 16.7Hz 采样率进行量化。
  • 码本大小为 1024,用于编码音素和结构信息

语义(Semantic)Tokenization:

  • 主要关注 语音的语义内容和粗粒度的声学特征,保证音频合成时的质量和自然度。
  • 采用 CosyVoice 语音编码器提取声学特征,以 25Hz 采样率进行量化。
  • 码本大小为 4096,捕捉更丰富的音频细节,如音调、音色、韵律等。

另一个是需要大规模的采样语音数据,喂给大模型进行训练。

数据质量的高低和好坏,往往是一个模型成功的重要因素。如果像传统的方式那样,直接利用真人语音数据进行训练,难度较大。一方面难以获取大规模的数据集,另一方面也很难筛选出高质量的数据出来。

因此阶跃团队采用生成式语音数据引擎,无需依赖大量人工标注数据即可生成高质量语音。

其本质就是采用 生成式数据增强 方法,通过文本重写 、说话人数据合成、音频编辑等步骤构建高质量 TTS 训练数据,克服传统 TTS 任务中高质量语音数据稀缺的问题:

  • 文本重写 (Text Rewriting):Step2 LLM 生成多个语义丰富的改写文本,以提升多样性。
  • 目标说话人数据合成 (Target Speaker Data Generation):结合重写文本已有的音频数据 (wav),生成目标说话人的音频数据。
  • 音频编辑 (Audio Editing):进一步调整语音数据,增强 情感 (喜怒哀乐)、风格 (正式、活泼、低沉) 等特征,确保语音合成的自然度和表达能力。

在整体的模型训练过程中,包含了四个过程。

第一阶段,进行SFT模型后,收集多版本模型的多个响应。在同一轮训练中,使用不同版本的模型(例如 SFT 版本、微调版本等)生成多个候选响应。这些响应可能包含不同风格、表达方式或回答准确性不同的内容。

第二阶段,人工评分与 LLM 评分。由人工标注员对生成的多个候选响应进行评分,评估标准包括:指令遵循度、自然流畅度、安全性。另外,采用 LLM 评审(LLM-as-a-Judge) 方法,让大语言模型对候选响应进行评分,自动判断回答的正确性和质量。

第三阶段,构建高质量数据对。通过人工评分和 LLM 评分的结合,筛选出高质量的 "Chosen"(优选)和 "Rejected"(淘汰) 响应对。这些数据对用于训练 奖励模型(Reward Model),使其学习区分优秀和劣质回答的特征。

第四阶段,使用 PPO算法优化最终模型。以奖励模型为基础,采用 PPO 强化学习算法 训练最终的 Step-Audio-Chat 模型。通过 KL 惩罚机制(KL Penalty)防止生成结果偏离人类偏好。

当然,这次阶跃团队还创新的加入了支持工具调用的能力。能够通过语音进行控制,查询对应的天气、播放音乐等功能,进一步提升其在Agents和复杂任务中的表现。

具体的,Step-Audio 采用了一种 解耦(Decoupled) 的工具调用架构:

  • 文本处理线程:责处理工具调用请求,并执行外部服务查询(如知识检索、天气查询等)。
  • 音频生成线程:负责同步语音流的生成,确保用户不会因为工具调用而等待语音输出。

整体的工具调用过程是像下面这样进行的:

第一步用户通过语音输入问题。例如:“请查询当前的天气,并用粤语告诉我。”

第二步语音转文本。Step-Audio 的 自动语音识别(ASR)模块 将语音转换为文本。

第三步触发工具调用。语言模型(LLM)分析用户请求,识别出需要调用外部工具(如天气 API)。工具调用管理器(ToolCall Manager) 负责处理外部 API 调用,同时保持与音频生成的同步。

第四步并行执行。工具调用线程 发送请求给外部 API,获取天气数据。音频生成线程 继续生成对话中的固定部分

第五步结果返回和语音输出。工具调用线程完成查询,返回数据(如“当前温度 25°C,晴天”)。Step-Audio 生成最终语音回复,并按照用户指令(如粤语)进行输出“现在的天气是 25°C,晴天。”

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Meta开源文本生成音乐大模型,我们用《七里香》歌词试了下
在进入正文前,我们先听两段 MusicGen 生成的音乐。我们输入文本描述「a man walks in the rain, come accross a beautiful girl, and they dance happily」
机器之心
2023/08/07
5550
Meta开源文本生成音乐大模型,我们用《七里香》歌词试了下
金融/语音/音频处理学术速递[12.20]
【1】 Path Integral Method for Step Option Pricing 标题:阶梯期权定价的路径积分法 链接:https://arxiv.org/abs/2112.09534
公众号-arXiv每日学术速递
2021/12/22
3850
VALL-E:语音合成的新里程
语音合成技术在现代通信和娱乐领域扮演着愈发重要的角色,它不仅让我们能够与机器更自然地交流,还在无障碍技术和虚拟助手等方面发挥着关键作用。近期,一个引人注目的语音合成模型——VALL-E,突破性地采用了全新的方法,为语音合成技术的未来开启了新的里程碑。
Srlua
2024/12/02
940
VALL-E:语音合成的新里程
万字长文 | 让大模型“开口”说话:从ASR到端到端语音大模型的进化之旅
在我们日常生活中,语音助手已经变得越来越普遍。无论是苹果的Siri还是小米的小爱同学,它们都在以惊人的速度渗透到我们的日常生活中。这些语音助手不仅能够帮我们查询天气、设定闹钟,还能与我们进行对话,提供个性化的建议和服务。我们不禁要问,这些智能语音助手是如何做到如此智能、自然地与我们交流的?
AI研思录
2025/02/20
4810
万字长文 | 让大模型“开口”说话:从ASR到端到端语音大模型的进化之旅
Step系列大模型—两款多模态大模型详细介绍
DeepSeek-R1 的发布引发了全网热议,持续霸榜热搜,各大社交媒体、技术论坛以及新闻平台纷纷讨论其突破性的技术创新和超强的推理能力。其卓越的逻辑推理和任务泛化能力,使其迅速成为开源社区的焦点,并在业内引起广泛关注。
算法一只狗
2025/03/22
2390
【AI落地应用实战】文本生成语音Parler-TTS + DAMODEL复现指南
这里我要推荐的【好事】文章是如何从零构建一个现代深度学习框架,2024年可以说是大模型发展迅速的一年,国内的国际的各大厂商都推出了多种场景的大模型,那么作为小白,虽然不是大模型从业者,但是也想了解一下大模型这样的深度学习框架到底是怎么来的,是如何构建的呢?可以看这篇文章:
中杯可乐多加冰
2024/11/12
3750
浙大北大联合火山语音推出新模型Make-An-Audio,一键生成大片音效so easy!
点击上方“LiveVideoStack”关注我们 导读:如今的AI技术发展堪称“very神奇”,文字、图片竟能一键直接生成逼真音效,嗯,妥妥都是因为TA,一款在语音音频领域“横空出世”的新模型:Make-An-Audio。 近期AIGC如同“上了热搜”一般,火热程度居高不下,当然除了名头格外响亮,突破也是绝对斐然:输入自然语言就可自动生成图像、视频甚至是3D模型,你说意不意外?但在音频音效的领域,AIGC的“福利”似乎还差了一些。主要由于高自由度音频生成需要依靠大量文本-音频对数据,同时长时波形建模还有诸
LiveVideoStack
2023/02/23
7030
浙大北大联合火山语音推出新模型Make-An-Audio,一键生成大片音效so easy!
语音生成的「智能涌现」:10万小时数据训练,亚马逊祭出10亿参数BASE TTS
伴随着生成式深度学习模型的飞速发展,自然语言处理(NLP)和计算机视觉(CV)已经经历了根本性的转变,从有监督训练的专门模型,转变为只需有限的明确指令就能完成各种任务的通用模型。
机器之心
2024/02/26
2530
语音生成的「智能涌现」:10万小时数据训练,亚马逊祭出10亿参数BASE TTS
只需3秒就能偷走你的声音!微软发布语音合成模型VALL-E:网友惊呼「电话诈骗」门槛又拉低了
---- 新智元报道   编辑:LRS 【新智元导读】微软新模型VALL-E实现地表最强zero-shot语音合成,刚开口声音就被偷了? 让ChatGPT帮你写剧本,Stable Diffusion生成插图,做视频就差个配音演员了?它来了! 最近来自微软的研究人员发布了一个全新的文本到语音(text-to-speech, TTS)模型VALL-E,只需要提供三秒的音频样本即可模拟输入人声,并根据输入文本合成出对应的音频,而且还可以保持说话者的情感基调。 论文链接:https://arxiv.org
新智元
2023/02/24
1.1K0
只需3秒就能偷走你的声音!微软发布语音合成模型VALL-E:网友惊呼「电话诈骗」门槛又拉低了
微软NaturalSpeech语音合成推出第三代,网友惊呼:超自然!实至名归
文本到语音合成(Text to Speech,TTS)作为生成式人工智能(Generative AI 或 AIGC)的重要课题,在近年来取得了飞速发展。在大模型(LLM)时代下,语音合成技术能够扩展大模型的语音交互能力,更是受到了广泛的关注。
机器之心
2024/03/26
1K0
微软NaturalSpeech语音合成推出第三代,网友惊呼:超自然!实至名归
AI:语音克隆MockingBird简介及实践(秒级生成你想要的语音内容)
随着人工智能技术的不断发展,语音克隆技术也得到了越来越多的关注和研究。目前,AI语音克隆技术已经可以实现让机器模拟出一个人的声音,甚至可以让机器模拟出一个人的语言习惯和表情。
Freedom123
2024/03/29
8660
AI:语音克隆MockingBird简介及实践(秒级生成你想要的语音内容)
6k Star!ChatTTS:开源领域最强的文本到语音转换(TTS)模型!
体验地址:https://huggingface.co/2Noise/ChatTTS
AI进修生
2024/12/02
3560
6k Star!ChatTTS:开源领域最强的文本到语音转换(TTS)模型!
我掌握的新兴技术:语音合成:如何用AI生成自然和多样的语音
语音合成是一项重要的人工智能技术,它可以将文本转换为自然流畅的语音,为语音交互应用、辅助技术等领域提供了便利。本文将介绍如何利用AI技术实现自然和多样的语音合成,让你的应用更具人性化和个性化。
Echo_Wish
2024/02/07
5010
换了30多种方言,我们竟然没能考倒中国电信的语音大模型
不管你来自哪个城市,相信在你的记忆中,都有自己的「家乡话」:吴语柔软细腻、关中方言质朴厚重、四川方言幽默诙谐、粤语古雅潇洒……
机器之心
2024/06/04
2020
换了30多种方言,我们竟然没能考倒中国电信的语音大模型
AI日报|文生语音大模型国内外均有突破,Pika完成6亿新融资,视频大模型也不远了!
字节跳动推出文本到语音模型家族——SEED TTS,其核心亮点在于生成的语音音色高度接近人类,在相似度与自然流畅度方面,可以与真声媲美。
可信AI进展
2024/06/07
2600
苹果接入GPT-4o,Siri史诗级加强背后的语音技术是如何实现的?
OpenAI 最新推出的生成模型 GPT-4o,带来了一系列震撼的功能,用技术彻底颠覆了产品形态。产品最大的亮点在于:以近乎完美的交互方式,为每位用户带来 G
腾讯云开发者
2024/06/16
1.1K0
苹果接入GPT-4o,Siri史诗级加强背后的语音技术是如何实现的?
谷歌AI歌手震撼来袭!AudioLM简单听几秒,便能谱曲写歌
---- 新智元报道   编辑:David 桃子 【新智元导读】最近,谷歌研究团队推出了一种语音生成的AI模型——AudioLM。只需几秒音频提示,便可生成高质量连贯的语音,甚至还可以生成钢琴音乐。 图像生成模型卷起来了!视频生成模型卷起来了! 下一个,便是音频生成模型。 近日,谷歌研究团队推出了一种语音生成的AI模型——AudioLM。 只需几秒音频提示,它不仅可以生成高质量,连贯的语音,还可以生成钢琴音乐。 论文地址:https://arxiv.org/pdf/2209.03143.pdf A
新智元
2022/10/10
8920
谷歌AI歌手震撼来袭!AudioLM简单听几秒,便能谱曲写歌
金融/语音/音频处理学术速递[12.9]
【1】 La mujer a través de los personajes femeninos en el cine de temática financiera -- Women through female characters in financial topics films 标题:La Mujer a Través de Los Persajes Femeninos en el Motion de temática Financiera--从金融题材电影中的女性角色看女性 链接:https://arxiv.org/abs/2112.04366
公众号-arXiv每日学术速递
2021/12/09
2600
DeepSeek Model Zoo:解锁预训练模型的宝藏地图(12/18)
摘要:DeepSeek Model Zoo 是一个集多种先进预训练模型于一体的宝库,涵盖自然语言处理(NLP)、计算机视觉(CV)和语音等多个领域。这些模型在各自领域展现出卓越的性能,为不同场景下的应用开发提供了坚实的基础。通过深入了解 DeepSeek Model Zoo 中的模型,研究者和开发者能够更好地掌握人工智能技术的前沿动态,为解决实际问题提供更高效、更智能的解决方案。DeepSeek Model Zoo 不仅推动了学术研究的深入发展,还加速了工业应用的创新升级,助力企业提升效率、降低成本、创造更大的价值。
正在走向自律
2025/02/28
1060
DeepSeek Model Zoo:解锁预训练模型的宝藏地图(12/18)
一文综述,未来已来 | 视觉和大语言模型的未来是什么?必然结连理实现多模态大模型
多模态模型结合了多种数据类型,如图像、文本、音频等。传统的语言模型(LLMs)主要针对文本数据进行训练和应用,但在理解其他数据类型方面存在局限性。纯文本语言模型,如GPT-3、BERT和RoBERTa,在文本生成和编码等任务上表现出色,但在理解和处理其他数据类型方面存在不足。
集智书童公众号
2023/11/29
1.6K0
一文综述,未来已来 | 视觉和大语言模型的未来是什么?必然结连理实现多模态大模型
推荐阅读
Meta开源文本生成音乐大模型,我们用《七里香》歌词试了下
5550
金融/语音/音频处理学术速递[12.20]
3850
VALL-E:语音合成的新里程
940
万字长文 | 让大模型“开口”说话:从ASR到端到端语音大模型的进化之旅
4810
Step系列大模型—两款多模态大模型详细介绍
2390
【AI落地应用实战】文本生成语音Parler-TTS + DAMODEL复现指南
3750
浙大北大联合火山语音推出新模型Make-An-Audio,一键生成大片音效so easy!
7030
语音生成的「智能涌现」:10万小时数据训练,亚马逊祭出10亿参数BASE TTS
2530
只需3秒就能偷走你的声音!微软发布语音合成模型VALL-E:网友惊呼「电话诈骗」门槛又拉低了
1.1K0
微软NaturalSpeech语音合成推出第三代,网友惊呼:超自然!实至名归
1K0
AI:语音克隆MockingBird简介及实践(秒级生成你想要的语音内容)
8660
6k Star!ChatTTS:开源领域最强的文本到语音转换(TTS)模型!
3560
我掌握的新兴技术:语音合成:如何用AI生成自然和多样的语音
5010
换了30多种方言,我们竟然没能考倒中国电信的语音大模型
2020
AI日报|文生语音大模型国内外均有突破,Pika完成6亿新融资,视频大模型也不远了!
2600
苹果接入GPT-4o,Siri史诗级加强背后的语音技术是如何实现的?
1.1K0
谷歌AI歌手震撼来袭!AudioLM简单听几秒,便能谱曲写歌
8920
金融/语音/音频处理学术速递[12.9]
2600
DeepSeek Model Zoo:解锁预训练模型的宝藏地图(12/18)
1060
一文综述,未来已来 | 视觉和大语言模型的未来是什么?必然结连理实现多模态大模型
1.6K0
相关推荐
Meta开源文本生成音乐大模型,我们用《七里香》歌词试了下
更多 >
领券
社区富文本编辑器全新改版!诚邀体验~
全新交互,全新视觉,新增快捷键、悬浮工具栏、高亮块等功能并同时优化现有功能,全面提升创作效率和体验
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文