今天我们来学习语音助手的内容。
语音助手的概念
语音助手是一个通过语音识别、语音合成、语义分析等技术手段,使用户能够方便、自然地通过无线Mic及麦克风阵列等语音输入设备,可以使用自然语言和语音助手进行交互,实现语音助手与智能应用的结合和功能的整合,以及实现对智能电视的智能化控制的一个语音系统。
语音助手核心为语音交互提供语音的基本功能(识别,转写,合成,语义分析),同时为语音助手的应用和Widget和显示桌面提供控制和交互逻辑。同时提供语音助手终端数据向语义云的上报功能。该部分功能是将用户输入的用户信息和用户数据库的信息对比,验证当前登录的用户是不是合法用户,是则进入主界面,否则结束。
语音助手的主要技术
语音助手为什么能听懂、理解人类的指令?这主要涉及语音识别(ASR)、自然语言理解(NLP)、语音合成(TTS)等多项AI能力。
·语音识别技术(ASR)
ASR(automatic speech recognition),指的是把人类的语音转化为文字或者机器可以理解的指令,从而实现人与机器的语音交流。实际上,ASR也可以简单地类比为人类的“耳朵”,依靠这种技术,语音助手听见了人类的声音,进而进行文字转换和指令转换。
现阶段的ASR主要是采用“输入—编码—解码—输出”的流程,工作方式也毫不神秘,只涉及到三个步骤:第一步,把声音每一帧识别成状态;(状态可以理解为一个细分的语言单位,一个音素一般会分成三个状态)第二步,把状态组合成音素;(普及一下音素的概念,单词的发音由音素构成,英语中,音素集由39个音素构成;而在汉语里,一般是以全部声母和韵母作为音素集)第三步,把音素组合成单词。
如图所示,每个小竖条代表一帧,若干帧语音对应一个状态,每三个状态组合成一个音素,若干个音素组合成一个单词,语音就变成了文字。只要知道每帧语音对应哪个状态了,语音识别的结果也就出来了。而每帧语音与状态对应的概率,可以从声学模型里索取,因为声学模型中存储了大量参数,通过参数就可以了解。
·自然语言理解(NLP)
自然语言理解,便是让机器能听懂人类的指令,基于文本去理解及预测用户的需求,做出相关响应和操作,并且输出反馈给用户的答复文本。自然语言理解成为语音交互的核心。相较于人类的情感需求、精神状态,再智能的AI语音助手也难以读懂主人的“心”,因此具备语义理解能力的人机交互成为技术攻关的重点所在。语音助手通过深度学习,不断进行迭代进化,提供真正理解用户需求的个性化服务。比如,当你语音助手询问:明天出门需不需要带伞?它会通过“词处理”和“句处理”,在连续的汉字字符中识别词语和句子含义,并获取其语言学信息和统计学信息,进行系统下一步的分析和语句理解。通过语义理解技术,AI语音助手会将“带伞”与“天气预测”相对应,最后会对你作出“地区+天气预测+需/不需要带伞”的回答。
·语音合成技术(TTS)
TTS(text to speech),文本转换技术,即是将计算机产生的、或是外部输入的文字信息转变为口语输出的技术。如果将ASR类比为“耳朵”,听见人类的声音,那么TTS就是“嘴巴”,可以通过语音表达来回答人类的问题。
语音合成的运行系统主要分成TTS前端、声学模型和声码器三个相互承接的部分:
TTS前端从文本信息中产生发音和语言学的信息,换句话说,便是将文本中的发音归一化,确保准确判断其发音;
而声学模型则是基于前端的发音信息产生声学特征,也就是将文本转成机器可以理解的信息语言;
最后再通过声码器根据已生成的声学特征来合成最后声音的波形图,可以将第三部分理解成车载语音助手作回答的发声过程。TTS的传统实现方法分为拼接法和参数法,前者直接通过已录制好的语音进行拼接,便能合成质量优质的语音,但不利的是,拼接法需要很丰富的语音数据库支持;而后者则是在低资源的语音数据库中,通过统计模型产生语言参数,在转化成波形进行语音合成,成本较低,但语音质量相对而言不够优质。总结来说,之所以语音助手可以听到、听懂且执行人类的指令,便是因为前端降噪技术抑制了背景噪音,让语音助手通过语音识别技术“听得更清晰”,再通过语义理解技术“听得更明白”,协助执行相应操作,最后通过语音合成技术“发出声音回应”,完成人机交互的体验。
3、语音助手的应用范围
·智能家居
未来的智能电器,如智能音箱、智能电视等,均可以实现语音控制与交互。我们可以通过智能音箱来开关电器,可以直接与智能电视对话以找到喜欢的频道。同时这些智能设备可以与手机相连,让你在室外就可以控制家中的家具,可以在下班回家前就提前打开家里的灯。开辟了新的控制方式,让语音助手真正融入我们的生活。
·智能汽车
结合现在的热点话题“自动驾驶”,也许二者可以结合。直接用语音控制汽车的行驶,解放双手,通过语音控制目的地或打开车中的某些设备。当技术成熟后,也可以有效地减少交通事故的发生,更加合理地选择行驶的路线,为我们提供便利。
·智能办公室
语音助手也可以进入办公场景,取代传统秘书的一些工作,例如制定会议流程、预定会议室等。在一些在线会议的过程中,语音助手可以作为会议记录员或者实时翻译员,帮助参会的人员更加高效地进行讨论。
·可穿戴设备
可穿戴设备由于屏幕较小,不适合进行触屏操作,而语音助手正好可以弥补这个不足,作为各种可穿戴设备的控制和操作方式。同时,很多可穿戴设备平时处于待机状态,使用语音指令进行唤醒也显得十分自然。
·智能教育
AI语音助手可以作为课堂质量辅助和线上虚拟两部分。课堂质量辅助通过融合语音、视觉及文字技术辅助教师授课,实现实时字幕转录、重点内容快速定位、课堂数据分析等。尤其是新冠疫情以来,线上教学的需求量越来越大,基于AI语音交互的虚拟教师结合VR技术,可以摆脱教师人数的限制,一对一授课,并进行精准分析,提升学生学习的效果。语音测评和人机对话技术结合语义技术应用到普通话、古诗词及外语教学中,可以快速纠正发音韵律及语法错误,并且逐渐被应用到考试场景中。
·智能医疗
过去,传统的随访都要医护人员挨个拨打病人的电话询问患者的术后状况,并做记录。比如,医院日间手术平均每天出院病人在120人次以上,而每位病人一般在术后24-48小时要进行一次随访,就意味着医务人员每天要花9-12个小时用于电话随访,这给医院带来了巨大的随访工作量,而AI语音随访可以做到每天无间断、全覆盖随访,一天内可完成400-1000人次的随访工作,极大的提高了随访的工作量。
今天的课程就到这里,谢谢大家!
领取专属 10元无门槛券
私享最新 技术干货