前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >谷歌新算法:多人对话中识别「谁在发言」【智能快讯】

谷歌新算法:多人对话中识别「谁在发言」【智能快讯】

作者头像
HyperAI超神经
发布2019-11-29 12:02:01
6780
发布2019-11-29 12:02:01
举报

By 超神经

AI 无处不在的时代,每天都有新的技术与研究成果出现。无论学术界还是商界,技术还是产品,AI 的新发现都源源不断,在带给我们全新视角的同时,也引起我们更深的思考。

HyperAI 超神经精心整理了 AI 行业的近期资讯,快来一起围观吧。

学界

中国工程院院士邬贺铨:5G 技术是把双刃剑

2019 ISC 互联网安全大会今日开幕。ISC 名誉主席、中国工程院院士邬贺铨出席讲话,谈到对 5G 技术安全的看法。

他指出,「5G 和 4G 相比,网速提升了,频谱效率提升了,它不仅更快,支持的应用范围也更广。但是,5G 安全也是双刃剑,5G 的虚拟化和软件定义能力,以及开放化等都会引发新的风险,使得网络有可能遭到更多的攻击」。

邬贺铨院士呼吁大家要重视 5G 带来的安全挑战。

来源:cnbeta.com

阿尔伯塔大学博士开发 AI 程序识别抑郁症

声音可能会传达情绪和心理状态的微妙线索。许多科学家正在使用人工智能来获取这些线索,以建立能够识别精神疾病障碍的语音分析技术。

阿尔伯塔大学的计算科学博士 Mashrura Tasnim ,在日前开发了一种机器学习模型,可以识别抑郁症患者的语言特点。

她的目标是创建一个智能手机应用程序,用于监控用户的对话,并在检测到抑郁症倾向时,向紧急联系人或心理健康专业人员发出警报。

来源:theglobeandmail.com

企业

谷歌开源语音转录工具 Live Transcribe

谷歌在近日开源了语音转录工具 Live Transcribe ,旨在推动将语音转化为字幕的研究进展。

Live Transcribe 是针对耳聋及听障人群开发的一款免费 Android 服务,它基于自动语音识别技术(ASR),可在手机上自动将语音生成实时字幕。

使用智能手机的麦克风,并通过 Google Cloud Speech API ,Live Transcribe 支持 70 多种语言和方言口语。

目前该工具的源代码已经可以在 GitHub 上获得。

地址:https://github.com/google/live-transcribe-speech-engine

来源:opensource.googleblog.com

亚马逊为 Alexa 推出新功能 Custom Interfaces

以增强小工具和游戏的交互体验

亚马逊致力于将家庭设备与其 Echo 智能音响接起来,打造更智能化的家居或者游戏体验。

目前他们推出了 Custom Interfaces,朝着这个方向又迈出了一步。这项功能为开发人员和设备制造商提供了方法,将小工具与 Alexa 和 Echo 智能音响的连接更加方便。

Custom Interfaces 是亚马逊去年推出的 Gadgets Toolkit 的一部分,它允许更加动态地将其他设备与 Echo 集成。通过它,开发人员可以在 Alexa 和自己的产品之间创立交互,以此创造出更友好的用户体验。

来源:developer.amazon.com

技术

谷歌推出新算法,将在多人对话情景中

更准确地识别出「谁在说话」

近日谷歌 AI 团队推出一个新模型,该模型基于 RNN-T 架构,把声学、语言学、扬声器分类和语音识别整合到同一个系统中,根据语音语调、语义分析,来给不同的对话人物建立标签、进行识别,从而更准确地在多人对话中区分「什么时候是谁在讲话」。

这个问题也被称为「鸡尾酒会问题」,是计算机语音识别领域中,对多人对话中准确区分讲话人物声纹识别的经典难题之一。目前该集成模型已应用于理解医疗对话项目,日后有望在更多非医疗语音服务中推广和使用。

来源:ai.googleblog.com

谷歌更新 Euphonia 项目进度

更准确地识别有口音及不清晰的言语

谷歌 AI 科研人员近日公布了 Euphonia 项目的详细信息,该项目可以更准确地将有语言障碍的人的语音转换成文本,并且改善母语非英语的人的自动语音识别。

在此次尝试中,科研人员增加了患有 ALS (肌萎缩性脊髓侧索硬化症,该疾病对患者的语言功能产生严重伤害)患者的语料资源,同时增加具有口音的英语音频,以此训练模型,在这两种非标准语音的基础上微调 RNN-T 和 LAS,借助 Parrotron,极大地降低了单词识别错误率。

来源:ai.googleblog.com

新奇

引入强大 AI 技术

谷歌版作业辅助应用 Socratic 上架 App Store

由 Chris Pedregal 和 Shreyans Bhansali 于 2013 年创立的 Socratic,旨在创建一个能帮助所有学生学习的社区。

最初,该应用程序提供了一个类似 Quora 的 Q&A 平台,学生可以提出问题,由专家回答。后来,该平台使用人工智能技术,学生可以通过相机拍摄拍摄家庭作业或者问题,获得专业的解释。

在本周公示的一份声明中,谷歌表示已经完成对 Socratic 的收购,并且表明在谷歌人工智能技术的帮助下,带来了全新的使用体验,目前新款应用已经在 App Store 上线发布。

来源:techcrunch.com

谷歌推新工具防止学生网络抄袭

近日,Google 的教育部门 Google for Education 推出新工具 Assignments,可帮助老师验证学生功课作品的原创性。

Assignments 能发现抄袭的内容,也能快速检测文章中缺少的引用,以确保学生不会盗用网上其他人的想法和观点。

其检测过程就跟毕业论文检测差不多,把作品上传至该工具,大约 20 秒就能自动检测并生成报告。如工具发现学生作品与现有网页、书籍匹配的文字段落,或者与网络资源有相关性,都会发出提示。

来源:engadget.com

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-08-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 HyperAI超神经 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
语音识别
腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档