前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >黄学东:微软“全武功”解决企业会议的痛点

黄学东:微软“全武功”解决企业会议的痛点

作者头像
新智元
发布2018-05-29 16:49:46
9250
发布2018-05-29 16:49:46
举报
文章被收录于专栏:新智元新智元新智元

新智元报道

编辑:张乾

【新智元导读】昨天下午,微软全球技术院士黄学东博士、微软大中华区副总裁兼市场营销及运营总经理康容、ROOBO CTO雷宇接受了包括新智元在内的媒体专访,详细解答了微软的语音技术、产品落地以及生态合作。

在昨天的微软人工智能大会上,微软全球技术院士黄学东展示了微软多项语音、翻译等技术,微软Build大会上的“黑科技”全球首创AI会议系统再次被演示。

昨天下午,黄学东博士、微软大中华区副总裁兼市场营销及运营总经理康容、ROOBO CTO雷宇接受了包括新智元在内的媒体专访,详细解答了微软的语音技术、产品落地以及生态合作。

新智元根据现场速记进行整理,部分内容有删节。

黄学东:评价谷歌没有什么意思,微软的“全武功”最有意思

问:您一直关注语音技术,现在很多搜索引擎还是通过输入文字来进行交互,什么时候我们能够看到像语音识别或图像技术真正改变到搜索引擎现在的状况?

黄学东:搜索引擎现在很复杂,我做语音之前做过搜索引擎,后台要完全了解所有的文件内容和关键是字是什么东西,还要匹配用户意图,找到相应的文本,它也有很多人工智能深度学习的技术。

语音识别在现在的媒体阶段,是文本输入还是语音输入还是图像输入?基本上还是一个相对比较松的耦合。语音进步的主要标杆是把波形转换成文字,这个过程中中文字也可以有不同的选择,因为语音识别不是完全的准确,就像搜索引擎一样,有第一个好结果,有第二好结果、第三结果,把整个结果给搜索引擎,搜索引擎在搜索的时候可以搜索不仅仅是第一好的结果,而且把语音识别第二好的结果也考虑进去。现在工业界的状态基本上是这样。

问:麦克风阵列部分经常在语音识别场景下遇到噪音问题,微软可以解决这个问题吗?还是说未来我们可以有更好的方法?

黄学东:我们有麦克风阵列的核心技术,并且已经有长足的进步,在业界是领先的。再加上360度的摄像头,这两者的结合让会议“AI神器”达到了很高的高度。不管是讲了什么话,各方面的指标都上了一个台阶。今后,我们的前景非常非常乐观。

问:之前谷歌Duplex打电话号称已经通过了图灵测试,你对这个怎么评价?

黄学东:不敢评价。媒体上很多评价说他们在作假,很多人质疑谷歌,让谷歌发言人出来认证,他们不出来认证,也不说话。

微软会议“AI神器”在多人自由交谈的情况下能知道谁在说话,而且知道说了什么话,做了现场演示。不仅做了中文,还做了英文,这是我们要表达的微软在语音识别业界的领导地位,是全武功,那个武是武力的“武”,不是一二三四五的五。

所以说批评谷歌没有什么意思,我们的“全武功”最有意思。

不仅能支持全双工,而且能支持“全武功”

问:上午微软展示了人工智能的系统,有哪些东西是微软从底层基础研发到开放再到产品的生产制造?有哪些是把底层的技术开放给伙伴,他们基于平台和技术做产品的研发和人工智能应用产品?

黄学东:首先,这些是研究的演示,微软从来不预先宣布我们产品什么时候出来、以什么方式出来。我们产品有几个东西可以讲,第一是我们的认知服务,语音这一部分云的API、模型、服务,有一套新的规律,这是在微软Build大会上已经宣布了的。

第二是定制服务增加了语音合成,想要换成自己想要听的声音,可以上传三个小时、十个小时,越多质量越好,可以定制到你想要的声音。所以我们全线语音和翻译都实现了量身定制。

现在如果你是开发商要开发自己的音箱,可以用微软刚刚推出来的MSDDK,这是我们和ROOBO合作推出来的一个最新解决方案,不仅仅有微软和ROOBO合作推出来的硬件,而且有最新的麦克风阵列,包括四麦线性的和七麦原型的麦克风阵列。这个黑科技是绝对引导业界潮流的,我们不仅能支持全双工,而且能支持“全武功”。

康容:我补充一下,因为微软是一个平台和工具的企业,我们是提供平台和工具,我们的黑科技、研发团队、我们的大咖博士发明的东西,他们渐渐的会落地到我们自己的产品中,也会提供给我们的生态合作伙伴让他们来开发。

微软大中华区副总裁兼市场营销及运营总经理康容

今天早上看到哪一个黑科技会在什么时候落地,很难讲出来,但是迟早会发生。我们会尽快的落地,我们会看市场的需求。所以,我们听到越多的客户和合作伙伴的声音,我们就会加速某某功能尽量落地。我们一系列的很多新东西都会提供给生态一起来合作。

问:ROOBO本身是针对不同的应用场景解决人工智能软硬结合方案的设计,然后去生产销售,过去这几年做这种场景化的人工智能设计,然后再去推广。人工智能产品怎么更成功的被市场接受,让消费者更容易去掏钱买?如何落地和激活?为什么这次和微软合作语音的开发及机会在哪里?微软的技术怎么独特的激活这个市场?

雷宇:其实这两个问题是一个问题。我们知道AI落地没有一个通用AI可以应用到每个垂直领域,这里面最核心的问题是如何产品化

康容与雷宇(右)

在我们创业过程中我们发现,所有的方案只考虑技术,不考虑内容和服务。这在本质上违反了市场原则,用户永远要的是服务和功能,我觉得技术只是提升它的体验,我觉得这是一个本质的问题。

我们的痛点是在通用AI技术上,没有达到我们满意的效果,所以我们需要和国际上最顶尖的公司进行合作。

微软认知服务是全面性,微软服务本身也是有机体,本身考虑的就很完善。我们和微软的合作,因为我们看到了“明天”的东西,可以少走一些弯路,多模态和多场景的东西必然带来很大的变革。

企业应用最后一个痛点:会议中的语音

问:微软开发出了很好的语音识别等的技术,你们打算用这些技术开发出一些什么样的产品?智能音箱有很多企业都在做,但是具体的有没有什么更好的应用可以为大家更好的服务呢?

黄学东:语音交互过程中,在所有的商业场景中,用电子邮件、微信等等其他的产品都已经数字化了,会议中的语音是现在没有数字化的一个主要媒体,这对生产力的提高、对消费的提高是最后的痛点。在企业的应用中,最后的一个痛点就在这个地方。

会议比较难做,不像全双工,只有两个人在讲话,超过三个人的会议就比两个人会议难很多。如果能做到七八个人开会,都可以转录和翻译,可以变成数字化的形式处理。

问:如何看待目前的人工智能市场?

黄学东:我觉得人工智能造就的“饼”足够大,传统公司和新生公司都可以在这个饼上发挥自己的空间,为用户提供更优质的服务。微软云是提供全球很宽泛的一个平台,它的覆盖力不管是全球语言还是数据中心的覆盖力都应该是引导潮流的。在这样一个平台上,微软的从计算机视觉到自然语言处理,再到语音和搜索、知识表达等服务,都是业界领导潮流的。

所以在这个平台上和人工智能的深度上微软有非常大的优势,所以我们希望在提供这个宽度和深度这样的架构下,有更多的开发商可以在这个平台上开发出我们还没有想到的应用,这个才是平台做的事情。大家要知道微软有广度且有深度,这个情况下开发商应该加入这个平台,在上面创造他们新的价值。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-05-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
语音识别
腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档