一段声音的旅程逆概,你比女人还善变

我们经常用“有多少人工就有多少智能”这句话来形容“AI”。的确,人工智能的许多领域都是拿人砸出来的。前文我们说到数据标注是行业中脏活累活最集中的地方之一(

一段声音的旅程(十二)语音的规则模型和数据标注

),也是拼人力的地方之一。那还有什么地方也在拼人力呢?为什么会如此呢?接下来的几篇,我们来好好聊一聊由“人工”堆砌起来的智能。

本文我们先来聊聊半仙的忽悠经,哦不,是经常拿来和客户探讨的一个有趣的话题——

逆概问题

都说女人善变。啧啧,得出这个结论的人大概没了解过逆概问题。今天我们就来给女性朋友平平反,来八八这逆概的七十二变~

逆概问题我们简称黑白球问题:假设有一个箱子里面装了老么多个球,其中包含黑球和白球。我们不知道箱子里一共有多少个球,更不知道有多少个黑球,多少个白球(当然,现实中,除了黑球、白球之外,还有可能会出现没见过的球,我们称这些超出预期的球为“死不要脸求出位球”,哦不,应该叫“黑天鹅”),请预测,下一次取出黑色球的概率是多少???

图片源自网络

当然,概率问题不是我们要聊的,我们主要聊的是这里面的逻辑推理过程。

1. 因为不知道箱子里有多少黑白球,最初的概率基本就是靠拍脑袋瞎蒙的,这个肯定不靠谱,所以不予考虑;

2. 先依次取出十个球,看取出来的球的颜色。假设取出的球中黑白球各有5个,那么大家心里应该大概对箱子里的球的颜色比例有个初步猜测,即可能是黑白各半,那么下次就有50%概率取出黑色球;

3. 继续取球,取到一百个球,其中黑球70个,白球30个。这时我们应该修正一下前面的结论,并预测下个球是黑球的概率大概在70%左右;

4. 继续取球,一直取到九百九十九个球。当取第一千个时,发现首次取出来一个红球(遇见“黑天鹅”了)。这一下子,对于下一个球的判断就发生质的变化,因为存在取出红球的可能。当前黑球概率不论是多少,都可能是错的,因为还不清楚红球的概率会是多大;

5. 继续取球,取到一万个球,其中黑球4000个,白球1000个,红球5000个。那么一下子概率就变成4:1:5了,其中黑球概率变为40%左右;

6. 以此类推...

图片源自网络

(当然,这个话题里红球的例子有些夸张。明明红球占五成比例,结果前一千个球里一个红球都没有,明显扯淡。那啥,大家不要纠结于这个细节哈,关键是要掌握这个思维过程。)

说了这么多,怎么好像和我们AI没啥关系呢?童鞋们别着急,其实关系很大。前文中举过一个“李洋泊”、“李昂博”、“梁博”的例子。我们把这个例子套入今天的这个逆概问题中:最开始,你有个同事叫“李洋泊”。当你和同事们一起聊天时,说到这个人名,语速快一些或慢一些,清楚一些或者模糊一些,你都能够快速知道说的是“李洋泊”,这就是只有“黑球”的时候。过了一阵子,好声音的节目开始热播,于是你知道了“梁博”这个人。这时候同事们一起聊天,如果语速稍微快一些,听觉上就会开始迷糊了,你可能就不知道到底说的是“李洋泊”还是“梁博”。你观察了一段时间,发现一个是同事,一个是明星,同事聊天,说同事的概率还是要高于明星的(爱聊明星八卦的同事除外哈,again,不要纠结这些细节~)。这时说“李洋泊”的概率可能是70%,而说“梁博”的概率可能是30%,反正就是这两个其中一个嘛,这其实就引入了黑白球概率问题。

又过了些日子,又来了一个同事,他叫“李昂博”。于是你发现:嘿,来了个搅局的,老子之前推测出的概率又被推翻了!!!这个时候同事们聊天,也可能说的是“李昂博”,这就是忽然发现了“黑天鹅”。此时,我们就要重新再去思考了,之前说的7:3已经不成立了,那么怎么才能知道这个“黑天鹅”的比例呢?得再观察一段时间,最后得出一个新的概率,40%可能是“李洋泊”,50%可能是“李昂博”,10%可能是“梁博”,以此类推…

图片源自网络

这话题是经典的“逆概”问题,和我们目前“AI”所探讨的问题很像,都是要基于“已发生的过去”来“预测未来”。当然,这也是“大数据”经常聊到的话题,数据越真实越丰富,则对现状的还原、对趋势的把控、对未来的预测等等,就会越准确。特别注意,这里都是概率性的用词。是“越”准确,而不是“一定”准确。AI的最大特点就是不确定性。

我们先从前面的话题里梳理几个结论:

1.没有过去就没有未来;

2.过去的数据越丰富越全面,对未来预测则越准确;球取的越多,球的预测比例会越接近真实的比例关系。这里“丰富”特指量级,“全面”特指维度;

3.“黑天鹅”的出现,现有“智能”是无法区分的(恩,对的,目前人工智能在某些领域还处在人工智障水平……)。经过一定时间的观察,如果“黑天鹅”达到无法被忽略且必须解决的地步,原则上都需要重新训练所有相关模型来建立新的“智能”(这也是“AI”需要不断迭代的原因。同时,可以顺势推导出“AI”云服务化的必要性)。

在早些年做语音时,我主张“软硬件一体化”及“云端芯一体化”,其理论基础就是前面几篇文章知识综合的运用。最初几篇文章一直在强调语音的“音”的部分如何难,而“芯”所承载的是降低“音”也就是audio输入的门槛成本,主推“即插即用”的理念;“端”所承载的是降低语音能力“被集成”的门槛成本,几行代码即可引入语音能力;“云”除了是本文说的能力迭代,同时也承载了降低语音能力“被定制”的门槛成本,在线可视化定制并实时体验;三者,大开大合,相辅相成~

图片源自网络

俗话说,无规矩不成方圆。换句话说,有规矩易得方圆。其实第二点结论也能有类似的推导。根据第二点的描述,越“全面”越“准确”意味着,约束前提条件越多(即:已知维度越多),是不是就越容易“全面”,越容易“准确”了呢?很熟悉是吗?没错,这就是现在主流的语音“垂直化”或“场景化”的理念。(特别注意:“容易”是相对的,不要误以为在垂直场景里,语音就可以被轻视哦!)

如果大家对垂直场景还比较迷糊,我这里再拿前面的人名举例子。首先塑造一个场景:假设此时部门在开会讨论工作,这个时候“梁博”被说到的概率趋近于零。这时你听到有类似发音的词就可以排除“梁博”的干扰,直接从“李洋泊”和“李昂博”里选一个最相似的,这其实就在提高准确率。同样,再假设你和“李洋泊”一个部门,部门里面人都不太认识另一个部门的“李昂博”。此时,同样是部门开会讨论工作,此时听到相似音的词,几乎可以直接认定为“李洋泊”。是不是准确率进一步提高了?这就是垂直化场景化的好处。注意,我们在举的例子都比较极端,真实在生活里是极其复杂的。也许部门开会聊岔了聊到好声音的“梁博”也是有可能的(还是死了那颗想偷懒的心吧……)

图片源自网络

我们在逆概理论上再延展一下会发现,黑白球主要表达的是一种逆概的逻辑,其核心承载是“球”,区分的是“颜色”;同理,如果承载是“声音”,区分的是“内容”,那就是我们一直在聊的语音识别;若区分的是“人”,就是声纹识别;如果承载是“图像”,区分的是“物”,就是图像识别中的万物识别;若区分的是“人”,就是人脸识别;承载是“文字”,区分是“义”,就成了自然语义理解... 当然,我们还可以发散想象一下,如果它所承载区分的是“行为”和“因果”,又会是怎样的呢?好像很厉害的样子,是不是“我们可以根据已经发生过的‘因’,来预测未来可能的‘果’”了呢???(一不小心暴露了本半仙的神棍,哦不,是半仙本色~)

图片源自网络

注意,上文这句话其实偷换概念了,正确的描述应该是:“我们可以根据已经发生过的‘因果’关系,来预测当前的‘因’和将来可能发生的‘果’。或者,将来想要什么‘果’,则当前需要种下什么‘因’”。童鞋们要仔细比对两种描述的区别,这样会更清晰地认知“AI”现状。

对于“AI”未来的展望,影视作品、网文软文等等到处都是。展望未来并不是我写这些文章的初衷,这里就不展开了。

以上主要聊的是“预测逆概”的“不确定性”。如果你和语音供应商谈过合作,会发现,语音企业在描述自己语音能力的时候,都会说,“我们的语音识别能达到95%,甚至在有些场景下可以到99%。当然,这是一般情况下,如果现场环境太嘈杂或者其他特殊情况下,干扰多了,表现会略差一些,但是整体效果是可以基本保障的”。这个95%和99%,就是一个“预测逆概”,是在他用于模拟“未来”的测试集合中,能够达到这个值。但毕竟模拟并非真实,中间还是会存在一些可能的变数,而且不知道这个变数有多大,这就是一种“不确定性”。越接近其模拟的场景,这个“不确定性”风险会相对越小。当你有一个非常垂直的行业,语音企业需要为你“定制”语音,就是让他模拟的场景无限接近你的真实场景,为你降低这个“不确定性”带来的风险。所以,如果再听到供应商说需要定制,就先别急着甩脸子了,毕竟出来混都不容易啊。

说到出来混不容易,今天就先聊到这了,还请各位童鞋点完赞再下课,多谢~

图片源自网络

—THE END—

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180605G20TO200?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券