一段声音的旅程逆概，你比女人还善变

文章来源：企鹅号 - 秋观天象

我们经常用“有多少人工就有多少智能”这句话来形容“AI”。的确，人工智能的许多领域都是拿人砸出来的。前文我们说到数据标注是行业中脏活累活最集中的地方之一（

一段声音的旅程（十二）语音的规则模型和数据标注

），也是拼人力的地方之一。那还有什么地方也在拼人力呢？为什么会如此呢？接下来的几篇，我们来好好聊一聊由“人工”堆砌起来的智能。

本文我们先来聊聊半仙的忽悠经，哦不，是经常拿来和客户探讨的一个有趣的话题——

逆概问题

都说女人善变。啧啧，得出这个结论的人大概没了解过逆概问题。今天我们就来给女性朋友平平反，来八八这逆概的七十二变~

逆概问题我们简称黑白球问题：假设有一个箱子里面装了老么多个球，其中包含黑球和白球。我们不知道箱子里一共有多少个球，更不知道有多少个黑球，多少个白球（当然，现实中，除了黑球、白球之外，还有可能会出现没见过的球，我们称这些超出预期的球为“死不要脸求出位球”，哦不，应该叫“黑天鹅”），请预测，下一次取出黑色球的概率是多少？？？

图片源自网络

当然，概率问题不是我们要聊的，我们主要聊的是这里面的逻辑推理过程。

1. 因为不知道箱子里有多少黑白球，最初的概率基本就是靠拍脑袋瞎蒙的，这个肯定不靠谱，所以不予考虑；

2. 先依次取出十个球，看取出来的球的颜色。假设取出的球中黑白球各有5个，那么大家心里应该大概对箱子里的球的颜色比例有个初步猜测，即可能是黑白各半，那么下次就有50%概率取出黑色球；

3. 继续取球，取到一百个球，其中黑球70个，白球30个。这时我们应该修正一下前面的结论，并预测下个球是黑球的概率大概在70%左右；

4. 继续取球，一直取到九百九十九个球。当取第一千个时，发现首次取出来一个红球（遇见“黑天鹅”了）。这一下子，对于下一个球的判断就发生质的变化，因为存在取出红球的可能。当前黑球概率不论是多少，都可能是错的，因为还不清楚红球的概率会是多大；

5. 继续取球，取到一万个球，其中黑球4000个，白球1000个，红球5000个。那么一下子概率就变成4:1:5了，其中黑球概率变为40%左右；

6. 以此类推...

图片源自网络

（当然，这个话题里红球的例子有些夸张。明明红球占五成比例，结果前一千个球里一个红球都没有，明显扯淡。那啥，大家不要纠结于这个细节哈，关键是要掌握这个思维过程。）

说了这么多，怎么好像和我们AI没啥关系呢？童鞋们别着急，其实关系很大。前文中举过一个“李洋泊”、“李昂博”、“梁博”的例子。我们把这个例子套入今天的这个逆概问题中：最开始，你有个同事叫“李洋泊”。当你和同事们一起聊天时，说到这个人名，语速快一些或慢一些，清楚一些或者模糊一些，你都能够快速知道说的是“李洋泊”，这就是只有“黑球”的时候。过了一阵子，好声音的节目开始热播，于是你知道了“梁博”这个人。这时候同事们一起聊天，如果语速稍微快一些，听觉上就会开始迷糊了，你可能就不知道到底说的是“李洋泊”还是“梁博”。你观察了一段时间，发现一个是同事，一个是明星，同事聊天，说同事的概率还是要高于明星的（爱聊明星八卦的同事除外哈，again，不要纠结这些细节~）。这时说“李洋泊”的概率可能是70%，而说“梁博”的概率可能是30%，反正就是这两个其中一个嘛，这其实就引入了黑白球概率问题。

又过了些日子，又来了一个同事，他叫“李昂博”。于是你发现：嘿，来了个搅局的，老子之前推测出的概率又被推翻了！！！这个时候同事们聊天，也可能说的是“李昂博”，这就是忽然发现了“黑天鹅”。此时，我们就要重新再去思考了，之前说的7:3已经不成立了，那么怎么才能知道这个“黑天鹅”的比例呢？得再观察一段时间，最后得出一个新的概率，40%可能是“李洋泊”，50%可能是“李昂博”，10%可能是“梁博”，以此类推…

图片源自网络

这话题是经典的“逆概”问题，和我们目前“AI”所探讨的问题很像，都是要基于“已发生的过去”来“预测未来”。当然，这也是“大数据”经常聊到的话题，数据越真实越丰富，则对现状的还原、对趋势的把控、对未来的预测等等，就会越准确。特别注意，这里都是概率性的用词。是“越”准确，而不是“一定”准确。AI的最大特点就是不确定性。

我们先从前面的话题里梳理几个结论：

1.没有过去就没有未来；

2.过去的数据越丰富越全面，对未来预测则越准确；球取的越多，球的预测比例会越接近真实的比例关系。这里“丰富”特指量级，“全面”特指维度；

3.“黑天鹅”的出现，现有“智能”是无法区分的（恩，对的，目前人工智能在某些领域还处在人工智障水平……）。经过一定时间的观察，如果“黑天鹅”达到无法被忽略且必须解决的地步，原则上都需要重新训练所有相关模型来建立新的“智能”（这也是“AI”需要不断迭代的原因。同时，可以顺势推导出“AI”云服务化的必要性）。

在早些年做语音时，我主张“软硬件一体化”及“云端芯一体化”，其理论基础就是前面几篇文章知识综合的运用。最初几篇文章一直在强调语音的“音”的部分如何难，而“芯”所承载的是降低“音”也就是audio输入的门槛成本，主推“即插即用”的理念；“端”所承载的是降低语音能力“被集成”的门槛成本，几行代码即可引入语音能力；“云”除了是本文说的能力迭代，同时也承载了降低语音能力“被定制”的门槛成本，在线可视化定制并实时体验；三者，大开大合，相辅相成～

图片源自网络

俗话说，无规矩不成方圆。换句话说，有规矩易得方圆。其实第二点结论也能有类似的推导。根据第二点的描述，越“全面”越“准确”意味着，约束前提条件越多（即：已知维度越多），是不是就越容易“全面”，越容易“准确”了呢？很熟悉是吗？没错，这就是现在主流的语音“垂直化”或“场景化”的理念。（特别注意：“容易”是相对的，不要误以为在垂直场景里，语音就可以被轻视哦！）

如果大家对垂直场景还比较迷糊，我这里再拿前面的人名举例子。首先塑造一个场景：假设此时部门在开会讨论工作，这个时候“梁博”被说到的概率趋近于零。这时你听到有类似发音的词就可以排除“梁博”的干扰，直接从“李洋泊”和“李昂博”里选一个最相似的，这其实就在提高准确率。同样，再假设你和“李洋泊”一个部门，部门里面人都不太认识另一个部门的“李昂博”。此时，同样是部门开会讨论工作，此时听到相似音的词，几乎可以直接认定为“李洋泊”。是不是准确率进一步提高了？这就是垂直化场景化的好处。注意，我们在举的例子都比较极端，真实在生活里是极其复杂的。也许部门开会聊岔了聊到好声音的“梁博”也是有可能的（还是死了那颗想偷懒的心吧……）

图片源自网络

我们在逆概理论上再延展一下会发现，黑白球主要表达的是一种逆概的逻辑，其核心承载是“球”，区分的是“颜色”；同理，如果承载是“声音”，区分的是“内容”，那就是我们一直在聊的语音识别；若区分的是“人”，就是声纹识别；如果承载是“图像”，区分的是“物”，就是图像识别中的万物识别；若区分的是“人”，就是人脸识别；承载是“文字”，区分是“义”，就成了自然语义理解... 当然，我们还可以发散想象一下，如果它所承载区分的是“行为”和“因果”，又会是怎样的呢？好像很厉害的样子，是不是“我们可以根据已经发生过的‘因’，来预测未来可能的‘果’”了呢？？？（一不小心暴露了本半仙的神棍，哦不，是半仙本色~）

图片源自网络

注意，上文这句话其实偷换概念了，正确的描述应该是：“我们可以根据已经发生过的‘因果’关系，来预测当前的‘因’和将来可能发生的‘果’。或者，将来想要什么‘果’，则当前需要种下什么‘因’”。童鞋们要仔细比对两种描述的区别，这样会更清晰地认知“AI”现状。

对于“AI”未来的展望，影视作品、网文软文等等到处都是。展望未来并不是我写这些文章的初衷，这里就不展开了。

以上主要聊的是“预测逆概”的“不确定性”。如果你和语音供应商谈过合作，会发现，语音企业在描述自己语音能力的时候，都会说，“我们的语音识别能达到95%，甚至在有些场景下可以到99%。当然，这是一般情况下，如果现场环境太嘈杂或者其他特殊情况下，干扰多了，表现会略差一些，但是整体效果是可以基本保障的”。这个95%和99%，就是一个“预测逆概”，是在他用于模拟“未来”的测试集合中，能够达到这个值。但毕竟模拟并非真实，中间还是会存在一些可能的变数，而且不知道这个变数有多大，这就是一种“不确定性”。越接近其模拟的场景，这个“不确定性”风险会相对越小。当你有一个非常垂直的行业，语音企业需要为你“定制”语音，就是让他模拟的场景无限接近你的真实场景，为你降低这个“不确定性”带来的风险。所以，如果再听到供应商说需要定制，就先别急着甩脸子了，毕竟出来混都不容易啊。

说到出来混不容易，今天就先聊到这了，还请各位童鞋点完赞再下课，多谢~

图片源自网络

—THE END—

发表于: 2018-06-052018-06-05 22:40:42
原文链接：https://kuaibao.qq.com/s/20180605G20TO200?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

一段声音的旅程逆概，你比女人还善变

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐