大数据之三——更杂

文章来源：企鹅号 - 王荣昌

在互联网时代，只有5%的数据是结构化的，而剩下的95%则是非结构化的。大数据追求不是精确性，而是混杂性，这是数据变多之后的必然选择，因为此时严格追求精确性已经不可能。而数量庞大的信息让我们放弃严格精确的选择变得更为划算。

用形象的话来说，大数据是通过用概率说话，而不是板着”确凿无疑“的面孔。当我们试图扩大数据规模之时，要学会拥抱混乱。

在2000年时，微软研究中心的班科和布里尔一直在寻求改进word程序中语法检查的方法，他们不能确定是努力改进现有的算法、研发新的方法，还是添加更加细腻精致的数据更为有效。他们发现，当数据只有500万时，简单的算法表现很差，但是当数据达到10亿时，它却变成表现最好的，准确率从原来的75%提高到95%以上。也就是说，大数据的简单算法比小数据的复杂算法更为有效。

谷歌涉足机器翻译领域，采取的就是大数据的思维，它们建立了上万亿的语料库，相当于950亿句英语。上万亿的语料库就是谷歌的训练集，它可以更正确地推算出英语词汇搭配在一起背后所表达含义的可能性。

在抽样时代，我们要保证所抽取的样本完全精确，才能尽可能地减少偏差，因为在抽样样本上的细微偏差，就可能严重影响结果。而大数据不仅让我们不再期待精确性，也让我们无法实现精确性。这样，数据的混杂性，不是竭力避免，而是标准途径。这当然是不得已而为之，因为如果要追求数据的多，且还要求快，要完全保证数据的精确性就已经不可能。而相片分享网站因为数据太庞大，清楚的分类就被更混乱却更灵活的机制所取代了。照片背后的标签虽然混乱，但是不再精确的照片分类还是可以给我们提供更多的数据。

微信公众号文章中的阅读数在数量极其庞大时，只会显示10万+，这并不是代表系统不知道正确的数据，而是在数量规模变大时，确切的数量已经不那么重要了。况且，数据更新得非常快，甚至在刚刚显示出来时就已经过时了。用10万+已经可以表示足够多的意思了。

早期的数据库设计与语言是结构化的，而如今的数据库变成了非关系型数据库。最能代表这种转变的，就是Hadoop的流行，这是一种开源式分布系统的基础架构，它非常善于处理超大量的数据。它通过将大数据变成小模块然后分配给其他机器进行分析。它的分析结果虽然不够精确，不能用于卫星发射、开具银行账户明细这种精确度很高的任务，但是在一些要求不是那么精确的任务上，Hadoop显得得心应手。比如信用卡公司VISA就使用Hadoop，其能够将处理两年内730亿单交易所需的时间，从一个月缩减至仅仅13分钟，这不能不说是极大的效率改进了。

非结构化数据的比重占比高达95%，如果我们不接受它们，我们的数据来源将变得少了一大块。通过接受不精确性，我们打开了一个从未涉足的世界的窗户。在现实世界中，我们不得不接受两个折中的想法：一是我们默认自己不能使用更多的数据，但我们还是尽可能多地收集数据；二是我们放宽了对数据质量的要求。

实际上，我们无法穷尽所有的数据，因为数据随时都在生成，而又因为混乱的数据在互联网世界随处可见，我们也就不再拘泥于数据的精确性。就像印象派的画风一样，近看画中的每一笔都感觉是混乱的，但是退后一步你就会发现这是一幅伟大的作品，因为退后一步时我们才能看出画作的整体思路。

大数据要求我们要有所改变，我们必须能够接受混乱和不确定性，这样我们才可能从更高的层次以及整体上把握数据，进而去理解世界。

发表于: 2018-07-132018-07-13 08:37:39
原文链接：https://kuaibao.qq.com/s/20180713B0B6DC00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

大数据之三——更杂

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐