混杂性,不是竭力避免,而是标准途径

大数据观察

了解大数据,关注大数据观察吧!

每个想了解最新大数据资讯的人,都关注了我

文 / 数据君

确切地说,在许多技术和社会领域,我们更倾向于纷繁复杂的内容。

几个世纪以来,人们一直用分类法和索引法来帮助自己存储和检索数据资源。

这样的分级系统通常都不完善。在“小数据”范围内,这些方法就很有效,但一旦把数据规模增加好几个数量级,这些预设一切都各就各位的系统就会崩溃。

相片分享网站Flickr在2011年拥有来自大概1亿用户的60亿张照片。根据预先设定好的分类来标注就没有意义了。

恰恰相反,清楚的分类被更混乱却更灵活的机制所取代了。这些机制才能适应改变着的世界。

当我们上传照片到Flickr网站的时候,我们会给照片添加各种各样的标签。也就是说,我们会使用一组文本标签来编组和搜索这些资源。

人们用自己的方式创造和使用标签,所以它是没有标准、没有预先设定的排列和分类,也没有我们必须遵守的类别的。

任何人都可以输入新的标签,标签内容事实上就成为了网络资源的分类标准

标签被广泛地应用于Facebook、博客等社交网络上。

因为它们的存在,互联网上的资源变得更加容易找到,特别像是图片、视频和音乐这些无法用关键词搜索的非文本类资源。

当然,有时人们错标的标签会导致资源编组的不准确,这会让习惯了精确性的人们很痛苦。但是,我们用来编组照片集的混乱方法给我们带来了很多好处。

比如,我们拥有了更加丰富的标签内容,同时能更深更广地获得各种照片。我们可以通过合并多个搜索标签来过滤我们需要寻找的照片,这在以前是无法完成的。

我们添加标签时所固带的不准确性从某种意义上说明我们能够接受世界的纷繁复杂。这是对更加精确系统的一种对抗

这些紧缺的系统试图让我们接受一个世界贫乏而规整的惨象,假装世界万物都是整齐地排列的。而事实上现实是纷繁复杂的,天地间存在的事物也远远多于系统所设想的。

互联网上最火的网址都表明,它们欣赏不精确而不会假装精确。

当数量规模达到一定境界的时候,确切的数量已经不那么重要了,要想获得大规模数据带来的好处,混乱应该是一种标准途径,而不应该是竭力避免的。

我们甚至发现,不精确已经渗入了数据库设计这个最不能够容忍错误的领域。传统的数据库引擎要求高度精确和准确排列。数据不是单纯地被存储,它往往被划分为包含“”的记录,每个域都包含了特定种类和长度的信息。

索引也是事先就设定好了的,这也就限制了人们的搜索。

增加一个新的索引往往既消耗时间,又惹人讨论,因为需要改变底层的设计。传统的关系数据库是为数据稀缺的时代设计的,所以能够也需要仔细策划。

在那个时代,人们遇到的问题无比清晰,所以数据库被设计用来有效地回答这些问题。

但是,这种数据存储和分析的方法越来越和现实相冲突。

我们现在拥有各种各样、参差不齐的海量数据。很少有数据完全符合预先设定的数据种类。

而且,我们想要数据回答的问题,也只有在我们收集和处理数据的过程中才会知道。

主题 |数据混杂性

插图 | 网络来源

作 者 介 绍

数据君:)

了解大数据,关注大数据观察

部分图文来自网络,侵权则删

我想给你一个理由 继续面对这操蛋的生活

  • 发表于:
  • 原文链接:https://kuaibao.qq.com/s/20180911B19DFQ00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券