上一篇博客已经讲了什么是数据,人们常常将数据和信息混同起来,那么信息是什么?信息是关于世界、人和事的描述,它比数据来的抽象。信息既可以是我们人类创造的,如通话记录,也可以是天然存在的客观事实,如地球质量。但信息有时候隐藏在事物的背后,需要挖掘和测量才能看到。
那么数据和信息有什么不同?数据最大的作用是承载信息,但不是所有的数据都承载了有用的信息。数据是人造物,所以不一定真实,没有信息的数据也没有太多的意义。其次,有用的数据和无用的数据通常是混在一起的,所以我们需要处理数据,滤掉没有用的噪声和删除有害的数据。善用数据,才能发现数据背后的信息。
数据+信息》知识。对数据和信息进行处理后,就可以获得知识。知识具有抽象性、系统性的特征。比如,通过测量星球位置和对应的时间,就能得到数据;通过这些数据就能得到星球运动的轨迹,就是信息;通过信息总结出开普勒三定律,就是知识。
早起人类得到的数据很大程度上来源于对现象的观察,从观察中总结数据。但在过去,数据的作用往往被忽视,原因有1、过去数据量不足,积累大量的数据需要的时间太长,以至于在短时间内作用不明显。2、数据和想获得的信息之间的联系是间接的,它要通过不同数据之间的相关性才能体现出。
所以,数据的相关性是很重要的。很多时候,我们无法直接获得信息(比如疫情传播情况),但我们可以将相关联的信息(比如各地搜索情况)量化,然后通过数学模型,间接的得到所要的信息。
上图是用户在不同时间点对某个电视节目的搜索量
帕特尔问为什么会出现四个高峰,作者说因为美国跨了四个时区,节目播出各差一个小时,他说,其实通过它以及各个时区的人口,可以了解到不同电视节目在不同时区的收视率。帕特尔将搜索量和收视率联系起来了。后来他的成果被开发为Google的一款产品:Google趋势。如果仅仅看搜索趋势的变化,没多大意思,但如果把搜索和其他事情关联起来,就能发现很重要的信息,这其中就要通过数学模型。而各种数学模型都离不开概率论和统计学。
统计学中数据采集上有两个要点:量和质。想获得准确的统计结果,数据量需要充足,需要多少统计量才是准确的,就需要定量分析。其次,采样的数据要具有代表性。有时候,不是数据量大,统计结果就准确。统计的数据必须和我们想统计的目标相一致。
在大多数的复杂应用中,需要通过数据建立一个数学模型,以便在实际应用中使用。首先采用什么样的模型,其次,模型的参数是多少,即机器学习。只要数据量足够,就可以用若干个简单的模型取代上一个复杂的模型。这种方法称为数据驱动方法。因为它是首先有大量的数据,而不是预设的模型,然后用很多简单的模型去契合数据。这种找到的模型与真实的会有一定的偏差,但误差允许的范围内,从结果上看是等效的。