大数据中,核心是数据,数据的特征会根据计算机处理类别的划分,呈现出多样化的特点,有结构化的数据,包括数值类型、时间类型、各种编码的字符串、地理信息、IP信息等;也有非结构化数据,包括图片、音视频、文档、HTML等。甚至还有更多的“新”数据,包括评估模型、数学算法、程序片段等。
数据是刻画客观世界的描述信息,伴随技术的进步,我们对周边世界的认知在扩大,从马里亚纳海沟(Mariana Trench),到旅行者1号(Voyager 1),人类已经在上天入地中获取了大量的信息。科学技术的提升也加强了人的社交能力,以微信2018年的数据来说,每月有10.8亿活跃用户,每天450亿条聊天信息,4.1次音视频通话,通讯录朋友人均比三年前多了110%。如果说生命在于运动,那么在此时此刻,刻画万物运动的数据正在以不可预见、也不可想象的方式、速度在向我们涌来,我们就生活在数据的海洋里,数据就像是空气,确切的说,更像是化学元素,在旁观着我们,等待着我们去发现。
面对纷杂的数据,在数据的特征、质量、数量方面,对数据甄别、评估、处置上需要综合权衡,这就是海量数据的接入。
领取专属 10元无门槛券
私享最新 技术干货