前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >数据科学通识第四讲:数据采集

数据科学通识第四讲:数据采集

原创
作者头像
数据酷客
修改2020-04-22 14:49:15
2.7K0
修改2020-04-22 14:49:15
举报
文章被收录于专栏:数据科学人工智能
视频内容

数据采集的定义

数据采集又称数据收集,是指根据系统自身的需求和用户的需要来收集相关数据的过程。

数据采集的历史

数据采集具有悠久的历史,在远古时期,人们便学会了在绳子上打结,进行数字的记录。到了19世纪,1887年,美国统计学家霍尔曼·霍尔瑞斯发明了一台电动机器,它能够读取卡片上的洞数,使用这台设备,美国仅用了一年时间,就完成了原本需要8年才能完成的人口普查工作。

进入20世纪,数据采集的重要性更加得到重视。例如在1934年到1937年间,美国总统罗斯福就开展了一项数据收集的计划,他整理了美国2600万个员工和300万个雇主的记录,有了这些数据,就可以很好的开展社会保障法的系列工作。

到了21世纪,数据采集得到了进一步的发展。2009年印度政府建立了印度唯一的身份识别管理部门,它对12亿印度人进行了指纹、照片和虹膜等个人特征信息的采集,并且为每一个印度人分配了12位数字ID号码,将这些身份数据汇集到世界上最大的生物识别数据库中,这也是当时影响非常广泛的一个数据采集的例子。

数据采集的意义

事实上数据采集在大数据分析中占有非常重要的地位,它是大数据分析的首要环节,后续的数据存储、数据清洗、数据分析乃至数据应用,都是先从数据采集开始的。

数据采集的应用

数据采集在各行各业都有广泛的应用,比如旅游行业通过收集各类相关信息,能够帮助人们优化出行策略;在电子商务领域,通过对商品类别、商品名称、商品价格等信息进行数据采集和分析,可以构建商品比价系统;再比如银行通过收集用户的个人交易数据,对用户的征信和贷款进行评级,此外在金融领域、招聘领域和舆情分析领域中数据采集也是非常重要的。

行业

信息源

应用

旅游

各类信息

优化出行策略

电商

商品信息

比价系统

游戏

游戏论坛

调整游戏运营

银行

个人交易信息

征信系统/贷款评级

金融

金融新闻/数据

制定投资策略,量化交易

招聘

职位信息

岗位信息

舆情

各大论坛

社会群体感知

数据采集的方法

数据采集的方法分为人工采集、传感器采集、系统日志采集和网络爬虫采集。

1.人工采集

人工采集方法是一种非常传统的数据采集方法,其中最古老的就是普查,它至今已有数千年的历史。据记载2200多年前的西汉时期,中国就开展了第1次人口普查,这也是早期人工数据采集的典范。

1895年,学术界提出了抽样调查方法,并且在后来的30多年进行完善,使得这个调查方法成为一种更及时、更经济的数据采集方法,被广泛应用在经济、社会和科学研究领域。直到今天,它仍然是一种特别有效的方法。

2.传感器采集

在日常生活中使用的手机中布满了各种各样的传感器,这些传感器能够帮助人们实现各种各样的功能,比如实现手机横屏和竖屏的切换,这依靠的就是重力感应传感器。微信中的摇一摇,它依赖的是加速度传感器,而手机根据周围环境的光线的强弱来自动地调整屏幕的亮度,这依靠的是光线传感器。再比如在一些手机游戏中,能够以第一人称做出射击动作,或者模拟第一人称进行赛车游戏等等。之所以在手机上能够实现这样的功能,它依靠的是手机内置的三轴陀螺仪。此外,手机上的电子地图和导航功能依靠的是GPS,另外还有一个传感器就是电子罗盘,依靠电子罗盘能够让手机找到正确的方向。

常见的传感器,除了刚刚介绍的手机上的传感器以外,还包括能够对光线作出敏感的反应传感器,称作光敏传感器,对声音作出反应的声敏传感器,以及对气味比较敏感的气敏传感器,还有压敏、温敏和流体传感器等等。这些传感器能够感知相应的信号,并且把它们收集起来,转换成对应的电压或电流这种电学统计量。

比如在气象领域,气象站设备YT-QX08广泛应用于气象、农业、林业、环境等方面的研究。在这个气象站设备中充满了各种各样的传感器,能够感知空气中的温度、湿度、风向、风速、雨量、光照强度、总辐射情况以及气压情况,并且把这些感知到的信息转换成电信号,一旦转换成电信号,就可以很好的在数学上把它表示成时间的函数,并画出波形。电信号还具有容易传送和控制的特点,方便人类来对它进行处理和远距离传输,这也使得电信号成为应用最广的信号。

目前各种传感器的种类可谓纷繁复杂,作为移动大数据的信息采集端,移动传感器是数据采集的基础元器件,同时移动传感器、移动终端又呈现小型化、可穿戴的特点,比如说陀螺仪、加速度计、磁力计等都是移动大数据不可或缺和不可替代的基础元器件。通过这些微传感器采集动作、姿态、位置、运动路径等数据,为数据库提供了必要的信息。

3.系统日志采集

系统日志是记录系统中硬件、软件和系统问题的信息,同时还可以监视系统中发生的事件,用户通过分析系统日志来检查错误发生的原因或者寻找设备受到攻击时攻击者所留下的痕迹。许多互联网公司每天都会产生大量的日志,这些日志一般为流式数据,比如搜索引擎的页面浏览量、查询量,数据量非常庞大。

上面展示了美团日志的一个聚合页面,任意打开其中的一条,可以看到在上面右图展示了一个详细信息,包括日志的类型、日志的时间、url地址、还有请求头等一些信息。

下图所示的是Windows操作系统的系统日志,Windows操作系统在其运行的生命周期中会记录大量的日志信息,这些日志信息包括Windows的事件日志、Windows服务器的IS日志、FTP日志、数据库日志等等。处理应急事件时,客户提出需要为其提供溯源信息,上述这些日志信息在溯源中扮演着重要的角色。

Windows系统的事件日志实际上是以特定数据结构存储的文件,其中包括系统安全应用程序的记录,每个记录事件的数据结构中包含了9个元素,可以理解成数据库中的字段。这9个元素包括日志、时间、事件的类型、用户、计算机信息、事件ID、事件来源、类别、描述和相关的数据等等。比如在图中的例子中,6005代表的是计算机的开机ID,在日志中可以看到执行该ID的时间。

很多企业的应用系统每天都产生大量的日志,对这些日志进行分析,是非常有价值的。比如保险公司、航空公司、电力公司、网络运营商、商业银行以及基金公司等,这些公司每天产生大量的日志,通过进行比对分析和数据挖掘,能够帮助企业更精准的了解用户情况,了解设备的运行情况及安全状态,能够帮助企业提高对用户的服务能力,进而提升营销策略,实现智能运维和统一管控,这些对于企业来说都是非常有价值的。

4.网络爬虫

网络爬虫英文名字叫Web Crawler或Web Spider,它是实现互联网数据采集的主要方式,它是通过自动下载网页,并根据一定的规则来提取所需要信息的程序,网络爬虫所爬取地主要是网页上的数据。

根据爬取内容的规模大小,网络爬虫可分为小规模、中规模和大规模三类,小规模相对来说数据量小,对爬虫的爬取速度要求不高,大规模的爬虫扒取速度变得非常关键。相较之下小规模的爬虫通常适用于爬取网页,而中等规模的爬虫适合爬取某一系列的网站,而大规模的搜索引擎级别的爬虫则要求爬取全网的网页。

网络爬虫的对象主要是各类网站,包括新闻类、社交类、购物类以及相应的一些API、用户接口和一些流型数据,比如说目前各种视频的一些弹幕数据。下图是目前网络爬虫主要爬取的三大类对象,其中website网站数据仍然是网络爬虫的主要对象。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 数据采集的定义
  • 数据采集的历史
  • 数据采集的意义
  • 数据采集的应用
  • 数据采集的方法
    • 1.人工采集
      • 2.传感器采集
        • 3.系统日志采集
          • 4.网络爬虫
          相关产品与服务
          数据库
          云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
          领券
          问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档