前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >数据科学通识第一讲:数据

数据科学通识第一讲:数据

原创
作者头像
数据酷客
修改2020-04-21 18:06:20
6930
修改2020-04-21 18:06:20
举报

获取更多完整课程视频、课件、案例、数据以及题库等资源,请登录数据酷客平台(www.cookdata.cn)。

视频内容

1 数据无处不在

在我们的生活中,数据无处不在。比如银行通过收集客户的受教育程度、经济能力、住房情况等数据,可以开展相应的金融业务和服务。再比如医院的电子病历上,通常包含患者的病程情况、检查检验结果、手术记录等,这些数据可以有效的辅助医生来监控病人的病情。

还比如亚马逊、ebay,以及国内的淘宝、京东等电商平台,每天都会产生大量的订单数据以及一系列的营销数据,通过对这些数据的收集、整理和分析,可以帮助商家和平台进行决策,从而改进营销策略。

2 什么是数据?

简单来说,数据就是为了某种目的而收集和转换的任意字符集。数据既包括文本、数字,也包含图像、语音和视频等。将数据记录下来,可以帮助我们更好地分析、整理和提取数据中蕴含的知识以及规律。数据在计算机系统中是以二进制的形式来存储的,用0或1来表示。

3 结构化数据

存储在计算机的数据又分成两类。第一类称为结构化数据,是指在系统中定义好数据的结构,再严格地按照定义好的结构来存储、计算和管理数据。

最常见的结构化数据就是关系型数据库中的二维表,其中每一行称为一个记录,每一列称作一个字段。比如在表中我们记录的是每一年每个国家二氧化碳的总排放量和人均排放量,那么在表中先定义了4个字段,年份、人均二氧化碳排放量、国家和总二氧化碳排放量。

定义好结构后,我们存储了三条记录,2009年马尔代夫的情况、2010年阿富汗的情况以及2010年加拿大的情况。这样的一个表格就称为一个二维表,是一个典型的结构化数据表。

4 非结构化数据

另一类称为非结构化数据,是指数据结构不规则或不完整,甚至没有预定义的数据模型。非结构化数据是大量存在的,比如文本、图像、视频和语音等。这些数据对我们的生活是非常重要的。在很多的行业领域里,80%的业务相关的信息都是来自于非结构化数据,特别是文本数据。在图中展示了从2009年到2017年数据的增长情况,可以看出非结构化数据增长得非常迅速。

4.1 文本数据

非结构化数据的第一类——文本数据,是最常见的也是最多的。我们展示了两个文本数据,第一个是新闻数据,标题是“解码中国澳门经济快速发展的‘隐形翅膀’”,它的来源是新华社的一篇新闻。这样一个有标题、有正文的新闻是一个典型的文本数据。

下面的例子是一个电商平台的购物评论数据。一名会员在买了一个笔记本电脑之后,给出了一个5星好评,并且在下面对购买的笔记本电脑进行了评论。

利用计算机处理文本数据也是目前非常关键的一项技术,也是一个技术的难点。研究文本的一门学科叫做自然语言处理,是一门融合了语言学、计算机和人工智能的学科。其最终目的是让计算机像人类一样可以理解自然语言,也被誉为人工智能皇冠上的明珠。可见自然语言处理是多么重要,同时也多么具有挑战性!

文本数据比结构化数据要占用更多的内存,比如“hello!”这样一个简单的单词,计算机用二进制表示出来,会看到一长串数字。那么可想而知,大量的文本将占用更多的存储空间,表示起来也更加复杂。

4.2 图像数据

图像是另一种非结构化数据。一张标有数字8的图像,大家看到它可能会想到马路上各种各样的广告牌和数字显示LED屏。这个图像是由很多小方格组成的,小方格被称为像素点。

同样大小的图像,小方格如果分的越细越多,那么图像也就越清晰,就称作是高分辨率的图像。实际上手机和电脑显示屏幕的显示原理也是一样的,也是由像素点组成的。比如 iphone 11的手机屏幕有1792×828个像素点,所以我们在手机上看到的数字和文字都是非常清晰的。

数字8的图像中,横排有16个像素点,竖排有22个像素点,一共由16×22个像素点组成。图像是黑白的灰度图,为了表现黑白的深浅不同,我们在每一个像素点上标有不同的数值,大家可以发现最小的是0,最大的是255,也就是说用256个等级来区分颜色的深浅度,这样我们就得到了一个矩阵。事实上在计算机中也是用数字矩阵的形式存储图像的。

如果是彩色图像,通常是由很多种颜色组成的,处理起来就要比黑白的图像更复杂。彩色图像的基本原理是三原色原理,用红色、绿色和蓝色来建立三个矩阵,来表达颜色的组合,通过三原色可以生成不同的彩色图像。每一个三原色矩阵的数值都介于0~255之间,单一颜色的深浅也称作是像素的颜色强度。例如下图代表红、绿、蓝三个颜色的矩阵组合起来表示一个彩色的图像。

4.3 语音数据

语音是第三种非结构化数据形式。例如人说话的声音、唱歌,都是由于空气震动而产生的声波。除了空气以外,在固体和液体中声音也是可以传播的。

声音在计算机中的记录是通过将连续的声波进行数字化来完成的。数字化的过程包括采样、量化、编码等等。第一步称作采样,按照一定的时间间隔,对信号的幅值进行一个瞬时的取值,比如下面的图中我们一共采样了11个点。第二步是量化,在下面的例子中,我们从0到信号的最大值,一共分成了16份,那么量化的过程就把11个采样的点,按照就近原则对应到划分好的16份上去,每一份对应一个二进制数值。比如我们采集的第1个点,就对应到了1101这个值上。最终这11个采样点分别可以对应到4位的二进制数值上,进而就把一个模拟的、连续的声音转换成了一串二进制数值。

4.4 视频数据

第四类非结构化数据是视频,它是由一系列的静态影像与声音组合而成的。视频按照一定的刷新频率进行刷新和播放,利用了人眼的视觉暂留原理,当播放的速率超过每秒24帧以上时,可以给人一种平滑连续变化的动态视觉效果。

因此视频的本质实际上是不断变化的图像,可以把它看作是单位时间内声音的存储和若干帧图像的存储来处理,只不过处理视频需要更强大的存储和计算能力。

5 小结

在我们的日常生活中数据随处可见。数据是为了某种目的而收集和整理的任意字符集。在计算机中数据最终使用0和1来表示。数据可以分类结构化数据和非结构化数据。非结构化数据包括文本、图像、语音和视频等,它们是现在大数据和人工智能领域关注的重点。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 获取更多完整课程视频、课件、案例、数据以及题库等资源,请登录数据酷客平台(www.cookdata.cn)。
  • 1 数据无处不在
  • 2 什么是数据?
  • 3 结构化数据
  • 4 非结构化数据
    • 4.1 文本数据
      • 4.2 图像数据
        • 4.3 语音数据
          • 4.4 视频数据
          • 5 小结
          相关产品与服务
          大数据
          全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
          领券
          问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档