专栏首页科学Sciences数据的分类(Data Classification)常识(2)

数据的分类(Data Classification)常识(2)

A.数据(Data)和信息(Information)常识

B.数据的分类(Data Classification)常识

一、宏观的数据分类

二、统计数据分类和数据标准

统计学方面,数据分类调研分析的基础是数据,而数据的类型可以分为连续性的变量和分类变量。数据分类就是把具有某种共同属性或特征的数据归并在一起,通过其类别的属性或特征来对数据进行区别。换句话说,就是相同内容、相同性质的信息以及要求统一管理的信息集合在一起,而把相异的和需要分别管理的信息区分开来,然后确定各个集合之间的关系,形成一个有条理的分类系统。数据分类(data classification)基本原则:稳定、系统、可扩充、兼容,属于:统计数据,意义:反映事物类别的数据,应用学科:统计学、计算机控制。[16] 

2.1 数据分类的定义

数据分类就是把具有某种共同属性或特征的数据归并在一起,通过其类别的属性或特征来对数据进行区别。为了实现数据共享和提高处理效率,必须遵循约定的分类原则和方法,按照信息的内涵、性质及管理的要求,将系统内所有信息按一定的结构体系分为不同的集合,从而使得每个信息在相应的分类体系中都有一个对应位置。换句话说,就是相同内容、相同性质的信息以及要求统一管理的信息集合在一起,而把相异的和需要分别管理的信息区分开来,然后确定各个集合之间的关系,形成一个有条理的分类系统。[17]

数据分类的目的是根据新数据对象的属性,将其分配到一个正确的类别中。分类分析用预测方法预测给定数据对象的类标号,被广泛地应用到信誉证实、医疗诊断及选择购物等领域。[18]

我们都知道调研分析的基础是数据,而数据的类型可以分为:

(1)连续性的变量:比如,身高,体重,化验值等等,这些变量的特点可以有小数点,可以直接录入;

(2)分类变量:其变量值是定性的,表现为互不相容的类别或属性。实际上在调研当中运用最多的就是分类变量,可分为无序变量和有序变量两类。

①无序分类变量是指所分类别或属性之间无程度和顺序的差别,例如二项分类,性别(男、女),药物反应(阴性、阳性)等。例如多项分类,血型(O、A、B、AB),职业(工、农、商、学、兵)等。

②有序分类变量是指各类别之间有程度的差别。如尿糖化验结果按-、±、+、++、+++分类;疗效按治愈、显效、好转、无效分类。

2.2 基本原则(▪稳定性▪系统性▪可扩充性▪综合实用性▪兼容性)

数据分类的基本原则如下:

(1)稳定性:依据分类的目的,选择分类对象的最稳定的本质特性作为分类的基础和依据,以确保由此产生的分类结果最稳定。因此,在分类过程中,首先应明确界定分类对象最稳定、最本质的特征。[19]

(2)系统性:将选定的分类对象的特征(或特性)按其内在规律系统化进行排列,形成一个逻辑层次清晰、结构合理、类目明确的分类体系。[19]

(3)可扩充性:在类目的设置或层级的划分上,留有适当的余地,以保证分类对象增加时,不会打乱已经建立的分类体系。[19]

(4)综合实用性:从实际需求出发,综合各种因素来确定具体的分类原则,使得由此产生的分类结果总体是最优、符合需求、综合实用和便于操作。[19]

(5)兼容性:有相关的国家标准则应执行国家标准,若没有相关的国家标准,则执行相关的行业标准;若二者均不存在,则应参照相关的国际标准。这样,才能尽可能保证不同分类体系间的协调一致和转换。[19]

2.3 方法(▪按计量层次分类▪按来源分类▪按时间状况分类)

根据不同的分类方法,可以将统计数据分为以下几种类型:

2.3.1 按计量层次分类

按照数据的计量层次,可以将统计数据分为定类数据、定序数据、定距数据与定比数据。

1.定类数据。这是数据的最低层。它将数据按照类别属性进行分类,各类别之间是平等并列关系。这种数据不带数量信息,并且不能在各类别间进行排序。例如,某商场将顾客所喜爱的服装颜色分为红色、白色、黄色等,红色、白色、黄色即为定类数据。又如,人类按性别分为男性和女性也属于定类数据。虽然定类数据表现为类别,但为了便于统计处理,可以对不同的类别用不同的数字或编码来表示。如1表示女性,2表示男性,但这些数码不代表着这些数字可以区分大小或进行数学运算。不论用何种编码,其所包含的信息都没有任何损失。对定类数据执行的主要数值运算是计算每一类别中的项目的频数和频率。[19]

2.定序数据。这时数据的中间级别。定序数据不仅可以将数据分成不同的类别,而且各类别之间还可以通过排序来比较优劣。也就是说,定序数据与定类数据最主要的区别是定序数据之间还是可以比较顺序的。例如,人的受教育程度就属于定序数据。我们仍可以采用数字编码表示不同的类别:文盲半文盲=1,小学=2,初中=3,高中=4,大学=5,硕士=6,博士=7,研究者=8。通过将编码做排序,可以明显地表示出受教育程度之间的高低差异。虽然这种差异程度不能通过编码之间的差异进行准确的度量,但是可以确定其高低顺序,即可以通过编码数值进行不等式的运算。[19]

3.定距数据。定距数据是具有一定单位的实际测量值(如摄氏温度、考试成绩等)。此时不仅可以知道两个变量之间存在差异,还可以通过加、减法运算准确的计算出各变量之间的实际差距是多少。可以说,定距数据的精确性比定类数据和定序数据前进了一大步,它可以对事物类别或次序之间的实际距离进行测量。例如,甲的英语成绩为80分,乙的英语成绩为85分,可知乙的英语成绩比甲的高5分。[19]

4.定比数据。这是数据的最高等级。它的数据表现形式同定距数据一样,均为实际的测量值。定比数据与定距数据唯一的区别是:在定比数据中是存在绝对零点的,而定距数据中是不存在绝对零点的(零点是人为制定的)。因此定比数据间不仅可以比较大小,进行加、减运算,还可以进行乘、除运算。[19]

在统计分析中,区分数据的类型十分重要,不同测度类型的数据,扮演的角色是不一样的。[19]

2.3.2 按来源分类

数据的来源主要有两种渠道:一种是通过直接的调查获得的原始数据,一般称为第一手或直接的统计数据;另一种是别人调查的数据,并将这些数据进行加工和汇总后公布的数据,通常称之为第二手或间接的统计数据。[20]

2.3.3 按时间状况分类

1.时间序列数据。指在不同的时间上搜集到的数据,反映现象随时间变化的情况。[21]

2.截面型数据。指在相同的或近似的时间点上搜集到的数据,描述现象在某一时刻的变化情况。

未完待续(To Be Cont.)

本文分享自微信公众号 - 科学Sciences(SciencesPub),作者:秦陇纪

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-04-08

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 数据资源(Data Resource)常识(1)(2)

    数据资源存储在个人和各种社会单位持有的各种设备上,并且在人类社会的人机交流中流通和应用。本文通过数据资源、数据管理、数据治理、源数据、数据元、大数据、元数据、数...

    秦陇纪
  • 奥卡姆剃刀和数据简化理念

    数据资源DataRes导读:《数据资源概论》数据资源类型和数据产品类型概述,从数据和信息的专业领域常识,到常见的几十种数据资源相关概念和类型,全面总结数据产学研...

    秦陇纪
  • 数据的分类(Data Classification)常识(1)

    ③定量的,定量数据:反映事物数量特征的数据,如长度、面积、体积等几何量,重量、速度等物理量;

    秦陇纪
  • 杭州新成立数据资源局,这究竟是一个什么样的部门?

    从9月初开始,来自杭州市公安局、杭州市环保局、杭州市民政局等14个部门的工作人员,来自阿里巴巴、科大讯飞、杭州城市大数据公司等21家IT公司的70多名技术人员,...

    华章科技
  • Hadoop-由Apache基金会所开发的分布式系统基础架构

    用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。

    一点博客
  • 如何用大数据炒股

    大数据文摘
  • 业界 | 苹果豪掷2亿美元收购 Lattice Data , 挖掘暗数据的数字石油价值

    选自TechCrunch 作者:Ingrid Lunden 机器之心编译 参与:微胖 据媒体报道,苹果最近又收购了一家人工智能创业公司,以增强公司在人工智能领域...

    机器之心
  • nodejs服务器anywhere简介

    deepcc
  • 以纯面向对象的JS编写最基本的数据字典案例

    之前有讲到过数据字典,什么是数据字典,用来干啥的,这个不细说了,今天来说说如何实现数据字典功能 无非就是维护数据字典,对数据字典对象进行增删改查,曾经我写过一个...

    风间影月
  • 【书籍】数据科学经典书籍

    数据问题需要数据科学来解决! 什么是数据科学?没有一个统一的定义。简而言之,数据科学就是研究和解决数据问题。 不管你是数据挖掘工程师,还是数据分析师,还是算法工...

    陆勤_数据人网

扫码关注云+社区

领取腾讯云代金券