首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

【机器学习理论基础】定量变量和定性变量

一 定量变量和定性变量

1.1 定量变量(quantitative variable)

取值是定量的,有计算意义的。如年龄、家庭人口数量这类变量。

1.2 定性变量(quanlitative variable)

取值是定性的,主要起代号作用。如学历、婚姻状况和就业情况等。为了对定性变量进行统计学处理,往往需要对其进行编码处理,如性别“男为0,女为1”。所以,在实际的统计工作中,不需要输入汉字,而是将其转换为相应的数字。

二 连续变量和离散变量

2.1 连续变量(continuous variable)

取值范围在理论上是连续不断的。如年龄变量的取值范围在理论上可以取任意正实数,注意不是正整数,比如一个人的年龄可以记为17.55岁,表示年龄为17岁6个月18天,甚至还可以利用出生时刻的信息精确到更小的时间单位(如“分、秒”)。

2.2 离散变量

取值范围是间断而不连续的。如家庭人口数这一变量就是相对于连续变量的另一类,即,因为不同家庭的人口数只可能相差0、1、2,而不能相差1.1、1.2等。

由此可见,一般仅定量变量有连续和离散之分,即一个定量变量要么是连续的、要么是离散的。相较而言,定性变量从数据表现上虽然和离散变量类似,但由于它只具有“代号”意义,所以一般不把它视为离散变量。

三 定性变量的分类

定性变量的取值往往表现为互不交叉的类别(所以定性变量也称分类变量),同时这些类别有时会存在细微的差别。

3.1 有序分类变量

如学历这类定性变性变量的取值为“文盲、小学、初中、高中……”,透露出一种等级或顺序的感觉,因此也称之为有序分类变量,这是指其取值的各类别之间存在着程度上的差别。另外一个常见的例子是“满意程度”,包括“很不满意、不满意、一般、满意、非常满意”。这类有序分类变量给人一种“半定量”的感觉,也称为“等级变量”;

3.2 无序分类变量

与之相对的另一类定性变量,即无序分类变量,其各个取值则不存在程度的差异,比如性别、血型等。

对于无序分类变量,根据取值的不同又可分为“二项分类变量”和“多项分类变量”,比如性别(一般情况)只分为男女两类,所以称之为二分类,而血型类别较多,可称为多分类。

参考链接

http://www.360doc.com/content/23/0525/06/65434111_1082027721.shtml

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OiRMZYvHC79HUwJv4Q3jgwqw0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券