学习
实践
活动
专区
工具
TVP
写文章

pandas数据离散

定义:通俗的说,离散化是在不改变数据相对大小的条件下,对数据进行相应的缩小。在一些问题中,我们只关心n个数字之间的相对大小关系,而不关心它们具体是多少。 因此,我们可以用一种叫离散化的技术来将数字映射到 1 ∼ n 的整数, 从而降低问题规模,简化运算。 连续值经常需要离散化,或者分离成“箱子”进行分析,先来看一个简单的例子,我想将年龄按照15-30,30-45,45-60进行划分分组,可以使用cut方法 ages = np.random.randint 我们可以把它当做一个表示箱名的字符串数组,它在内部包含一个categories (类别)数组,它指定了不同的类别名称以及codes属性中的ages数据标签 cats.codes cats.categories precision=2) pd.cut(data, 4, precision=2).value_counts() 通过对上面的cut函数的演示,我们可以看到cut通常不会使每个箱具有相同数据量的数据

37210
  • 广告
    关闭

    热门业务场景教学

    个人网站、项目部署、开发环境、游戏服务器、图床、渲染训练等免费搭建教程,多款云服务器20元起。

  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    pandas:数据离散化与离散数据的后期处理(one-hot)

    目录 1、什么是数据离散化? 2、为什么要进行数据离散化? 3、怎么进行数据离散化? 数据离散化可以有效的降低时间复杂度和内存开销。   对于某些机器学习算法来说,像决策树、随机森林、朴素贝叶斯。他们的数据集大多数都是针对的离散数据。 因此做出有效的数据离散化,对于降低计算复杂度和提高算法准确率有很重要的影响。   离散数据更容易理解。针对收入字段,一个人是3000,一个人是20000。 更多数据离散化的内容,可以参考如下文章:https://zhuanlan.zhihu.com/p/91181935 3、怎么进行数据离散化?    对于获取到的数据集,会有很多个特征,也就是我们常说的字段。有的特征是连续性数据类型,有的数据本身就是离散数据变量。   已经是离散数据变量,我们不用管。

    40120

    pandas:数据离散化与离散数据的后期处理(one-hot)

    大家好,我是黄同学 今天跟大家聊聊数据离散化与离散数据的后期处理。 1、什么是数据离散化? 连续属性的离散化,就是将连续属性的值域划分为若干个离散的区间。 2、为什么要进行数据离散化?   数据离散化可以有效的降低时间复杂度和内存开销。   对于某些机器学习算法来说,像决策树、随机森林、朴素贝叶斯。他们的数据集大多数都是针对的离散数据。 更多数据离散化的内容,可以参考如下文章:https://zhuanlan.zhihu.com/p/91181935 3、怎么进行数据离散化?    对于获取到的数据集,会有很多个特征,也就是我们常说的字段。有的特征是连续性数据类型,有的数据本身就是离散数据变量。   已经是离散数据变量,我们不用管。 4、离散数据的后期处理(one-hot编码)   不管是连续性数据变量,还是离散数据编码,都是数据的一个特征,都有它独特的含义。

    1.9K00

    数据离散程度的衡量指标

    有些时候数据离散程度能够让我们数据分析得出一些其他信息,理想情况下数据越集中那么效果越好。那么有没有指标来衡量?答案是有得,今天主要学习一下数据离散程度的衡量指标。 2.四分位差 即数据样本的上四分之一位和下四分之一位的差值,放映了数据中间50%部分的离散程度,其数值越小表明数据越集中,数值越大表明数据离散,同时由于中位数位于四分位数之间,故四分位差也放映出中位数对于数据样本的代表程度 但是取四分位数据的时候会因为数据的偏向问题影响,有可能上四分位和下四分位数据值相差太大,所以做为离散程度指标也欠妥。 ? 3.方差 使用均值作为参照系,考虑了数据集中所有数值相对均值的偏离情况,并使用平方的方式进行求和取平均,避免正负数的相互抵消。方差是最常用的衡量数据离散情况的统计量。 ? 6.变异系数 有时候因为标准差相同,我们无法判断具体那组数据更加离散,比如标准差都为4,一组数据量是1000,而另外一组数据为10,那么显然第一组数据更加平稳。

    1.2K20

    离散数据、Jaccard系数和并行处理

    对于大型数据集,这可能是一项艰巨的任务,因此我们可以使用并行处理来缩短时间。 现在我们已经在一个简单的例子中看到了这个度量,让我们将它应用到一个更大的数据集。 你可能会遇到具有更多特征和更多观察的数据集。尝试在循环中完成上述任务会导致我的电脑完全崩溃(蓝屏/皱眉脸),但如果你有勇气,那么你应该尝试一个子集的数据,看看它需要多长时间。 下面是结果。 你会看到,对于前三分之一的数据(1/5概率为1的数据),你会看到有一个峰值,Jaccard的相似性得分为0.2(20%)。其他山峰也一样。 结论 当你有二值数据(如指标特征或虚拟变量),并希望在观察数据之间创建某种距离度量时,请考虑这个Jaccard系数/相似性得分。这是相当直观的,但是需要一些额外的工作来在大量的数据上进行测量。

    28440

    数据结构-离散存储链表定义

    离散存储[链表] 1.定义: n个节点离散分配,彼此通过指针相连 每个节点只有一个前驱节点 只有一个后续节点 首节点没有前驱节点,尾节点没有后续节点 2.专业术语: 首节点:第一个有效节点 尾节点: 最后一个有效节点 头结点:并不存放有效数据,方便操作,头结点的数据类型和首节点类型一样 头指针:指向头节点的指针变量 尾指针:指向尾节点的指针变量 3.确定一个链表需要几个参数: 只需要一个参数 :头指针,可以通过头指针可以推算出链表的其他所有信息 4.每个节点的数据类型至少包括 一个有效数据 一个指针变量,指向下一个节点 5.分类 单链表:有一个指针域 双链表:每一个节点有两个指针域

    24730

    『ACM-算法-离散化』信息竞赛进阶指南--离散

    数据离散化是一个非常重要的思想。 为什么要离散化? 当以权值为下标的时候,有时候值太大,存不下。 所以把要离散化的每一个数组里面的数映射到另一个值小一点的数组里面去。 image.png 通俗的说,离散化是在不改变数据相对大小的条件下,对数据进行相应的缩小。 例如: 原数据:12,9999,9000900,150;处理后:1,3,4,2; 原数据:{100,200},{20,50000},{1,400};处理后:{3,4},{2,6},{1,5}; 但是离散化仅适用于只关注元素之间的大小关系而不关注元素本身的值 // 离散化 void discrete() { sort(a + 1, a + n + 1); for (int i = 1; i <= n; i++) // 也可用STL中的unique函数 = a[i - 1]) b[++m] = a[i]; } // 离散化后,查询x映射为哪个1~m之间的整数 void query(int x) { return lower_bound(b +

    35320

    数据结构中的线性离散存储-链表

    并且知道线性连续存储存在以下优缺点: 顺序表 优点:能实现快速追加和存取元素 缺点:插入元素或删除元素都要移动大量的原有元素 在本节,我们将一起来了解《数据结构》中研究的另一种线性数据结构-离散存储,我们也可以把线性的离散存储叫做链表 链表的基本结构如下图: 如果你没有阅读过本系列的前面部门文章,建议您通过以下链接先阅读之前的内容: 1.从线性连续存储开始,重新认识《数据结构》 一 链表的实现过程 01 定义链表节点、创建链表 和顺序表相比 电脑上,改为sys/malloc.h # include <stdlib.h> // 包含exit函数 typedef struct Node { int data; // 数据域 = p) { // p 不为NULL,代表有数据,则输出p的数据于 printf("%d ", p->data); // 输出p的数据域之后,让 = p) { // p 不为NULL,代表有数据,则输出p的数据于 printf("%d ", p->data); // 输出p的数据域之后,让

    11530

    离散存储【链表】

    定义:什么是链表     1、n个节点离散分布     2、彼此通过指针相连     3、每个节点只有一个前驱节点,每个节点只有一个后续节点     4、首节点没有前驱节点,尾节点没有后续节点 专业术语 :     1、首节点:第一个存放有效数据的节点     2、尾节点:最后一个存放有效数组的节点     3、头节点:头节点的数据类型和首节点类型一样,第一个存放有效数据节点(首节点)         之前的节点,头节点不存放有效数据,加头节点的目的主要是为了方便对链表的操作。      如果希望通过一个函数来对链表进行处理,至少需要接受链表的哪些参数:     只需要一个参数:头指针     因为通过头指针可以推算出链表的其他所有信息     一个节点整体来说只包含两部分,一部分是数据域 ,一部分是指针域,     数据域是节点存放的有效数据,指针域是指向下一个与自身类型一样的节点 分类:     1、单向链表     2、双向链表        每一个节点有两个指针域

    27230

    数据离散化及其KMeans算法实现的理解

    “ 这篇文章尝试借用数据离散化这个事给大家讲明白K-Means算法的含义。” ? 01 — 数据离散数据离散化是数据预处理的一个非常重要的步骤,就是将连续的数据分成几个段。 02 — 数据离散化的意义 一些数据挖掘算法中(比如Apriori算法),要求数据是分类属性形式。 因此,就需要在数据预处理阶段将连续属性的数给它离散化,除此之外离散化还具有以下好处: 提高计算效率 分类模型计算需要 距离计算模型(k均值、协同过滤)中降低异常数据对模型的影响 图像处理中的二值化处理 03 — 常用的数据离散化方法 离散化的工作很容易理解,就是依照一定规律把写数据给分成少数的几类。那这个规律是什么呢? 常用的离散化方法有: 分位数法:使用四分位、五分位、十分位等进行离散 距离区间法:等距区间或自定义区间进行离散 频率区间法:根据数据的频率分布进行排序,然后按照频率进行离散,好处是数据变为均匀分布,但是会更改原有的数据结构

    69930

    关注

    腾讯云开发者公众号
    10元无门槛代金券
    洞察腾讯核心技术
    剖析业界实践案例
    腾讯云开发者公众号二维码

    相关产品

    • 云数据库 MySQL

      云数据库 MySQL

      腾讯云数据库MySQL是一种高性能、高可靠、高安全、可灵活伸缩的数据库托管服务,其不仅经济实惠,而且提供备份回档、监控、快速扩容、数据传输等数据库运维全套解决方案,为您简化 IT 运维工作,让您能更加专注于业务发展。

    相关资讯

    热门标签

    活动推荐

    扫码关注腾讯云开发者

    领取腾讯云代金券