变量 变量的概念 变量(Variable):指在研究对象中某种令人感兴趣的、取值会有变化的特征,比如研究对象是全体大学生,那么变量可以是身高、体重等特征。...分组原则:不重不漏。 不重指的是每个数值都只能出现在一个分组中,不漏指的是分组应该包含所有数值,不能漏了任何一个。...如何计算第p百分位数? Step1:将所有观测值从小到大排列。 Step2:计算i = (p/100)n p是所求的百分位数的位置,n是项数。...Q1 = 第1四分位数,即第25百分位数 Q2 = 第2四分位数,即第50百分位数 Q3 = 第3四分位数,即第75百分位数 注意:要把四分位数的上下限,和箱线图的上下限区分开。...# 求均值 s.median() # 求中位数 用Python计算四分位数 import pandas as pd # 准备数据 s = pd.Series([3, 3, 6, 7, 7, 10
上个周周末看到”pandas数据格式化处理“的时候想着把(设置小数位数,设置百分位,设置千位分隔符)这些个知识点知识点总结一下,记一下笔记。...四舍六入五双 精确n位数字或保留n位小数,采用如下的规则(以保留n位小数为例): a. 四舍: 保留n位小数,若第n+1位≤4, 则舍去; b....六入: 保留n位小数,若第n+1位≥6, 则第n位进1; c....五双: 保留n位小数,若第n+1位=5, 若 如果第n+1位后面没有任何数字, 则第n位数字为偶数就舍去n+1位,第n位数字为奇数则进1; 如果第n+1位后还存在不为0的任何数字,则第n位数字无论是奇数还是偶数都进...第n+1为5,且5后没有其它数字,第n位2为偶数,所以直接舍去,故最后的结果为1.12。 十进制转二进制 a. 十进制整数转二进制: 除2取余,逆序排列; b.
第6章 数据集成变换规约 3.1 数据集成 3.1.1数据集成需要关注的问题 3.2 基于Pandas实现数据集成 3.2.3 主键合并数据merge 3.2.4 堆叠合并数据concat 3.2.5...第4章 pandas数据获取 完整参考: 数据导入与预处理-第4章-pandas数据获取 1.1 数据获取 1.1.1 概述 数据经过采集后通常会被存储到Word、Excel、JSON等文件或数据库中...所以,凡是误差超过(μ-3σ,μ+3σ)区间的数值均属于异常值。 2.箱型图检测 箱形图是一种用于显示一组数据分散情况的统计图,它通常由上边缘、上四分位数、中位数、下四分位数、下边缘和异常值组成。...Q3表示上四分位数,说明全部检测值中有四分之一的值比它大; Q1表示下四分位数,说明全部检测值中有四分之一的值比它小; IQR表示四分位数间距,即上四分位数Q3与下四分位数Q1之差,其中包含了一半检测值...,包括: 实体识别 冗余属性识别 元组重复等 3.2 基于Pandas实现数据集成 pandas中内置了许多能轻松地合并数据的函数与方法,通过这些函数与方法可以将Series类对象或DataFrame
在数据处理过程中,难免会遇到日期格式,特别是从外部读取数据到jupyter或其他python编译器中,用于数据处理分析时。...%y 2位数的年 %m 2位数的月 [01,12] %d 2位数的日 [01, 31] %H 时(24小时制) [00, 23] %I 时(12小时制) [01, 12] %M 2位数的分[00, 59...也知道了将字符串转化为datetime对象。 在数据处理过程中,特别是在处理时间序列过程中,常常会出现pandas....小时制的小时 Hour (12-hour clock) %j 十进制表示的每年的第几天 Day of the year %m 十进制表示的月份 Month number %M 十时制表示的分钟数 Minute...number %S 十进制的秒数 Second number %U 第年的第几周,把星期日做为第一天(值从0到53)Week number (Sunday first weekday) %w 十进制表示的星期几
3 二、如何使用Series 字典对象生成 DataFrame # 导入pandas库 import pandas as pd # 创建一个字典对象 data = {'Name': ['Tom', '...、下四分位数(25%)、中位数(50%)、上四分位数(75%)以及最大值。...[ ] : 此函数⽤于基于位置或整数的 Dataframe.ix[] : 此函数⽤于基于标签和整数的 panda set_index()是⼀种将列表、序列或dataframe设置为dataframe...六、pandas的运算操作 如何得到⼀个数列的最⼩值、第25百分位、中值、第75位和最⼤值?...Pandas dataframe.append()函数的作⽤是:将其他dataframe的⾏追加到给定的dataframe的末尾,返回⼀个新的dataframe对象。
时隔5年,《利用Python进行数据分析》在2022年9月20日推出了最新的第3版。在此次新版“鼹鼠书”中,Wes亲自讲解了最新的1.4版的Pandas。...第三版目录略有调整,不如第二版和第一版的变化大: 第4章NumPy基础新增了生成伪随机数; 第7章数据清洗新增了扩展数据类型和分类数据,实际是把第二版中第12章的内容放到新版第7章里了; 第11章时间序列新增了分组时间重采样...NumPy提供了以下功能: 快速、高效的多维数组对象ndarray。 用于对数组执行元素级计算以及直接对数组执行数学运算的函数。 用于读写硬盘上基于数组的数据集的工具。...channel_priority strict 为了使操作环境更为纯净,使用虚拟环境,虚拟环境的名字是pydata-book,命令如下: (base) $ conda create -y -n pydata-book...python=3.10 解释一下这条命令,conda create的意思是用conda创建虚拟环境,-y的意思是使所有确认的结果都为yes,-n pydata-book的意思是虚拟环境的名字是pydata-book
例如十进制第2位的位权为10,第3位的位权为100;而二进制第2位的位权为2,第3位的位权为4,对于 N进制数,整数部分第 i位的位权为N^(i-1),而小数部分第j位的位权为N^-j。 ...整数位从最后一 位(从右向左)开始算,依次列为第0、1、2、3………n,然后将第n位的数(0或1)乘以2的n-1次方,然后相加即可得到整数位的十进制数;小数位则 从左向右开始算,依次列为第1、2、3…….....n,然后将第n位的数(0或1)乘以2的-n次方,然后相加即可得到小数位的十进制数(按权相加法)。 ...以 小数点为界,整数位从最后一位(从右向左)开始算,依次列为第0、1、2、3………n,然后将第n位的数(0-9,A-F)乘以16的n-1次方,然后相 加即可得到整数位的十进制数;小数位则从左向右开始算,...依次列为第1、2、3……..n,然后将第n位的数(0-9,A-F)乘以16的-n次方,然后相 加即可得到小数位的十进制数(按权相加法)。
Getting started - SciPy.org Pandas是基于NumPy的用于数值计算的第三方库。...可表示为:一组n个观测值按数值大小排列。如,处于p%位置的值称第p百分位数。...每个数据集都有三个四分位数,这是将数据集分为四个部分的百分位数: 第一四分位数 (Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。...第二四分位数 (Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字。 第三四分位数 (Q3),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。...第三四分位数与第一四分位数的差距又称四分位距(InterQuartile Range,IQR)。 那么在python里面怎么计算分位数呢。
Jupyter 笔记本 第 3 章 Python 的数据结构、函数和文件 第 4 章 NumPy 基础:数组和向量计算 第 5 章 pandas 入门 第 6 章 数据加载、存储与文件格式 第 7 章...数据清洗和准备 第 8 章 数据规整:聚合、合并和重塑 第 9 章 绘图和可视化 第 10 章 数据聚合与分组运算 第 11 章 时间序列 第 12 章 pandas 高级应用 第 13 章 Python...NumPy 基础知识 零、前言 一、NumPy 简介 二、NumPy ndarray对象 三、使用 NumPy 数组 四、NumPy 核心和子模块 五、NumPy 中的线性代数 六、NumPy 中的傅立叶分析...基础 二、数据帧基本操作 三、开始数据分析 四、选择数据子集 五、布尔索引 六、索引对齐 七、分组以进行汇总,过滤和转换 八、将数据重组为整齐的表格 九、组合 Pandas 对象 十、时间序列分析 十一...使用函数组织你的代码 2.7 如何阅读代码 2.8 面向对象编程 三、关键编程模式 3.1 加载文件 3.2 数据帧 3.3 操纵和可视化数据 四、用于计算和优化的迭代式方法 4.1 生成均匀的随机数
表12-1 pandas的Series的分类方法 为建模创建虚拟变量 当你使用统计或机器学习工具时,通常会将分类数据转换为虚拟变量,也称为one-hot编码。...分组转换和“解封”GroupBy 在第10章,我们在分组操作中学习了apply方法,进行转换。...分组的时间重采样 对于时间序列数据,resample方法从语义上是一个基于内在时间的分组操作。...使用链式编程时要注意,你可能会需要涉及临时对象。在前面的例子中,我们不能使用load_data的结果,直到它被赋值给临时变量df。...管道方法 你可以用Python内置的pandas函数和方法,用带有可调用对象的链式编程做许多工作。但是,有时你需要使用自己的函数,或是第三方库的函数。这时就要用到管道方法。
Python黑帽编程2.2 数值类型 数值类型,说白了就是处理各种各样的数字,Python中的数值类型包括整型、长整型、布尔、双精度浮点、十进制浮点和复数,这些类型在很多方面与传统的C类型有很大的区别...Python中的数值类型都是不可变类型,意味着创建、修改数字的值,都会产生新的对象,当然这是幕后的操作,编程过程中大可不必理会。...每一个Python对象都天生具有布尔值(True或False),进而可用于布尔测试(如用在if、while中)。...图7 2.2.4 复数 在Python中,有关复数的概念如下: l 虚数不能单独存在,它们总是和一个值为0.0的实数部分一起来构成一个复数。 l 复数由实数部分和虚数部分组成。...) 保留n位小数并四舍五入 √ √ √ √ unichr(x) ASCII码->Unicode单字符串 √ √ √ 在Python中同时支持不同数值类型的数字进行混合运算,数字类型不一致怎么做运算
系列文章 "替代Excel Vba"系列(一):用Python的pandas快速汇总 "Python替代Excel Vba"系列(二):pandas分组统计与操作Excel "Python替代...本文要点: 使用 pandas 快速按需求做汇总整理。 注意:虽然本文是"Python替代Excel Vba"系列,但希望各位读者明白,工具都是各有所长,选择适合的工具,才是最好的。...---- 案例 这次的数据是基于上一节已整理的教师课程表。如下图: 表中的一行表示 某一天的某课时是哪位教师负责的哪门科目。 这里的名字按照原有数据做了脱敏(teach 列)。...注意此时,如果一位教师只有下午的课,那么此列他的值就为 nan。...---- ---- 直接看可视化吧: 上图可以看出来,n4 这教师是最多课时(20课时) 大部分的教师都是上午比下午课时多(这很可能是因为本来下午的课时就比上午少啊)- 有4位教师只有下午有课。
pandas为 Python开发者提供高性能、易用的数据结构和数据分析工具。该包基于NumPy(发音‘numb pie’)中,一个基本的科学计算包,提供ndarray,一个用于数组运算的高性能对象。...下表比较在SAS中发现的pandas组件。 ? 第6章,理解索引中详细地介绍DataFrame和Series索引。...SAS代码打印uk_accidents数据集的最后20个观察数: ? ? ? ? 5 rows × 27 columns OBS=n在SAS中确定用于输入的观察数。...Pandas使用两种设计来表示缺失数据,NaN(非数值)和Python None对象。 下面的单元格使用Python None对象代表数组中的缺失值。相应地,Python推断出数组的数据类型是对象。...该方法应用于使用.loc方法的目标列列表。第05章–了解索引中讨论了.loc方法的详细信息。 ? ? 基于df["col6"]的平均值的填补方法如下所示。.
Python与算法社区 第442篇原创,干货满满 值得星标 你好,我是 zhenguo 数据预处理常用的处理步骤,包括找出异常值、处理缺失值、过滤不合适值、去掉重复行、分箱、分组、排名、category...转数值等,下面使用 pandas 解决这些最常见的预处理任务。...找出异常值常用两种方法: 标准差法:异常值平均值上下1.96个标准差区间以外的值 分位数法:小于 1/4分位数减去 1/4和3/4分位数差的1.5倍,大于3/4减去 1/4和3/4分位数差的1.5倍,都为异常值...技能5:修复不合适值 假如某门课最高分100,如果出现 -2, 120 这样的值,显然不合理,使用布尔类型的Series对象修改数值: df.loc[(df['a'] < -2,'a')] = 0 df.loc...,分别找到对应pandas中的实现。
数组操作 切片和索引 ndarray 对象的内容可以通过索引或切片来访问和修改,与 Python 中 list 的切片操作一样。...ndarray 数组可以基于 0 - n 的下标进行索引,切片对象可以通过内置的 slice 函数,并设置 start, stop 及 step 参数进行,从原数组中切割出一个新数组。...,表示小于这个值的观察值的百分比 理解百分位数:第 p 个百分位数表示,它使得至少有 p% 的数据项小于等于这个值,且至少有 (100 - p)% 的数据项大于等于这个值。...例如:某个同学语文考试分数为 80,如果这个分数正好位于所有学生成绩的第 80 百分位数,那么即可知该成绩大于约 80% 人,约 20% 人的成绩高于该同学。...import pandas as pd s = pd.Series(data, index=index) 此处的 data,可以是如下的数据类型: Python 中的 dict 一个 ndarray
参考链接: Python | 使用Panda合并,联接和连接DataFrame 本文转载自公众号“读芯术”(ID:AI_Discovery) 大家都知道Pandas和NumPy函数很棒,它们在日常分析中起着重要的作用...它包含以下内容: 强大的N维数组对象 复杂的(广播broadcasting)功能 集成C / C++和Fortran代码工具 有用的线性代数,傅立叶变换和随机数功能 除明显的科学用途外,NumPy...n个百分位数。 ...以下是Pandas的优势: 轻松处理浮点数据和非浮点数据中的缺失数据(表示为NaN) 大小可变性:可以从DataFrame和更高维的对象中插入和删除列 自动和显式的数据对齐:在计算中,可以将对象显式对齐到一组标签...,或者用户可以直接忽略标签,并让Series,DataFrame等自动对齐数据 强大灵活的分组功能,可对数据集执行拆分-应用-合并操作,以汇总和转换数据 轻松将其他Python和NumPy数据结构中的不规则的
如果not的对象是无符号整数(不能表示负数),那么得到的值就是它与该类型上界的差,因为无符号类型的数是用$0000到$FFFF依次表示的。...只出现一次的数字 II 如果一个数异或自己偶数次, 结果为0 a ^ a = 0 a ^ a ^ a = a a ^ a ^ a ^ a = 0 计算过程 第一个操作数的的第n位于第二个操作数的第n位...k位的值 对于十进制整数 n,我们可以用n & (1 > k) & 1 得到 n 二进制表示的第 k 位(最低位为第 0 位)。...尾记 位与模在生产环境中应用少的另一个重要原因还是在于思维习惯的问题,我们习惯于十进制的计算,对于二进制的运行方式还是缺少训练,这个训练一来可以通过刷题,而来可以通过学习模拟电路中的门来进阶强化。
系列列表 "替代Excel Vba"系列(一):用Python的pandas快速汇总 前言 在本系列的上一节已经介绍了如何读写 excel 数据,并快速进行汇总处理。...本文要点: 使用 xlwings ,设置单元格格式 使用 pandas 快速做高难度分组操作 注意:虽然本文是"Python替代Excel Vba"系列,但希望各位读者明白,工具都是各有所长,适合才是最好...此时显示变量 rank 的数据,可以看到结果就是排名结果(1列数据) 在 pandas 中往 DataFrame 中新增一列非常简单。...而 transform 方法的特点就是不会压缩原数据的行数,因此每组的数都是一样的平均分。 df['班级均分']=class_avg ,同样新增一列。...给表格加点颜色 首先定义一个设置颜色的方法 indices=(n for n in arg_df.index) , 获得结果的索引值。
参考链接: Python中的多维数据分析 利用Python进行数据分析 内容简介: 还在苦苦寻觅用Python控制、处理、整理、分析结构化数据的完整课程?...77 高级IPython功能 79 致谢 81 第4章 NumPy基础:数组和矢量计算 82 NumPy的ndarray:一种多维数组对象 83 通用函数:快速的元素级数组函数 98 利用数组进行数据处理...100 用于数组的文件输入输出 107 线性代数 109 随机数生成 111 范例:随机漫步 112 第5章 pandas入门 115 pandas的数据结构介绍 116 基本功能 126 汇总和计算描述统计...第8章 绘图和可视化 231 matplotlib API入门 231 pandas中的绘图函数 244 绘制地图:图形化显示海地地震危机数据 254 Python图形化工具生态系统 260 第9章...342 第11章 金融和经济数据应用 344 数据规整化方面的话题 344 分组变换和分析 355 更多示例应用 361 第12章 NumPy高级应用 368 ndarray对象的内部机理 368 高级数组操作
只要第2字节数不等于04,就一定是信息传输帧。 发送序列号N是指本设备往外发送了N帧I格式帧,接收序列号是指接收到对方N帧I格式帧。...,02年修改后的规约中没有分组召唤) 这里每一个字节的内容都可以从协议里查到。...发送序号是00 00,前两个00是低位,后两个00是高位(注意这里高位在后),且前两个00的最后一个二进制是无效的,所以要除以2(或右移1位,右移1位就等效于除以2),所以发送序号是十进制数0。...接收序号相同算法,也是0. 64H是类型标示,十进制数是100,在手册里能查到是“站总召唤”: 可变结构限定词01,这里代表单个信息元素(总召唤),这个数据代表的规则很复杂,需要仔细阅读手册...查询手册,得知代表激活: 公共地址为0001H,一般用来代表站址(主站系统将连接上来的设备分为多个虚拟的站,可能按照连接过来的TTU,RTU进行区别对待)。
领取专属 10元无门槛券
手把手带您无忧上云