首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

利用Python进行描述统计

变量 变量概念 变量(Variable):指在研究对象某种令人感兴趣、取值会有变化特征,比如研究对象是全体大学生,那么变量可以是身高、体重等特征。...分组原则:不重不漏。 不重指的是每个数值都只能出现在一个分组,不漏指的是分组应该包含所有数值,不能漏了任何一个。...如何计算p百分? Step1:将所有观测值从小到大排列。 Step2:计算i = (p/100)n p是所求百分位置,n是项数。...Q1 = 1四分,即25百分 Q2 = 2四分,即50百分 Q3 = 3四分,即75百分 注意:要把四分上下限,和箱线图上下限区分开。...# 求均值 s.median() # 求中位数 用Python计算四分 import pandas as pd # 准备数据 s = pd.Series([3, 3, 6, 7, 7, 10

2.7K30

万字长文,史上最全Python字符串格式化讲解

上个周周末看到”pandas数据格式化处理“时候想着把(设置小数位数,设置百分,设置千分隔符)这些个知识点知识点总结一下,记一下笔记。...四舍六入五双 精确n位数字或保留n小数,采用如下规则(以保留n小数为例): a. 四舍: 保留n小数,若n+1≤4, 则舍去; b....六入: 保留n小数,若n+1≥6, 则n进1; c....五双: 保留n小数,若n+1=5, 若 如果n+1后面没有任何数字, 则n位数字为偶数就舍去n+1n位数字为奇数则进1; 如果n+1后还存在不为0任何数字,则n位数字无论是奇数还是偶数都进...n+1为5,且5后没有其它数字,n2为偶数,所以直接舍去,故最后结果为1.12。 十进制转二进制 a. 十进制整数转二进制: 除2取余,逆序排列; b.

4.5K20
您找到你想要的搜索结果了吗?
是的
没有找到

数据导入与预处理-课程总结-04~06章

6章 数据集成变换规约 3.1 数据集成 3.1.1数据集成需要关注问题 3.2 基于Pandas实现数据集成 3.2.3 主键合并数据merge 3.2.4 堆叠合并数据concat 3.2.5...4章 pandas数据获取 完整参考: 数据导入与预处理-4章-pandas数据获取 1.1 数据获取 1.1.1 概述 数据经过采集后通常会被存储到Word、Excel、JSON等文件或数据库...所以,凡是误差超过(μ-3σ,μ+3σ)区间数值均属于异常值。 2.箱型图检测 箱形图是一种用于显示一组数据分散情况统计图,它通常由上边缘、上四分、中位数、下四分、下边缘和异常值组成。...Q3表示上四分,说明全部检测值中有四分之一值比它大; Q1表示下四分,说明全部检测值中有四分之一值比它小; IQR表示四分间距,即上四分Q3与下四分Q1之差,其中包含了一半检测值...,包括: 实体识别 冗余属性识别 元组重复等 3.2 基于Pandas实现数据集成 pandas内置了许多能轻松地合并数据函数与方法,通过这些函数与方法可以将Series类对象或DataFrame

13K10

时间序列 | 字符串和日期相互转换

在数据处理过程,难免会遇到日期格式,特别是从外部读取数据到jupyter或其他python编译器,用于数据处理分析时。...%y 2年 %m 2月 [01,12] %d 2日 [01, 31] %H 时(24小时制) [00, 23] %I 时(12小时制) [01, 12] %M 2分[00, 59...也知道了将字符串转化为datetime对象。 在数据处理过程,特别是在处理时间序列过程,常常会出现pandas....小时制小时 Hour (12-hour clock) %j 十进制表示每年第几天 Day of the year %m 十进制表示月份 Month number %M 十时制表示分钟 Minute...number %S 十进制秒数 Second number %U 第几周,把星期日做为第一天(值从0到53)Week number (Sunday first weekday) %w 十进制表示星期几

6.9K20

《利用Python进行数据分析·3版》学习笔记1·准备环境

时隔5年,《利用Python进行数据分析》在2022年9月20日推出了最新3版。在此次新版“鼹鼠书”,Wes亲自讲解了最新1.4版Pandas。...第三版目录略有调整,不如第二版和第一版变化大: 4章NumPy基础新增了生成伪随机7章数据清洗新增了扩展数据类型和分类数据,实际是把第二版12章内容放到新版7章里了; 11章时间序列新增了分组时间重采样...NumPy提供了以下功能: 快速、高效多维数组对象ndarray。 用于对数组执行元素级计算以及直接对数组执行数学运算函数。 用于读写硬盘上基于数组数据集工具。...channel_priority strict 为了使操作环境更为纯净,使用虚拟环境,虚拟环境名字是pydata-book,命令如下: (base) $ conda create -y -n pydata-book...python=3.10 解释一下这条命令,conda create意思是用conda创建虚拟环境,-y意思是使所有确认结果都为yes,-n pydata-book意思是虚拟环境名字是pydata-book

2.1K30

深入理解计算机系统(2.2)------进制间转换原理

例如十进制2权为10,3权为100;而二进制2权为2,3权为4,对于 N进制,整数部分 i权为N^(i-1),而小数部分j权为N^-j。   ...整数位从最后一 (从右向左)开始算,依次列为0、1、2、3………n,然后将n(0或1)乘以2n-1次方,然后相加即可得到整数位十进制;小数位则 从左向右开始算,依次列为1、2、3…….....n,然后将n(0或1)乘以2-n次方,然后相加即可得到小数位十进制(按权相加法)。    ...以 小数点为界,整数位从最后一(从右向左)开始算,依次列为0、1、2、3………n,然后将n(0-9,A-F)乘以16n-1次方,然后相 加即可得到整数位十进制;小数位则从左向右开始算,...依次列为1、2、3……..n,然后将n(0-9,A-F)乘以16-n次方,然后相 加即可得到小数位十进制(按权相加法)。

1.4K70

怎么样描述你数据——用python做描述性分析

Getting started - SciPy.org Pandas基于NumPy用于数值计算第三方库。...可表示为:一组n个观测值按数值大小排列。如,处于p%位置值称p百分。...每个数据集都有三个四分,这是将数据集分为四个部分百分: 第一四分 (Q1),又称“较小四分”,等于该样本中所有数值由小到大排列后25%数字。...第二四分 (Q2),又称“中位数”,等于该样本中所有数值由小到大排列后50%数字。 第三四分 (Q3),又称“较大四分”,等于该样本中所有数值由小到大排列后75%数字。...第三四分与第一四分差距又称四分距(InterQuartile Range,IQR)。 那么在python里面怎么计算分位数呢。

2.1K10

ApacheCN 数据科学译文集 20211109 更新

Jupyter 笔记本 3 章 Python 数据结构、函数和文件 4 章 NumPy 基础:数组和向量计算 5 章 pandas 入门 6 章 数据加载、存储与文件格式 7 章...数据清洗和准备 8 章 数据规整:聚合、合并和重塑 9 章 绘图和可视化 10 章 数据聚合与分组运算 11 章 时间序列 12 章 pandas 高级应用 13 章 Python...NumPy 基础知识 零、前言 一、NumPy 简介 二、NumPy ndarray对象 三、使用 NumPy 数组 四、NumPy 核心和子模块 五、NumPy 线性代数 六、NumPy 傅立叶分析...基础 二、数据帧基本操作 三、开始数据分析 四、选择数据子集 五、布尔索引 六、索引对齐 七、分组以进行汇总,过滤和转换 八、将数据重组为整齐表格 九、组合 Pandas 对象 十、时间序列分析 十一...使用函数组织你代码 2.7 如何阅读代码 2.8 面向对象编程 三、关键编程模式 3.1 加载文件 3.2 数据帧 3.3 操纵和可视化数据 四、用于计算和优化迭代式方法 4.1 生成均匀随机

4.9K30

《利用Python进行数据分析·2版》12章 pandas高级应用12.1 分类数据12.2 GroupBy高级应用12.3 链式编程技术12.4 总结

表12-1 pandasSeries分类方法 为建模创建虚拟变量 当你使用统计或机器学习工具时,通常会将分类数据转换为虚拟变量,也称为one-hot编码。...分组转换和“解封”GroupBy 在10章,我们在分组操作中学习了apply方法,进行转换。...分组时间重采样 对于时间序列数据,resample方法从语义上是一个基于内在时间分组操作。...使用链式编程时要注意,你可能会需要涉及临时对象。在前面的例子,我们不能使用load_data结果,直到它被赋值给临时变量df。...管道方法 你可以用Python内置pandas函数和方法,用带有可调用对象链式编程做许多工作。但是,有时你需要使用自己函数,或是第三方库函数。这时就要用到管道方法。

2.2K70

Python黑帽编程2.2 数值类型

Python黑帽编程2.2 数值类型 数值类型,说白了就是处理各种各样数字,Python数值类型包括整型、长整型、布尔、双精度浮点、十进制浮点和复数,这些类型在很多方面与传统C类型有很大区别...Python数值类型都是不可变类型,意味着创建、修改数字值,都会产生新对象,当然这是幕后操作,编程过程中大可不必理会。...每一个Python对象都天生具有布尔值(True或False),进而可用于布尔测试(如用在if、while)。...图7 2.2.4 复数 在Python,有关复数概念如下: l 虚数不能单独存在,它们总是和一个值为0.0实数部分一起来构成一个复数。 l 复数由实数部分和虚数部分组成。...) 保留n小数并四舍五入 √ √ √ √ unichr(x) ASCII码->Unicode单字符串 √ √ √ 在Python同时支持不同数值类型数字进行混合运算,数字类型不一致怎么做运算

2K90

Python替代Excel Vba系列(四):课程表分析与动态可视化图表

系列文章 "替代Excel Vba"系列(一):用Pythonpandas快速汇总 "Python替代Excel Vba"系列(二):pandas分组统计与操作Excel "Python替代...本文要点: 使用 pandas 快速按需求做汇总整理。 注意:虽然本文是"Python替代Excel Vba"系列,但希望各位读者明白,工具都是各有所长,选择适合工具,才是最好。...---- 案例 这次数据是基于上一节已整理教师课程表。如下图: 表一行表示 某一天某课时是哪位教师负责哪门科目。 这里名字按照原有数据做了脱敏(teach 列)。...注意此时,如果一教师只有下午课,那么此列他值就为 nan。...---- ---- 直接看可视化吧: 上图可以看出来,n4 这教师是最多课时(20课时) 大部分教师都是上午比下午课时多(这很可能是因为本来下午课时就比上午少啊)- 有4教师只有下午有课。

1.7K20

针对SAS用户:Python数据分析库pandas

pandasPython开发者提供高性能、易用数据结构和数据分析工具。该包基于NumPy(发音‘numb pie’),一个基本科学计算包,提供ndarray,一个用于数组运算高性能对象。...下表比较在SAS中发现pandas组件。 ? 6章,理解索引详细地介绍DataFrame和Series索引。...SAS代码打印uk_accidents数据集最后20个观察: ? ? ? ? 5 rows × 27 columns OBS=n在SAS确定用于输入观察。...Pandas使用两种设计来表示缺失数据,NaN(非数值)和Python None对象。 下面的单元格使用Python None对象代表数组缺失值。相应地,Python推断出数组数据类型是对象。...该方法应用于使用.loc方法目标列列表。05章–了解索引讨论了.loc方法详细信息。 ? ? 基于df["col6"]平均值填补方法如下所示。.

12.1K20

数据预处理 10 个小技能,附 Pandas 实现

Python与算法社区 442篇原创,干货满满 值得星标 你好,我是 zhenguo 数据预处理常用处理步骤,包括找出异常值、处理缺失值、过滤不合适值、去掉重复行、分箱、分组、排名、category...转数值等,下面使用 pandas 解决这些最常见预处理任务。...找出异常值常用两种方法: 标准差法:异常值平均值上下1.96个标准差区间以外值 分位数法:小于 1/4分减去 1/4和3/4分1.5倍,大于3/4减去 1/4和3/4分1.5倍,都为异常值...技能5:修复不合适值 假如某门课最高分100,如果出现 -2, 120 这样值,显然不合理,使用布尔类型Series对象修改数值: df.loc[(df['a'] < -2,'a')] = 0 df.loc...,分别找到对应pandas实现。

84110

长文预警,一篇文章扫盲Python、NumPy 和 Pandas,建议收藏慢慢看

数组操作 切片和索引 ndarray 对象内容可以通过索引或切片来访问和修改,与 Python list 切片操作一样。...ndarray 数组可以基于 0 - n 下标进行索引,切片对象可以通过内置 slice 函数,并设置 start, stop 及 step 参数进行,从原数组中切割出一个新数组。...,表示小于这个值观察值百分比 理解百分 p 个百分数表示,它使得至少有 p% 数据项小于等于这个值,且至少有 (100 - p)% 数据项大于等于这个值。...例如:某个同学语文考试分数为 80,如果这个分数正好位于所有学生成绩 80 百分,那么即可知该成绩大于约 80% 人,约 20% 人成绩高于该同学。...import pandas as pd s = pd.Series(data, index=index) 此处 data,可以是如下数据类型: Python dict 一个 ndarray

2K20

panda python_12个很棒Pandas和NumPy函数,让分析事半功倍

参考链接: Python | 使用Panda合并,联接和连接DataFrame 本文转载自公众号“读芯术”(ID:AI_Discovery)  大家都知道Pandas和NumPy函数很棒,它们在日常分析起着重要作用...它包含以下内容:  强大N维数组对象  复杂(广播broadcasting)功能  集成C / C++和Fortran代码工具  有用线性代数,傅立叶变换和随机功能  除明显科学用途外,NumPy...n个百分。  ...以下是Pandas优势:  轻松处理浮点数据和非浮点数据缺失数据(表示为NaN)  大小可变性:可以从DataFrame和更高维对象插入和删除列  自动和显式数据对齐:在计算,可以将对象显式对齐到一组标签...,或者用户可以直接忽略标签,并让Series,DataFrame等自动对齐数据  强大灵活分组功能,可对数据集执行拆分-应用-合并操作,以汇总和转换数据  轻松将其他Python和NumPy数据结构不规则

5.1K00

与模对白

如果not对象是无符号整数(不能表示负数),那么得到值就是它与该类型上界差,因为无符号类型是用$0000到$FFFF依次表示。...只出现一次数字 II 如果一个异或自己偶数次, 结果为0 a ^ a = 0 a ^ a ^ a = a a ^ a ^ a ^ a = 0 计算过程 第一个操作数n位于第二个操作数n...k值 对于十进制整数 n,我们可以用n & (1 > k) & 1 得到 n 二进制表示 k (最低位为 0 )。...尾记 与模在生产环境应用少另一个重要原因还是在于思维习惯问题,我们习惯于十进制计算,对于二进制运行方式还是缺少训练,这个训练一来可以通过刷题,而来可以通过学习模拟电路门来进阶强化。

60600

Python替代Excel Vba系列(二):pandas分组统计与操作Excel

系列列表 "替代Excel Vba"系列(一):用Pythonpandas快速汇总 前言 在本系列上一节已经介绍了如何读写 excel 数据,并快速进行汇总处理。...本文要点: 使用 xlwings ,设置单元格格式 使用 pandas 快速做高难度分组操作 注意:虽然本文是"Python替代Excel Vba"系列,但希望各位读者明白,工具都是各有所长,适合才是最好...此时显示变量 rank 数据,可以看到结果就是排名结果(1列数据) 在 pandas 往 DataFrame 中新增一列非常简单。...而 transform 方法特点就是不会压缩原数据行数,因此每组都是一样平均分。 df['班级均分']=class_avg ,同样新增一列。...给表格加点颜色 首先定义一个设置颜色方法 indices=(n for n in arg_df.index) , 获得结果索引值。

1.6K30

python数据分析pdf下载-利用Python进行数据分析 PDF扫描版

参考链接: Python多维数据分析 利用Python进行数据分析 内容简介: 还在苦苦寻觅用Python控制、处理、整理、分析结构化数据完整课程?...77 高级IPython功能 79 致谢 81 4章 NumPy基础:数组和矢量计算 82 NumPyndarray:一种多维数组对象 83 通用函数:快速元素级数组函数 98 利用数组进行数据处理...100 用于数组文件输入输出 107 线性代数 109 随机生成 111 范例:随机漫步 112 5章 pandas入门 115 pandas数据结构介绍 116 基本功能 126 汇总和计算描述统计...8章 绘图和可视化 231 matplotlib API入门 231 pandas绘图函数 244 绘制地图:图形化显示海地地震危机数据 254 Python图形化工具生态系统 260 9章...342 11章 金融和经济数据应用 344 数据规整化方面的话题 344 分组变换和分析 355 更多示例应用 361 12章 NumPy高级应用 368 ndarray对象内部机理 368 高级数组操作

2.5K00

104规约笔记「建议收藏」

只要2字节数不等于04,就一定是信息传输帧。 发送序列号N是指本设备往外发送了N帧I格式帧,接收序列号是指接收到对方N帧I格式帧。...,02年修改后规约没有分组召唤) 这里每一个字节内容都可以从协议里查到。...发送序号是00 00,前两个00是低位,后两个00是高位(注意这里高位在后),且前两个00最后一个二进制是无效,所以要除以2(或右移1,右移1就等效于除以2),所以发送序号是十进制0。...接收序号相同算法,也是0. 64H是类型标示,十进制是100,在手册里能查到是“站总召唤”: 可变结构限定词01,这里代表单个信息元素(总召唤),这个数据代表规则很复杂,需要仔细阅读手册...查询手册,得知代表激活: 公共地址为0001H,一般用来代表站址(主站系统将连接上来设备分为多个虚拟站,可能按照连接过来TTU,RTU进行区别对待)。

2.3K10
领券