首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

数据导入与预处理-第6章-02数据变换

2.2 轴向旋转(6.2.2 ) 掌握pivot()和melt()方法用法,可以熟练地使用这些方法实现轴向旋转操作 2.2.1 pivot方法 pivot()方法用于将DataFrame类对象某一列数据转换为列索引...pivot()函数如下: DataFrame.pivot(index=None, columns=None, values=None) index:表示新生成对行索引,若未指定说明使用现有对象行索引...pivot_table透视过程如下图: 假设某商店记录了5月和6月活动期间不同品牌手机促销价格,保存到以日期、商品名称、价格为列标题表格中,若该表格商品名称列进行轴向旋转操作,即将商品名称一列唯一值变换成列索引...使用pandasgroupby()方法拆分数据后会返回一个GroupBy类对象,该对象是一个可迭代对象,它里面包含了每个分组具体信息,但无法直接被显示。...实现哑变量方法: pandas使用get_dummies()函数类别数据进行哑变量处理,并在处理后返回一个哑变量矩阵。

19.2K20

Python数据分析之数据预处理(数据清洗、数据合并、数据重塑、数据转换)学习笔记

,不同处在于,前者发现数据中有空值或缺失值时返回False,后者返回是True.  1.1.2 使用 dropna()和fillna()方法  ​ 缺失值进行删除和填充。 ...3.2 轴向旋转  ​ 在 Pandas中pivot()方法提供了这样功能,它会根据给定行或列索引重新组织一个 DataFrame对象。 ...4.1.1 rename()方法  index,columns:表示行索引名或列索引名转换。  inplace:默认为False,表示是否返回Pandas对象。 ...','青年','中年','中老年','老年']) 4.3 哑变量处理类别型数据  在Pandas中,可以使用get_dummies()函数类别特征进行哑变量处理.  4.3.1 get_dummies...哑变量又称应拟变量,名义变量,名称上看就知道,它是人为虚设变量,用来反映某个交量不间类别使用哑变最处理类别转换,事实上就是将分类变量转换为哑变最矩阵或指标矩阵,矩阵值通常用“0”或“1”表示

5.3K00
您找到你想要的搜索结果了吗?
是的
没有找到

Pandas 学习手册中文第二版:6~10

可以通过使用PeriodIndex并为索引中时间段指定特定频率来这些场景进行建模。 下面通过2017-01开始三个 1 个月周期进行建模进行演示。...这更加有用,因为它可用于按与每个类别的含义及其与其他类别的关系相匹配顺序进行排序。 在类别类别时,将使用代码而不是实际值进行类别。...,因此通过使用它在类别列上进行排序,我们可以最高到最低字母等级学生进行排序。...使用pandas.io.sql.read_sql()函数执行读取,并使用DataFrame.to_sql()方法完成对 SQL 数据库写入。...为了演示,让我们研究几个使用索引进行切片示例。 以下将以Strike价格为 30 美元返回所有put选项。

2.3K20

快速介绍Python数据分析库pandas基础知识和代码示例

sort_values ()可以以特定方式pandas数据进行排序。...通常回根据一个或多个列panda DataFrame进行排序,或者根据panda DataFrame行索引值或行名称进行排序。 例如,我们希望按学生名字按升序排序。...groupby 是一个非常简单概念。我们可以创建一组类别,并类别应用一个函数。这是一个简单概念,但却是我们经常使用极有价值技术。...mean():返回平均值 median():返回每列中位数 std():返回数值列标准偏差。 corr():返回数据格式列之间相关性。 count():返回每列中非空值数量。...总结 我希望这张小抄能成为你参考指南。当我发现更多有用Pandas函数时,我将尝试不断地进行更新。

8.1K20

seaborn介绍

以下是seaborn提供一些功能: 面向数据集API,用于检查多个变量之间关系 专门支持使用分类变量来显示观察结果或汇总统计数据 可视化单变量或双变量分布以及在数据子集之间进行比较选项 不同种类因变量线性回归模型自动估计和绘图...(适当使用颜色对于有效数据可视化至关重要,而seaborn 定制调色板有广泛支持)。...组织数据集 如上所述,当您数据集具有特定组织时,seaborn将是最强大。这种格式可以替代地称为“长形式”或“整洁”数据,并由Hadley Wickham在本学术论文中详细描述。...规则可以简单说明: 每个变量都是一列 每次观察都是一排 确定数据是否整洁有用思路是想要绘制图中向后思考。从这个角度来看,“变量”是将在情节中分配角色东西。...要利用依赖于整齐格式数据pandas.melt功能,您可能会发现该功能对于“取消旋转”宽格式数据帧非常有用。更多信息和有用示例可以在这篇博客文章中找到,其中一位是熊猫开发者。

3.9K20

4个解决特定任务Pandas高效代码

在本文中,我将分享4个在一行代码中完成Pandas操作。这些操作可以有效地解决特定任务,并以一种好方式给出结果。 列表中创建字典 我有一份商品清单,我想看看它们分布情况。...JSON文件创建DataFrame JSON是一种常用存储和传递数据文件格式。 当我们清理、处理或分析数据时,我们通常更喜欢使用表格格式(或类似表格数据)。...由于json_normalize函数,我们可以通过一个操作json格式对象创建Pandas DataFrame。 假设数据存储在一个名为dataJSON文件中。...构造函数,它将创建如下DataFrame,这绝对不是一个可用格式: df = pd.DataFrame(data) 但是如果我们使用json_normalize函数将得到一个整洁DataFrame...Merged DataFrame: A B a 1.0 5.0 b 2.0 60.0 c 30.0 7.0 d 4.0 8.0 总结 计算简单计数据到高度复杂数据清理过程

20210

6个冷门但实用pandas知识点

Python大数据分析 1 简介 pandas作为开展数据分析利器,蕴含了与数据处理相关丰富多样API,使得我们可以灵活方便地对数据进行各种加工,但很多pandas实用方法其实大部分人都是不知道...图1 2 6个实用pandas小知识 2.1 Series与DataFrame互转 很多时候我们计算过程中产生结果是Series格式,而接下来很多操作尤其是使用「链式」语法时,需要衔接着传入DataFrame...格式变量,这种时候我们就可以使用pandas中Series向DataFrame转换方法: 「利用to_frame()实现Series转DataFrame」 s = pd.Series([0, 1,...sample()方法本质功能是原始数据中抽样行记录,默认为不放回抽样,其参数frac用于控制抽样比例,我们将其设置为1则等价于打乱顺序: df = pd.DataFrame({ 'V1':...: s.rank(method='max') 图14 「dense」 在dense策略下,相当于序列去重后进行排名,再将每个元素排名赋给相同每个元素,这种方式也是比较贴合实际需求: s.rank

87530

Pandas profiling 生成报告并部署一站式解决方案

可以将DataFrame对象传递给profiling函数,然后调用创建函数对象以开始生成分析文件。 无论采用哪种方式,都将获得相同输出报告。我正在使用第二种方法为导入农业数据集生成报告。...字符串类型值概览选项卡显示最大-最小中值平均长度、总字符、不同字符、不同类别、唯一和来自数据集样本。 类别选项卡显示直方图,有时显示特征值计数饼图。该表包含值、计数和百分比频率。...在以表格和直方图格式呈现数据方式方面,单词和字符选项卡与类别选项卡作用相同,但它可以更深入地处理小写、大写、标点符号,特殊字符类别也很重要! 3....这将具有描述字典作为键和值作为另一个具有键值字典,其中键是变量名称,值作为变量描述。...Profiling”—— Pandas DataFrame 生成报告一站式解决方案。

3.2K10

6个冷门但实用pandas知识点

图1 2 6个实用pandas小知识 2.1 Series与DataFrame互转   很多时候我们计算过程中产生结果是Series格式,而接下来很多操作尤其是使用链式语法时,需要衔接着传入DataFrame...格式变量,这种时候我们就可以使用pandas中Series向DataFrame转换方法: 利用to_frame()实现Series转DataFrame s = pd.Series([0, 1, 2...图3 2.2 随机打乱DataFrame记录行顺序   有时候我们需要对数据框整体行顺序进行打乱,譬如在训练机器学习模型时,打乱原始数据顺序后取前若干行作为训练集后若干行作为测试集,这在pandas...图5   这种时候我们可以使用pandas数据类型中类别型来极大程度上减小内存消耗: df['V1'] = df['V1'].astype('category') df.memory_usage(deep...图14 dense   在dense策略下,相当于序列去重后进行排名,再将每个元素排名赋给相同每个元素,这种方式也是比较贴合实际需求: s.rank(method='dense') ?

1.2K40

Pandas 25 式

~ 按行 用多个文件建立 DataFrame ~ 按列 剪贴板创建 DataFrameDataFrame 分割为两个随机子集 根据多个类别筛选 DataFrame 根据最大类别筛选 DataFrame...使用 Python 内置 glob 更方便。 ? 把文件名规则传递给 glob(),这里包括通配符,即可返回包含所有合规文件名列表。...选择行与列 本例使用大家都看腻了泰坦尼克数据集。 ? 这个数据集包括了泰坦尼克乘客基本信息以及是否逃生数据。 用 describe() 方法,可以得到该数据集基本统计数据。 ?...这个 DataFrame 包含数据与多重索引序列一模一样,只是可以用大家更熟悉 DataFrame 方法进行操控。 22....创建样式字符字典,指定每列使用格式。 ? 把这个字典传递给 DataFrame style.format() 方法。 ? 注意:日期是月-日-年格式,闭市价有美元符,交易量有千分号。

8.4K00

用Python玩转统计数据:取样、计算相关性、拆分训练模型和测试

准备 要实践本技巧,你只需装好pandas模块。此外没有要求了。 2. 怎么做 下面的代码可以快速达成对数据初步理解。...可用方法列表见: http://pandas.pydata.org/pandas-docs/stable/api.html#api-dataframe-stats 有了基础计数据,我们可以补上其他...要留意是,.skew(...)和.kurt(...)方法以类似的格式返回数据,而.mode(...)不然;.mode(...)方法返回数据要进行调整,以便和.describe()方法输出格式保持一致...原理 首先确定取样比例,即strata_frac变量。MongoDB取出数据。MongoDB返回是一个字典。...准备 要实践本技巧,你需要pandas、SQLAlchemy和NumPy。其他没有什么要准备。 2. 怎么做 我们PostgreSQL数据库读出数据,存到DataFrame里。

2.4K20

数据分析篇 | PyCon 大咖亲传 pandas 25 式,长文建议收藏

~ 按行 用多个文件建立 DataFrame ~ 按列 剪贴板创建 DataFrameDataFrame 分割为两个随机子集 根据多个类别筛选 DataFrame 根据最大类别筛选 DataFrame...使用 Python 内置 glob 更方便。 ? 把文件名规则传递给 glob(),这里包括通配符,即可返回包含所有合规文件名列表。...选择行与列 本例使用大家都看腻了泰坦尼克数据集。 ? 这个数据集包括了泰坦尼克乘客基本信息以及是否逃生数据。 用 describe() 方法,可以得到该数据集基本统计数据。 ?...这个 DataFrame 包含数据与多重索引序列一模一样,只是可以用大家更熟悉 DataFrame 方法进行操控。 22....创建样式字符字典,指定每列使用格式。 ? 把这个字典传递给 DataFrame style.format() 方法。 ? 注意:日期是月-日-年格式,闭市价有美元符,交易量有千分号。

7.1K20

Pandas 2.2 中文官方教程和指南(七)

现代 Pandas 方法链接 索引 性能 整洁数据 可视化 时间序列 使用 pandas、vincent 和 xlsxwriter 制作 Excel 图表 使用...和 pandas 数据框轻松进行 Python 统计分析,由 Randal Olson 提供 Python 中计数据分析,由 SciPy 2013 Christopher Fonnesbeck...scipy.sparse 交互 常见问题解答(FAQ) DataFrame 内存使用情况 与 pandas 一起使用 if/真值语句 使用用户定义函数 (UDF) 方法进行突变...提供了各种便捷功能,可以轻松地将Series和DataFrame对象结合在一起,索引进行各种类型集合逻辑操作,并在联接/合并类型操作中提供关系代数功能。...Python/NumPy 表达式直观且交互式工作很方便,但对于生产代码,我们建议使用优化 pandas 数据访问方法,DataFrame.at(),DataFrame.iat(),DataFrame.loc

31800
领券