首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

数据导入与预处理-第6章-02数据变换

、方差齐性、独立性、偏性,需进行诸如平方根、对数、平方根反正弦操作,实现从一种形式到另一种“适当”形式变换,适用于分析或挖掘需求,这一过程就是数据变换。...2.2 轴向旋转(6.2.2 ) 掌握pivot()melt()方法用法,可以熟练地使用这些方法实现轴向旋转操作 2.2.1 pivot方法 pivot()方法用于将DataFrame类对象某一列数据转换为列索引...pivot_table透视过程如下图: 假设某商店记录了5月6月活动期间不同品牌手机促销价格,保存到日期、商品名称、价格为列标题表格中,若对该表格商品名称列进行轴向旋转操作,即将商品名称一列唯一变换成列索引...使用pandasgroupby()方法拆分数据后会返回一个GroupBy类对象,该对象是一个可迭代对象,它里面包含了每个分组具体信息,但无法直接被显示。...,一些算法模型要求输入数值类型表示特征,但代表特征数据不一定都是数值类型,其中一部分是类别型,例如,受教育程度表示方式大学、研究生、博士等类别,这些类别均为非数值类型数据

19.2K20

机器学习三剑客之PandasPandas两大核心数据结构Panda数据读取(csv为例)数据处理Pandas分组聚合(重要)

Pandas是基于Numpy开发出,专门用于数据分析开源Python库 Pandas两大核心数据结构 Series(一维数据) 允许索引重复 DataFrame(多特征数据,既有行索引.../步长) result.index # 打印每一列 属性名称 result.columns # 将数据放到数组中显示 result.values # 打印前5个 print("-->前5个:") print...(csv为例) pandas.read_csv(filepath_or_buffer, sep=",", names=None, usecols = None) filepath_or_buffer...直接删除数据(删除存在缺失样本) # 删除存在缺失样本 IMDB_1000.dropna() 不推荐操作: 按列删除缺失为IMDB_1000.dropna(axis=1) 存在缺失, 直接填充数据...) # 交叉表, 表示出用户姓名,商品名之间关系 user_goods = pd.crosstab(u_o_g["姓名"],u_o_g["goods_name"]) Pandas分组聚合(重要)

1.8K60
您找到你想要的搜索结果了吗?
是的
没有找到

Pandas 秘籍:6~11

许多人都对在某些指标上表现最好学校感兴趣。 准备 此秘籍发现每个数字列具有最大学校,并设置数据样式突出显示信息,以便用户轻松使用。...几种不同语法产生相似的结果,而步骤 3 显示了另一种方法。 与其标识字典中聚合列,不如将其放在索引运算符中,就如同您从数据中将其选择为列一样。...聚合列变为顶层,聚合函数变为底层。 Pandas 显示多重索引级别与单级别的列不同。 除了最里面的级别以外,屏幕上不会显示重复索引。 您可以检查第 1 步中数据进行验证。...如前面的秘籍“将多个变量存储为列时进行整理”秘籍所述,当在index参数中使用多个列时,我们必须使用pivot_table来旋转数据旋转后,GroupYear变量卡在索引中。...在数据的当前结构中,它无法基于单个列中绘制不同组。 但是,第 23 步显示如何设置数据,以便 Pandas 可以直接绘制每个总统数据,而不会像这样循环。

33.8K10

30 个 Python 函数,加速你数据分析处理速度!

Pandas 是 Python 中最广泛使用数据分析操作库。它提供了许多功能方法,可以加快 「数据分析」 「预处理」 步骤。...12.Groupby 函数 Pandas Groupby 函数是一个多功能且易于使用功能,可帮助获取数据概述。它使浏览数据揭示变量之间基本关系更加容易。 我们将做几个组比函数示例。...df.Geography.nunique 22.内存使用情况 使用函数 memory_usage,这些显示字节为单位内存. df.memory_usage() ?...我发现使用 Pandas 创建基本绘图更容易,而不是使用其他数据可视化库。 让我们创建平衡列直方图。 ? 26.减少浮点数小数点 pandas 可能会为浮点数显示过多小数点。...30.设置数据样式 我们可以通过使用返回 Style 对象 Style 属性来实现此目的,它提供了许多用于格式化显示数据选项。例如,我们可以突出显示最小或最大

8.9K60

如何用Python在笔记本电脑上分析100GB数据(下)

看看在那段时间里,人们对某些东西兴趣是如何演变,这可能会很有趣。使用Vaex,我们可以快速执行核心分组聚合操作。让我们来探讨7年来票价行程是如何演变: ?...注意,在上面的代码块中,一旦我们聚合数据,小Vaex数据可以很容易地转换为Pandas数据,我们可以方便地将其传递给Seaborn。...下一步是我最喜欢Vaex特性之一:带有选择聚合。其他库要求对以后合并为一个支付方法每个单独筛选数据进行聚合。另一方面,使用Vaex,我们可以通过在聚合函数中提供选择来一步完成此操作。...这非常方便,只需要一次传递数据,就可以获得更好性能。在此之后,我们只需标准方式绘制结果数据: ? 在一周某一时间某一天,现金对卡支付一部分。...如果您对本文中使用数据集感兴趣,可以直接从S3使用Vaex。请参阅完整Jupyter notebook,了解如何做到这一点。

1.2K10

手把手教你用Pandas透视表处理数据(附学习资料)

本文重点解释pandas函数pivot_table,并教大家如何使用它来进行数据分析。...所以,本文将重点解释pandas函数pivot_table,并教大家如何使用它来进行数据分析。 如果你对这个概念不熟悉,维基百科上对它做了详细解释。...添加项目检查每一步来验证你正一步一步得到期望结果。为了查看什么样外观最能满足你需要,就不要害怕处理顺序变量繁琐。 最简单透视表必须有一个数据一个索引。...列vs. 我认为pivot_table中一个令人困惑地方是“columns(列)”“values()”使用。...所以,你可以使用自定义标准数据函数来对其进行过滤。

3.1K50

Pandas常用数据处理方法

本文Pandas知识点包括: 1、合并数据集 2、重塑轴向旋转 3、数据转换 4、数据聚合 1、合并数据Pandas中合并数据多种方式,这里我们来逐一介绍 1.1 数据库风格合并 数据库风格合并指根据索引或某一列是否相等进行合并方式...2、重塑轴向旋转 在重塑轴向旋转中,两个重要函数,二者互为逆操作: stack:将数据旋转为行 unstack:将数据旋转为列 先来看下面的例子: data = pd.DataFrame...,则会根据数据最大最小自动计算等长面元,比如下面的例子将均匀分布数据分为四组: data = np.random.rand(20) pd.cut(data,4,precision=2) pandas...4、数据聚合 4.1 数据分组 pandas数据分组使用groupby方法,返回是一个GroupBy对象,对分组之后数据,我们可以使用一些聚合函数进行聚合,比如求平均值mean: df = pd.DataFrame...如果你想索引方式返回聚合数据,可是设置as_index=False: tips.groupby(['sex','smoker'],as_index=False).mean() ?

8.3K90

图解pandas模块21个常用操作

3、从字典创建一个系列 字典(dict)可以作为输入传递,如果没有指定索引,则按排序顺序取得字典键构造索引。如果传递了索引,索引中与标签对应数据将被拉出。 ?...5、序列聚合统计 Series很多聚会函数,可以方便统计最大、求和、平均值等 ? 6、DataFrame(数据) DataFrame是带有标签二维数据结构,列类型可能不同。...13、聚合 可以按行、列进行聚合,也可以用pandas内置describe对数据进行操作简单而又全面的数据聚合分析。 ? ?...16、透视表 透视表是pandas一个强大操作,大量参数完全能满足你个性化需求。 ? 17、处理缺失 pandas对缺失多种处理办法,满足各类需求。 ?...18、查找替换 pandas提供简单查找替换功能,如果要复杂查找替换,可以使用map(), apply()applymap() ?

8.4K12

【图解 NumPy】最形象教程

除了能对数值数据进行切片(slice)切块(dice)之外,使用 NumPy 还能为处理调试上述库中高级实例带来极大便利。...本文将介绍使用 NumPy 一些主要方法,以及在将数据送入机器学习模型之前,它如何表示不同类型数据(表格、图像、文本等)。...矩阵聚合 我们可以像聚合向量一样聚合矩阵: ? 我们不仅可以聚合矩阵中所有,还可以使用 axis 参数执行跨行或跨列聚合: ? 转置重塑 处理矩阵时一个常见需求是旋转矩阵。...数据表示 考虑所有需要处理构建模型所需数据类型(电子表格、图像、音频等),其中很多都适合在 n 维数组中表示: 表格电子表格 电子表格或表是二维矩阵。...电子表格中每个工作表都可以是它自己变量。python 中最流行抽象是 pandas 数据,它实际上使用了 NumPy 并在其之上构建。 ? 音频时间序列 音频文件是样本一维数组。

2.5K31

图解NumPy,别告诉我你还看不懂!

除了能对数值数据进行切片(slice)切块(dice)之外,使用 NumPy 还能为处理调试上述库中高级实例带来极大便利。...本文将介绍使用 NumPy 一些主要方法,以及在将数据送入机器学习模型之前,它如何表示不同类型数据(表格、图像、文本等)。...矩阵聚合 我们可以像聚合向量一样聚合矩阵: ? 我们不仅可以聚合矩阵中所有,还可以使用 axis 参数执行跨行或跨列聚合: ? 转置重塑 处理矩阵时一个常见需求是旋转矩阵。...数据表示 考虑所有需要处理构建模型所需数据类型(电子表格、图像、音频等),其中很多都适合在 n 维数组中表示: 表格电子表格 电子表格或表是二维矩阵。...电子表格中每个工作表都可以是它自己变量。python 中最流行抽象是 pandas 数据,它实际上使用了 NumPy 并在其之上构建。 ? 音频时间序列 音频文件是样本一维数组。

2.1K20

图解NumPy,这是理解数组最形象一份教程了

除了能对数值数据进行切片(slice)切块(dice)之外,使用 NumPy 还能为处理调试上述库中高级实例带来极大便利。...本文将介绍使用 NumPy 一些主要方法,以及在将数据送入机器学习模型之前,它如何表示不同类型数据(表格、图像、文本等)。...矩阵聚合 我们可以像聚合向量一样聚合矩阵: ? 我们不仅可以聚合矩阵中所有,还可以使用 axis 参数执行跨行或跨列聚合: ? 6. 转置重塑 处理矩阵时一个常见需求是旋转矩阵。...数据表示 考虑所有需要处理构建模型所需数据类型(电子表格、图像、音频等),其中很多都适合在 n 维数组中表示: 表格电子表格 电子表格或表是二维矩阵。...电子表格中每个工作表都可以是它自己变量。python 中最流行抽象是 pandas 数据,它实际上使用了 NumPy 并在其之上构建。 ? 音频时间序列 音频文件是样本一维数组。

1.8K22

图解NumPy,这是理解数组最形象一份教程了

除了能对数值数据进行切片(slice)切块(dice)之外,使用 NumPy 还能为处理调试上述库中高级实例带来极大便利。...本文将介绍使用 NumPy 一些主要方法,以及在将数据送入机器学习模型之前,它如何表示不同类型数据(表格、图像、文本等)。...矩阵聚合 我们可以像聚合向量一样聚合矩阵: ? 我们不仅可以聚合矩阵中所有,还可以使用 axis 参数执行跨行或跨列聚合: ? 转置重塑 处理矩阵时一个常见需求是旋转矩阵。...数据表示 考虑所有需要处理构建模型所需数据类型(电子表格、图像、音频等),其中很多都适合在 n 维数组中表示: 表格电子表格 电子表格或表是二维矩阵。...电子表格中每个工作表都可以是它自己变量。python 中最流行抽象是 pandas 数据,它实际上使用了 NumPy 并在其之上构建。 ? 音频时间序列 音频文件是样本一维数组。

1.8K20

图解NumPy,这是理解数组最形象一份教程了

除了能对数值数据进行切片(slice)切块(dice)之外,使用 NumPy 还能为处理调试上述库中高级实例带来极大便利。...本文将介绍使用 NumPy 一些主要方法,以及在将数据送入机器学习模型之前,它如何表示不同类型数据(表格、图像、文本等)。...矩阵聚合 我们可以像聚合向量一样聚合矩阵: ? 我们不仅可以聚合矩阵中所有,还可以使用 axis 参数执行跨行或跨列聚合: ? 转置重塑 处理矩阵时一个常见需求是旋转矩阵。...数据表示 考虑所有需要处理构建模型所需数据类型(电子表格、图像、音频等),其中很多都适合在 n 维数组中表示: 表格电子表格 电子表格或表是二维矩阵。...电子表格中每个工作表都可以是它自己变量。python 中最流行抽象是 pandas 数据,它实际上使用了 NumPy 并在其之上构建。 ? 音频时间序列 音频文件是样本一维数组。

1.9K20

pandas技巧6

本篇博文主要是对之前几篇关于pandas使用技巧小结,内容包含: 创建S型或者DF型数据,以及如何查看数据 选择特定数据 缺失处理 apply使用 合并和连接 分组groupby机制 重塑reshaping...透视表使用 ---- 创建数据 S型数据 import numpy as np import pandas as pd pd.Series([1, 3, 5, np.nan, 6, 89]) #...) 合并:最终结果是个S型数据 如何找出每一种职业平均年龄?...sort_values(ascending=False) by可以省略 # 按照职业分组,再对年龄求均值 df['age'].groupby(df['occupation']).mean() 避免层次化索引 分组聚合之后使用...reset_index() 在分组时,使用as_index=False 重塑reshaping stack:将数据旋转成行,AB由列属性变成行索引 unstack:将数据旋转成列,AB

2.6K10

数据科学学习手札99)掌握pandas时序数据分组运算

本文示例代码及文件已上传至我Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介   我们在使用pandas分析处理时间序列数据时...,经常需要对原始时间粒度下数据,按照不同时间粒度进行分组聚合运算,譬如基于每个交易日股票收盘价,计算每个月最低最高收盘价。   ...图1 2 在pandas中进行时间分组聚合   在pandas中根据具体任务场景不同,对时间序列进行分组聚合可通过以下两类方式实现: 2.1 利用resample()对时序数据进行分组聚合 resample...如果你熟悉pandasgroupby()分组运算,那么你就可以很快地理解resample()使用方式,它本质上就是在对时间序列数据进行“分组”,最基础参数为rule,用于设置按照何种方式进行重采样...图3   且resample()非常贴心之处在于它会自动帮你对齐到规整时间单位上,譬如我们这里只有交易日才会有记录,如果我们设置时间单位下对应记录,也会为你保留带有缺失记录时间点: (

1.8K20

掌握pandas时序数据分组运算

pandas分析处理时间序列数据时,经常需要对原始时间粒度下数据,按照不同时间粒度进行分组聚合运算,譬如基于每个交易日股票收盘价,计算每个月最低最高收盘价。...图1 2 在pandas中进行时间分组聚合pandas中根据具体任务场景不同,对时间序列进行分组聚合可通过以下两类方式实现: 2.1 利用resample()对时序数据进行分组聚合 resample...原始意思是「重采样」,可分为「上采样」与「下采样」,而我们通常情况下使用都是「下采样」,也就是从高频数据中按照一定规则计算出更低频数据,就像我们一开始说对每日数据按月汇总那样。...如果你熟悉pandasgroupby()分组运算,那么你就可以很快地理解resample()使用方式,它本质上就是在对时间序列数据进行“分组”,最基础参数为rule,用于设置按照何种方式进行重采样...}) ) 图3 且resample()非常贴心之处在于它会自动帮你对齐到规整时间单位上,譬如我们这里只有交易日才会有记录,如果我们设置时间单位下对应记录,也会为你保留带有缺失记录时间点:

3.3K10

如何使用 Python 分析笔记本电脑上 100 GB 数据

所有这些都被一个 pandas 类似的 API 类绑定起来,任何人都可以马上开始使用它。...一个好的开始方法是使用 describe 方法获得数据高层次概述,该方法显示每个列样本数、缺少数和数据类型。如果列数据类型是数字,则平均值、标准偏差以及最小最大也将被显示。...多年来黄色出租车公司 我们今天使用数据集跨越了 7 年。我们可以看到,随着时间推移,一些收益数量是如何演变使用 Vaex,我们可以快速执行核心分组聚合操作。...注意,在上面的代码块中,一旦我们聚合数据,小 Vaex 数据可以很容易地转换为 Pandas 数据,我们可以方便地将其传递给 Seaborn。不是想在这里重新发明轮子。...下一步是我最喜欢 Vaex 特性之一:带有选择聚合。其他库要求对以后合并为一个支付方法每个单独筛选数据进行聚合。另一方面,使用 Vaex,我们可以通过在聚合函数中提供选择来一步完成此操作。

1.2K21

开篇词 | 如何轻松玩转Pandas呢?

是的,使用 Python 可以完成很多有意思事情,无论是爬虫、数据分析、机器学习、深度学习,这些统统都可以使用 Python 来完成。...先来看看 Pandas 擅长做什么吧~ 轻松处理浮点与非浮点缺失数据 通过DataFrame或者更高维对象可以完成列增加与删除 自动显式地完成数据对齐 强大且灵活group by功能可对数据集执行拆分应用组合操作...,用于聚合转换数据 轻松将Python中ragged, differently-indexed以及numpy数据结构转为DataFrame对象 可以对大数据集上完成基于智能标签切片,花式索引子集...直观合并和连接数据集 灵活重塑和数据旋转分层标记(可能每个标记多个标签) 健壮IO操作,包括对csv文件、excel文件、数据库以及HDF5格式文件写 完成时间序列特定功能,...3教程会涵盖哪些内容 在这一系列文章里,将会涵盖 Pandas数据结构、索引操作、常用方法、缺失处理、统计方法、数据合并、数据重塑、数据转化、分组与聚合、时间序列、可视化等相关知识。

70510

ApacheCN 数据科学译文集 20211109 更新

数据清洗准备 第 8 章 数据规整:聚合、合并和重塑 第 9 章 绘图可视化 第 10 章 数据聚合与分组运算 第 11 章 时间序列 第 12 章 pandas 高级应用 第 13 章 Python...五、布尔索引 六、索引对齐 七、分组进行汇总,过滤转换 八、将数据重组为整齐表格 九、组合 Pandas 对象 十、时间序列分析 十一、Pandas,Matplotlib Seaborn 可视化...Pandas 学习手册中文第二版 零、前言 一、Pandas数据分析 二、启动运行 Pandas 三、用序列表示单变量数据 四、用数据表示表格多元数据 五、数据结构操作 六、索引数据...使用函数组织你代码 2.7 如何阅读代码 2.8 面向对象编程 三、关键编程模式 3.1 加载文件 3.2 数据 3.3 操纵可视化数据 四、用于计算优化迭代式方法 4.1 生成均匀随机数...CT 扫描压缩感知 七、线性回归健康结果 八、如何实现线性回归 九、PageRank 特征分解 十、实现 QR 分解 社交媒体挖掘 第一部分 数据挖掘 1 应了解编程语言 2

4.9K30
领券