首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

数据导入与预处理-第6章-02数据变换

等宽法 等宽法将属性值域从最小值到最大值划分成具有相同宽度区间,具体划分多少个区间由数据本身特点决定,或者由具有业务经验用户指定 等频法 等频法将相同数量值划分到每个区间,保证每个区间数量基本一致...pivot_table透视过程如下图: 假设某商店记录了5月和6月活动期间不同品牌手机促销价格,保存到以日期、商品名称、价格为标题表格中,若对该表格商品名称进行轴向旋转操作,即将商品名称一唯一值变换成索引...,将出售日期唯一值变换成行索引。...,商品一唯一数据变换为索引: # 将出售日期唯一数据变换为行索引,商品一唯一数据变换为索引 new_df = df_obj.pivot(index='出售日期', columns='商品名称...position_df 输出为: 哑变量处理, 给哑变量添加前缀: # 哑变量处理, 给哑变量添加前缀 result = pd.get_dummies(position_df, prefix

19.2K20
您找到你想要的搜索结果了吗?
是的
没有找到

Pandas入门2

image.png 5.3 DataFrame和Series之间运算 默认情况下,DataFrame和Series之间算术运算会将Series索引匹配到DataFram,然后沿着行一直向下广播...image.png 5.6 pandas聚合函数 聚合函数包括:求和,最大值,最小值,计数、均值、方差、分位数 这些聚合函数都是基于没有缺失数据情况。 ?...简单说明原因,修改原始dataframe中数据使得Mjob和Fjob变为首字母大写 函数操作不影响原数据,返回值数据要赋值给原数据,如下面代码所示: df[['Mjob','Fjob']] =...df[['Mjob','Fjob']].applymap(str.title) Step 7.创建一个名为majority函数,根据age数据返回一个布尔值添加数据,列名为 legal_drinker...image.png 7.3 Pandas时间序列 pandas通常是用于处理成组日期,不管这个日期是DataFrame轴索引还是。to_datetime方法可以解析多种不同日期表示形式。

4.1K20

Pandas 秘籍:6~11

但是,像往常一样,每当一个数据帧从另一个数据帧或序列添加一个时,索引都将在创建之前首先对齐。 准备 此秘籍使用employee数据集添加一个,其中包含该员工部门最高薪水。...为了更好地比较总统之间差异,我们创建了一个,该等于上任天数。 我们从每个主席组其余日期中减去第一个日期。...最典型地,时间在每个数据点之间平均间隔。 Pandas 在处理日期,在不同时间段内进行汇总,对不同时间段进行采样等方面具有出色功能。...了解 Python 和 Pandas 日期工具之间区别 在介绍 Pandas 之前,了解了解 Python 核心日期和时间功能可能会有所帮助。...在内部,first方法使用数据帧第一个索引元素,添加传递给它日期偏移。 然后切成片直到这个新日期

33.8K10

Python 数据分析(PYDA)第三版(五)

DataFrame 具有分层,与分别聚合每使用列名作为keys参数使用concat粘合结果时获得结果相同: In [76]: result["tip_pct"] Out[76]: count...两个datetime值之间差异(以天,秒和微秒计) tzinfo 存储时区信息基本类型 在字符串和日期时间之间转换 您可以使用str或strftime方法对datetime对象和 pandas ...pandas 通常面向处理日期数组,无论是作为轴索引还是数据框中pandas.to_datetime方法解析许多不同类型日期表示。...幸运是,pandas 具有一整套标准时间序列频率和重新采样工具(稍后在重新采样和频率转换中更详细地讨论),可以推断频率生成固定频率日期范围。...: Period('2009', 'A-DEC') 如果两个周期具有相同频率,则它们之间差异是单位之间数量作为日期偏移量: In [152]: pd.Period("2014", freq="A-DEC

6200

Pandas库常用方法、函数集合

Pandas是Python数据分析处理核心第三方库,它使用二维数组形式,类似Excel表格,封装了很多实用函数方法,让你可以轻松地对数据集进行各种操作。...qcut:和cut作用一样,不过它是将数值等间距分割 crosstab:创建交叉表,用于计算两个或多个因子之间频率 join:通过索引合并两个dataframe stack: 将数据框“堆叠”为一个层次化...计算分组累积和、最小值、最大值、累积乘积 数据清洗 dropna: 丢弃包含缺失值行或 fillna: 填充或替换缺失值 interpolate: 对缺失值进行插值 duplicated: 标记重复行...astype: 将一数据类型转换为指定类型 sort_values: 对数据框按照指定进行排序 rename: 对或行进行重命名 drop: 删除指定或行 数据可视化 pandas.DataFrame.plot.area...、趋势和季节性 pandas.plotting.parallel_coordinates:绘制平行坐标图,用于展示具有多个特征数据集中各个样本之间关系 pandas.plotting.scatter_matrix

24210

使用Plotly创建带有回归趋势线时间序列可视化图表

数据 为了说明这是如何工作,让我们假设我们有一个简单数据集,它有一个datetime和几个其他分类。您感兴趣是某一(“类型”)在一段时间内(“日期”)汇总计数。...重要是分组,然后按日期时间计数。...好一方面是,Plotly能够产生出色可视化效果,并与HTML集成。从不好是,在单图和混合图之间切换时,语法可能会非常混乱。...例如,如果您有两个不同具有时间序列数据或多个子集DataFrame,则可以继续向graph_object添加。...读取和分组数据 在下面的代码块中,一个示例CSV表被加载到一个Pandas数据框架中,列作为类型和日期。类似地,与前面一样,我们将date转换为datetime。

5.1K30

玩转数据处理120题|Pandas&R

本文精心挑选在数据处理中常见120种操作整理成习题发布。并且每一题同时给出Pandas与R语言解法,同时针对部分习题给出了多种方法与注解。...Python解法 df.head() R解法 # 默认是6行,可指定行数 head(df,5) 23 数据计算 题目:将salary数据转换为最大值与最小值平均值 难度:⭐⭐⭐⭐ 期望输出 ?...inplace=True) R解法 df <- df[,-4] # 提高可读性可采用如下代码 df % select(-c('categories')) 35 数据处理 题目:将df第一与第二合并为...salary合并为 难度:⭐⭐⭐ 备注:salary为int类型,操作与35题有所不同 Python解法 df["test1"] = df["salary"].map(str) + df['education...:计算第一与第二之间欧式距离 难度:⭐⭐⭐ 备注 不可以使用自定义函数 Python解法 np.linalg.norm(df['col1']-df['col2']) # 194.29873905921264

6K41

玩转数据处理120题|R语言版本

= max(rownames(df))) 18 数据修改 题目:添加一行数据['Perl',6.6] 难度:⭐⭐ R解法 row <- c(6.6,'Perl') # 需要和位置对应 # 或者建数据框...R解法 # 默认是6行,可指定行数 head(df,5) 23 数据计算 题目:将salary数据转换为最大值与最小值平均值 难度:⭐⭐⭐⭐ 期望输出 ?...难度:⭐ R解法 df <- df[,-4] # 提高可读性可采用如下代码 df % select(-c('categories')) 35 数据处理 题目:将df第一与第二合并为...salary合并为 难度:⭐⭐⭐ 备注:salary为int类型,操作与35题有所不同 R解法 df % mutate(test1 = paste0...计算第一与第二之间欧式距离 难度:⭐⭐⭐ 备注 不可以使用自定义函数 R语言解法 # 可以利用概念计算 res <- (df$col1 - df$col2) ^ 2 sqrt(sum(res))

8.7K10

使用R或者Python编程语言完成Excel基础操作

熟悉界面:打开Excel熟悉其界面,包括菜单栏、工具栏、功能区等。 掌握基本操作:学习如何插入、删除行/,重命名工作表,以及基本数据输入。...使用公式:学习使用Excel基本公式,如SUM、AVERAGE、VLOOKUP等,理解相对引用和绝对引用概念。 数据格式设置:了解如何设置数据格式,包括数字、货币、日期、百分比等。...data <- read.csv("path_to_file.csv") 增加:使用mutate()添加。...import pandas as pd data = pd.read_csv('path_to_file.csv') 增加:通过直接赋值增加。...Python代码 import pandas as pd # 读取数据 sales = pd.read_csv('sales_data.csv') # 将日期转换为日期类型 sales['Date

11610

玩转数据处理120题|Pandas版本

Python解法 df.head() 23 数据计算 题目:将salary数据转换为最大值与最小值平均值 难度:⭐⭐⭐⭐ 期望输出 ?...['categories'] # 等价于 df.drop(columns=['categories'], inplace=True) 35 数据处理 题目:将df第一与第二合并为 难度:...⭐⭐ Python解法 df['test'] = df['education'] + df['createTime'] 36 数据处理 题目:将education与salary合并为 难度...Python解法 df.isnull().sum() 54 缺失值处理 题目:提取日期含有空值行 难度:⭐⭐ 期望结果 ?...=True) 99 数据修改 题目:将第一大于50数字修改为'高' 难度:⭐⭐ Python解法 df.col1[df['col1'] > 50] = '高' 100 数据计算 题目:计算第一与第二之间欧式距离

7.4K40

30 个小例子帮你快速掌握Pandas

12.groupby函数 Pandas Groupby函数是一种通用且易于使用函数,有助于获得数据概览。它使探索数据集和揭示变量之间潜在关系变得更加容易。 我们将为groupby函数写几个例子。...18.插入 我们可以向DataFrame添加,如下所示: group = np.random.randint(10, size=6) df_new['Group'] = group df_new...但添加在末尾。如果要将放在特定位置,则可以使用插入函数。 df_new.insert(0, 'Group', group) df_new ?...但是,这可能会导致不必要内存使用,尤其是当分类变量基数较低时。 低基数意味着与行数相比,一具有很少唯一值。例如,Geography具有3个唯一值和10000行。...它提供了许多用于格式化和显示DataFrame选项。例如,我们可以突出显示最小值或最大值。 它还允许应用自定义样式函数。

10.6K10

一文归纳Python特征生成方法(全)

创造特征是一件十分困难事情,需要丰富专业知识和大量时间。机器学习应用本质基本上就是特征工程。...这意味着通过特征生成(即从数据设计加工出模型可用特征),是特征工程相当关键一步。 本文从特征生成作用、特征生成方法(人工设计、自动化特征生成)展开阐述附上代码。...group): return sum(group**2) df.groupby('cust_no').C1.apply(x2_sum) 3.2 转换方式 转换方式是指对字段间做加减乘除等运算生成数据特征过程...3.2.1 数值类型 加减乘除 多个字段做运算生成特征,这通常需要结合业务层面的理解以及数据分布情况,以生成较优特征集。...常用有计算日期间隔、周几、几点等等。

90720

Pandas进阶修炼120题|完整版

答案 df.head() 23 数据计算 题目:将salary数据转换为最大值与最小值平均值 难度:⭐⭐⭐⭐ 期望输出 ?...] 35 数据处理 题目:将df第一与第二合并为 难度:⭐⭐ 答案 df['test'] = df['education']+df['createTime'] 36 数据处理 题目:将...答案 data.isnull().sum() 54 缺失值处理 题目:提取日期含有空值行 难度:⭐⭐ 期望结果 ?...遇上NumPy 81 数据查看 题目:导入查看pandas与numpy版本 难度:⭐ 答案 import pandas as pd import numpy as np print(np....数字修改为'高' 难度:⭐⭐ 答案 df.col1[df['col1'] > 50]= '高' 100 数据计算 题目:计算第一与第二之间欧式距离 难度:⭐⭐⭐ 备注 不可以使用自定义函数 答案

11.6K106

30 个 Python 函数,加速你数据分析处理速度!

8.删除缺失值 处理缺失值另一个方法是删除它们。以下代码将删除具有任何缺失值行。...12.Groupby 函数 Pandas Groupby 函数是一个多功能且易于使用功能,可帮助获取数据概述。它使浏览数据集和揭示变量之间基本关系更加容易。 我们将做几个组比函数示例。...df_new.set_index('Geography') 18.插入 group = np.random.randint(10, size=6) df_new['Group'] = group 19...但是,它可能会导致不必要内存使用,尤其是当分类变量具有较低基数。 低基数意味着与行数相比几乎没有唯一值。例如,地理具有 3 个唯一值和 10000 行。...我发现使用 Pandas 创建基本绘图更容易,而不是使用其他数据可视化库。 让我们创建平衡直方图。 ? 26.减少浮点数小数点 pandas 可能会为浮点数显示过多小数点。

8.9K60

Pandas速查卡-Python数据科学

('1900/1/30', periods=df.shape[0]) 添加日期索引 查看/检查数据 df.head(n) 数据框前n行 df.tail(n) 数据框后n行 df.shape() 行数和数...加入/合并 df1.append(df2) 将df1中添加到df2末尾(数应该相同) df.concat([df1, df2],axis=1) 将df1中添加到df2末尾(行数应该相同...) df1.join(df2,on=col1,how='inner') SQL类型将df1中与df2上连接,其中col具有相同值。...df.describe() 数值汇总统计信息 df.mean() 返回所有平均值 df.corr() 查找数据框中之间相关性 df.count() 计算每个数据框非空值数量 df.max...() 查找每个最大值 df.min() 查找每最小值 df.median() 查找每中值 df.std() 查找每个标准差 点击“阅读原文”下载此速查卡打印版本 END.

9.2K80
领券