首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

玩转数据处理120题|Pandas版本

解法 df.info() 27 数据查看 题目:查看数值型列汇总统计 难度:⭐ Python解法 df.describe() R解法 summary(df) 28 数据整理 题目:新增一列根据salary...['categories'] # 等价于 df.drop(columns=['categories'], inplace=True) 35 数据处理 题目:将df一列与第二列合并为一列 难度:...Python解法 df.isnull().sum() 54 缺失处理 题目:提取日期列含有空 难度:⭐⭐ 期望结果 ?...327, 328]位置有缺失 列名:"日期", 第[327, 328]位置有缺失 列名:"前收盘价(元)", 第[327, 328]位置有缺失 列名:"开盘价(元)", 第[327, 328...[df['col1'] > 50] = '高' 100 数据计算 题目:计算第一列与第二列之间欧式距离 难度:⭐⭐⭐ 备注 不可以使用自定义函数 Python解法 np.linalg.norm(df[

7.4K40

玩转数据处理120题|R语言版本

难度:⭐ R解法 df <- df[,-4] # 提高可读性可采用如下代码 df % select(-c('categories')) 35 数据处理 题目:将df一列与第二列合并为一列...R解法 colSums(is.na(df)) 54 缺失处理 题目:提取日期列含有空 难度:⭐⭐ 期望结果 ?...位置有缺失 列名:"日期", 第[327, 328]位置有缺失 列名:"前收盘价(元)", 第[327, 328]位置有缺失 列名:"开盘价(元)", 第[327, 328]位置有缺失...-操作(默认),1-列操作 how:any-只要有空就删除(默认),all-全部为空才删除 inplace:False-返回数据集(默认),True-在原数据集上操作 57 数据可视化 题目:...难度:⭐⭐ R解法 #R没有expanding完全一致函数 #考虑到expanding实际功能就是累积均值 #可以用cummean #但cummean功能和我预想不同 #可能是包之间相互干扰

8.7K10
您找到你想要的搜索结果了吗?
是的
没有找到

玩转数据处理120题|Pandas&R

inplace=True) R解法 df <- df[,-4] # 提高可读性可采用如下代码 df % select(-c('categories')) 35 数据处理 题目:将df一列与第二列合并为一列...Python解法 df.isnull().sum() R解法 colSums(is.na(df)) 54 缺失处理 题目:提取日期列含有空 难度:⭐⭐ 期望结果 ?...]位置有缺失 列名:"简称", 第[327, 328]位置有缺失 列名:"日期", 第[327, 328]位置有缺失 列名:"前收盘价(元)", 第[327, 328]位置有缺失 列名:...na.omit(df) 备注 axis:0-操作(默认),1-列操作 how:any-只要有空就删除(默认),all-全部为空才删除 inplace:False-返回数据集(默认),True...' 难度:⭐⭐ Python解法 df.col1[df['col1'] > 50] = '高' R语言解法 df[df$col1 > 50,1] <- '高' 100 数据计算 题目:计算第一列与第二列之间欧式距离

6K41

Python实现excel 14个常用操作,Vlookup、数据透视表、去重、筛选、分组等

利润一列存在于df2表格,所以想知道df1每一个订单对应利润是多少。用excel的话首先确认订单明细号是唯一,然后在df1新增一列写:=vlookup(a2,df2!...#列行数小于index行数说明有缺失,这里客户名称329<335,说明有缺失 sale.info() 需求:用0填充缺失或则删除有客户编码缺失。...若是分类变量,根据业务逻辑去填充准确性比较高。比如这里需求填充客户名称缺失:就可以根据存货分类出现频率最大存货所对应客户名称去填充。...这里我们用简单处理办法:用0填充缺失或则删除有客户编码缺失。...比如一个很简单操作:对各列求和并在最下一显示出来,excel就是对一列总一个sum()函数,然后往左一拉就解决,而python则要定义一个函数(因为python要判断格式,若非数值型数据直接报错。)

2.4K10

老板让我从几百个Excel查找数据,我用Python一分钟搞定!

一、需求说明 首先我们来看下今天需求,有一份档案记录总表Excel工作簿, 每天会根据当天日期建立新表,每天表格内包含所有档案信息,同时也有可能会添加档案名。...说白了,这个需求要求把所有日期工作表特定行都提取出来整合成一个表。...那么我们可以遍历每一张表,然后遍历第一列(名称列,也可以看作A列)每一个有数据单元格,如果单元格文字为我们需要档案名,就把这一提取出来放到表格,进一步梳理步骤为 建立一个EXCEL...工作簿 表头和档案记录Excel一样,也是名称、配置、提交日期等 遍历档案记录Excel每一张工作表sheet,再遍历第一列每一个有数据单元格,对内容进行判断 找到符合条件单元格后获取行号...,根据行号将当前表特定提取出来,并将追加新创建 分析清楚就可以着手写代码了 三、Python实现 首先导入需要库本例涉及旧表打开和创建,因此需要从openpyxl导入load_workbook

4.3K10

Pandas全景透视:解锁数据科学黄金钥匙

DataFrame一列就是Series,Series可以转化为DataFrame,调用方法函数to_frame()即可 Series 是 pandas 一种数据结构,可以看作是带有标签一维数组。...它由两部分组成:索引(Index) 和 (Values)。 索引(Index): 索引是用于标识每个元素标签,可以是整数、字符串、日期等类型数据。...具体来说,map()函数可以接受一个字典或一个函数作为参数,然后根据这个字典或函数对 Series 每个元素进行映射或转换,生成一个 Series,并返回该 Series。...定义了填充空方法, pad / ffill表示用前面/列,填充当前行/列; backfill / bfill表示用后面/列,填充当前行/列。axis:轴。....difference(index2)print("两个索引对象之间差异:")print(index_difference)运行结果两个索引对象之间差异:Int64Index([1, 2], dtype

8810

Julia数据分析入门

然后我们对每组(即每个国家)所有日期列应用一个求和函数,因此我们需要排除第一列“国家/地区”。最后,我们将结果合并到一个df。...我们df现在(在写入时)有320列。但是,我们希望一列显示日期,另一列显示我们称之为“case”。换句话说,我们要把数据帧从宽格式转换成长格式,这里就需要使用堆栈函数。...在一个图中绘制多个国家时间序列非常简单。首先创建基本块,并为每个国家添加一层。...在我们最后一个图中,我们将绘制美国每天病例。要做到这一点,我们必须计算连续天数之间差值。因此,对于时间序列第一天,这个将不可用。...savefig(joinpath(pwd(), "daily_cases_US.svg")) 总结 在本文中,我们介绍了使用Julia进行数据分析基础知识。根据经验,Julia很像python

2.7K20

Pandas进阶修炼120题|完整版

1 创建DataFrame 题目:将下面的字典创建为DataFrame data = {"grammer":["Python","C","Java","GO","R","SQL","PHP","Python...] 35 数据处理 题目:将df一列与第二列合并为一列 难度:⭐⭐ 答案 df['test'] = df['education']+df['createTime'] 36 数据处理 题目:将...答案 data.isnull().sum() 54 缺失处理 题目:提取日期列含有空 难度:⭐⭐ 期望结果 ?..., 328]位置有缺失 列名:"日期", 第[327, 328]位置有缺失 列名:"前收盘价(元)", 第[327, 328]位置有缺失 列名:"开盘价(元)", 第[327, 328]位置有缺失...(如标准正态分布)数 答案 tem = np.random.normal(0, 1, 20) df3 = pd.DataFrame(tem) 85 数据创建 题目:将df1,df2,df3按照合并为

11.7K106

Pandas进阶修炼120题,给你深度和广度船新体验

来源:早起Python 本文为你介绍Pandas基础、Pandas数据处理、金融数据处理等方面的一些习题。 Pandas 是基于 NumPy 一种数据处理工具,该工具为了解决数据分析任务而创建。...df.describe() 28.新增一列根据salary将数据分为三组 bins = [0,5000, 20000, 50000] group_names = ['低', '', '高'] df...1) df 44.生成一列new为salary列减去之前生成随机数列 df["new"] = df["salary"] - df[0] df 45.检查数据是否含有任何缺失 df.isnull...().sum() 54.提取日期列含有空 data[data['日期'].isnull()] 55.输出每列缺失具体行数 for columname in data.columns:...col3",inplace=True) 99.将第一列大于50数字修改为'高' df.col1[df['col1'] > 50]= '高' 100.计算第二列与第三列之间欧式距离 np.linalg.norm

6K31

通宵翻译Pandas官方文档,写了这份Excel万字肝货操作!

在 Pandas ,索引可以设置为一个(或多个)唯一,这就像在工作表中有一列用作标识符一样。与大多数电子表格不同,这些索引实际上可用于引用。...我们可以用多种不同方式构建一个DataFrame,但对于少量,通常将其指定为 Python 字典会很方便,其中键是列名,是数据。...在 Pandas ,您使用特殊方法从/向 Excel 文件读取和写入。 让我们首先基于上面示例数据框,创建一个 Excel 文件。 tips.to_excel("....可以以相同方式分配列。DataFrame.drop() 方法从 DataFrame 删除一列。...If/then逻辑 假设我们想要根据 total_bill 是小于还是大于 10 美元,来创建一个具有低和高列。 在Excel电子表格,可以使用条件公式进行逻辑比较。

19.5K20

python操作excel表格(xlrdxlwt)

下面分别记录python读和写excel. python读excel——xlrd 这个过程有几个比较麻烦问题,比如读取日期、读合并单元格内容。...print(sheet2.cell(1, 0).ctype) if __name__ == '__main__': read_excel() 运行结果如下: 那么问题来了,上面的运行结果红框框字段明明是出生日期...好,来解决第一个问题: 1、python读取excel单元格内容为日期方式 python读取excel单元格内容返回有5种类型,即上面例子ctype: ctype : 0 empty,...xlrd和xlwt两个模块分别用来读Excel和写Excel,只支持.xls和.xlsx格式,Python不默认包含。这两个模块之间相互独立,没有依赖关系,也就是说可以根据需要只安装其中一个。...Sheet.cell_value(r, c)根据位置获取Cell对象。 Cell.value返回单元格

2.4K10

Pandas速查手册中文版

pd.DataFrame(np.random.rand(20,5)):创建205列随机数组成DataFrame对象 pd.Series(my_list):从可迭代对象my_list创建一个Series...对象一列唯一和计数 数据选取 df[col]:根据列名,并以Series形式返回列 df[[col1, col2]]:以DataFrame形式返回多列 s.iloc[0]:按位置选取数据 s.loc...():删除所有包含空 df.dropna(axis=1):删除所有包含空列 df.dropna(axis=1,thresh=n):删除所有小于n个非空 df.fillna(x):用x替换...1):对DataFrame每一应用函数np.max 数据合并 df1.append(df2):将df2添加到df1尾部 df.concat([df1, df2],axis=1):将df2列添加到...():返回所有列均值 df.corr():返回列与列之间相关系数 df.count():返回每一列非空个数 df.max():返回每一列最大 df.min():返回每一列最小 df.median

12.1K92

数据分析小案例(二):面包是不是变轻了(python

400g,根据数据判断,面包分量到底有没有变轻?)...模拟实验与分析 将数据存储为csv格式,其中每个观测对象(各个面包)占一,测定变量(购买日期和面包重量)排成一列。将数据导入python。...,那么检验面包是否变轻,就要用样本标准差来检查样本平均值和总体平均值之间是否存在矛盾,即均值差异检验。...均值差异检验(t检验) 零假设 样本均值与总体均值差异在误差范围内,即面包没有变轻 备择假设 样本均值与总体均值差异超出了误差范围,即面包变轻 概率不足显著性水平(5%) 否定零假设...均值差异检验:本例中指分析了30个面包平均重量与面包店宣传平均重量之间是否存在实质性差异。如果概率小于显著性水平(一般为5%),则认为存在显著差异。 ---- 机器学习养成记

96190

❤️ 爆肝3天!两万字图文 SQL 零基础入门,不怕你学不会,就怕你不收藏!❤️

SQL 面向数据库执行查询 SQL 可从数据库取回数据 SQL 可在数据库插入记录 SQL 可更新数据库数据 SQL 可从数据库删除记录 SQL 可创建数据库 SQL 可在数据库创建表...JOIN – 多表关联 JOIN 用于根据两个或多个表之间关系,从这些表查询数据。 有时为了得到完整结果,我们需要从两个或更多获取结果。我们就需要执行 join。...类型,以及它们之间差异。...MAX – 最大 MAX 函数返回一列最大。NULL 不包括在计算。...MIN – 最小 MIN 函数返回一列最小。NULL 不包括在计算

8.3K10

特征工程入门:应该保留和去掉那些特征

因此,如果我们看到这种情况,我们不需要列Phone,因为这一列数据已经出现在其他列,并且在这种情况下,分割数据比聚合数据更好。 还有另一列没有向“数据集-内存”规模添加任何。...结合几个特性来创建特性 这意味着我们可以使用2-3个特征或者,然后创建一个特征来更好地解释数据。...这一点很重要,因为大多数机器学习算法都是逐行查看数据,除非我们在同一没有前几天记录,否则模型将无法有效地在当前和以前日期记录之间创建模式。...分类转换技术(替换、单热编码、标签编码等)——这些技术用于将分类特性转换为各自数字编码,因为有些算法(如xgboost)不能识别分类特性。正确技术取决于每列类别数量、分类列数量等等。...我们可以使用各种panda函数手动创建这些列。除此之外,还有一个名为FeatureTools包,可以通过结合不同级别的数据集来创建列。 ?

1K10

Python数据分析实战基础 | 初识Pandas

03 创建、读取和存储 1、创建 在Pandas我们想要构造下面这一张表应该如何操作呢? ?...其中count是统计每一列有多少个非空数值,mean、std、min、max对应分别是该列均值、标准差、最小和最大,25%、50%、75%对应则是分位数。...1、增 增加一列,用df['列名'] = 形式,在原数据基础上赋值即可: ?...只需要选中访客数所在列,然后加上10000即可,pandas自动将10000和每一数值相加,针对单个其他运算(减乘除)也是如此。 列之间运算语句也非常简洁。...在实际业务,一些时候PANDAS会把文件中日期格式字段读取为字符串格式,这里我们先把字符串'2019-8-3'赋值给新增日期列,然后用to_datetime()函数将字符串类型转换成时间格式: ?

2K12

Python数据分析实战基础 | 初识Pandas

03 创建、读取和存储 1、创建 在Pandas我们想要构造下面这一张表应该如何操作呢? ?...其中count是统计每一列有多少个非空数值,mean、std、min、max对应分别是该列均值、标准差、最小和最大,25%、50%、75%对应则是分位数。...1、增 增加一列,用df['列名'] = 形式,在原数据基础上赋值即可: ?...只需要选中访客数所在列,然后加上10000即可,pandas自动将10000和每一数值相加,针对单个其他运算(减乘除)也是如此。 列之间运算语句也非常简洁。...在实际业务,一些时候PANDAS会把文件中日期格式字段读取为字符串格式,这里我们先把字符串'2019-8-3'赋值给新增日期列,然后用to_datetime()函数将字符串类型转换成时间格式: ?

1.4K40

Python数据分析实战基础 | 初识Pandas

03 创建、读取和存储 1、创建 在Pandas我们想要构造下面这一张表应该如何操作呢? ?...1、增 增加一列,用df['列名'] = 形式,在原数据基础上赋值即可: ?...只需要选中访客数所在列,然后加上10000即可,pandas自动将10000和每一数值相加,针对单个其他运算(减乘除)也是如此。 列之间运算语句也非常简洁。...以案例数据为例,我们这些渠道数据,是在2019年8月2日提取,后面可能涉及到其他日期渠道数据,所以需要加一列时间予以区分,在EXCEL中常用时间格式是'2019-8-3'或者'2019/8/3',...在实际业务,一些时候PANDAS会把文件中日期格式字段读取为字符串格式,这里我们先把字符串'2019-8-3'赋值给新增日期列,然后用to_datetime()函数将字符串类型转换成时间格式: ?

1.8K30
领券