首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

玩转数据处理120题|Pandas版本

解法 df.info() 27 数据查看 题目:查看数值型列的汇总统计 难度:⭐ Python解法 df.describe() R解法 summary(df) 28 数据整理 题目:新增一列根据salary...['categories'] # 等价于 df.drop(columns=['categories'], inplace=True) 35 数据处理 题目:将df的第一列与第二列合并为新的一列 难度:...Python解法 df.isnull().sum() 54 缺失值处理 题目:提取日期列含有空值的行 难度:⭐⭐ 期望结果 ?...327, 328]行位置有缺失值 列名:"日期", 第[327, 328]行位置有缺失值 列名:"前收盘价(元)", 第[327, 328]行位置有缺失值 列名:"开盘价(元)", 第[327, 328...[df['col1'] > 50] = '高' 100 数据计算 题目:计算第一列与第二列之间的欧式距离 难度:⭐⭐⭐ 备注 不可以使用自定义函数 Python解法 np.linalg.norm(df[

7.6K41

玩转数据处理120题|R语言版本

难度:⭐ R解法 df <- df[,-4] # 提高可读性可采用如下代码 df % select(-c('categories')) 35 数据处理 题目:将df的第一列与第二列合并为新的一列...R解法 colSums(is.na(df)) 54 缺失值处理 题目:提取日期列含有空值的行 难度:⭐⭐ 期望结果 ?...行位置有缺失值 列名:"日期", 第[327, 328]行位置有缺失值 列名:"前收盘价(元)", 第[327, 328]行位置有缺失值 列名:"开盘价(元)", 第[327, 328]行位置有缺失值...-行操作(默认),1-列操作 how:any-只要有空值就删除(默认),all-全部为空值才删除 inplace:False-返回新的数据集(默认),True-在原数据集上操作 57 数据可视化 题目:...难度:⭐⭐ R解法 #R中没有expanding完全一致的函数 #考虑到expanding实际功能就是累积均值 #可以用cummean #但cummean的功能和我预想的不同 #可能是包之间相互干扰

8.9K10
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    玩转数据处理120题|Pandas&R

    inplace=True) R解法 df <- df[,-4] # 提高可读性可采用如下代码 df % select(-c('categories')) 35 数据处理 题目:将df的第一列与第二列合并为新的一列...Python解法 df.isnull().sum() R解法 colSums(is.na(df)) 54 缺失值处理 题目:提取日期列含有空值的行 难度:⭐⭐ 期望结果 ?...]行位置有缺失值 列名:"简称", 第[327, 328]行位置有缺失值 列名:"日期", 第[327, 328]行位置有缺失值 列名:"前收盘价(元)", 第[327, 328]行位置有缺失值 列名:...na.omit(df) 备注 axis:0-行操作(默认),1-列操作 how:any-只要有空值就删除(默认),all-全部为空值才删除 inplace:False-返回新的数据集(默认),True...' 难度:⭐⭐ Python解法 df.col1[df['col1'] > 50] = '高' R语言解法 df[df$col1 > 50,1] <- '高' 100 数据计算 题目:计算第一列与第二列之间的欧式距离

    6.1K41

    用Python实现excel 14个常用操作,Vlookup、数据透视表、去重、筛选、分组等

    利润一列存在于df2的表格中,所以想知道df1的每一个订单对应的利润是多少。用excel的话首先确认订单明细号是唯一值,然后在df1新增一列写:=vlookup(a2,df2!...#列的行数小于index的行数的说明有缺失值,这里客户名称329值 sale.info() 需求:用0填充缺失值或则删除有客户编码缺失值的行。...若是分类变量,根据业务逻辑去填充准确性比较高。比如这里的需求填充客户名称缺失值:就可以根据存货分类出现频率最大的存货所对应的客户名称去填充。...这里我们用简单的处理办法:用0填充缺失值或则删除有客户编码缺失值的行。...比如一个很简单的操作:对各列求和并在最下一行显示出来,excel就是对一列总一个sum()函数,然后往左一拉就解决,而python则要定义一个函数(因为python要判断格式,若非数值型数据直接报错。)

    2.7K10

    老板让我从几百个Excel中查找数据,我用Python一分钟搞定!

    一、需求说明 首先我们来看下今天的需求,有一份档案记录总表的Excel工作簿, 每天会根据当天日期建立新表,每天的表格内包含所有档案信息,同时也有可能会添加新的档案名。...说白了,这个需求要求把所有日期工作表中的特定行都提取出来整合成一个新表。...那么我们可以遍历每一张表,然后遍历第一列(名称列,也可以看作A列)每一个有数据的单元格,如果单元格中的文字为我们需要的档案名,就把这一行提取出来放到新的表格中,进一步梳理步骤为 建立一个新的EXCEL...工作簿 新表的表头和档案记录Excel中的一样,也是名称、配置、提交日期等 遍历档案记录Excel的每一张工作表sheet,再遍历第一列每一个有数据的单元格,对内容进行判断 找到符合条件的单元格后获取行号...,根据行号将当前表中的特定行提取出来,并将行追加新创建的表中 分析清楚就可以着手写代码了 三、Python实现 首先导入需要的库本例中涉及旧表的打开和新表的创建,因此需要从openpyxl导入load_workbook

    4.6K10

    Pandas全景透视:解锁数据科学的黄金钥匙

    DataFrame的一列就是Series,Series可以转化为DataFrame,调用方法函数to_frame()即可 Series 是 pandas 中的一种数据结构,可以看作是带有标签的一维数组。...它由两部分组成:索引(Index) 和 值(Values)。 索引(Index): 索引是用于标识每个元素的标签,可以是整数、字符串、日期等类型的数据。...具体来说,map()函数可以接受一个字典或一个函数作为参数,然后根据这个字典或函数对 Series 中的每个元素进行映射或转换,生成一个新的 Series,并返回该 Series。...定义了填充空值的方法, pad / ffill表示用前面行/列的值,填充当前行/列的空值; backfill / bfill表示用后面行/列的值,填充当前行/列的空值。axis:轴。....difference(index2)print("两个索引对象之间的差异:")print(index_difference)运行结果两个索引对象之间的差异:Int64Index([1, 2], dtype

    11710

    Julia中的数据分析入门

    然后我们对每组(即每个国家)的所有日期列应用一个求和函数,因此我们需要排除第一列“国家/地区”。最后,我们将结果合并到一个df中。...我们的df现在(在写入时)有320列。但是,我们希望一列显示日期,另一列显示我们称之为“case”的值。换句话说,我们要把数据帧从宽格式转换成长格式,这里就需要使用堆栈函数。...在一个图中绘制多个国家的时间序列非常简单。首先创建基本块,并为每个国家添加一层。...在我们的最后一个图中,我们将绘制美国每天的新病例。要做到这一点,我们必须计算连续天数之间的差值。因此,对于时间序列的第一天,这个值将不可用。...savefig(joinpath(pwd(), "daily_cases_US.svg")) 总结 在本文中,我们介绍了使用Julia进行数据分析的基础知识。根据我的经验,Julia很像python。

    2.8K20

    Pandas进阶修炼120题|完整版

    1 创建DataFrame 题目:将下面的字典创建为DataFrame data = {"grammer":["Python","C","Java","GO","R","SQL","PHP","Python...] 35 数据处理 题目:将df的第一列与第二列合并为新的一列 难度:⭐⭐ 答案 df['test'] = df['education']+df['createTime'] 36 数据处理 题目:将...答案 data.isnull().sum() 54 缺失值处理 题目:提取日期列含有空值的行 难度:⭐⭐ 期望结果 ?..., 328]行位置有缺失值 列名:"日期", 第[327, 328]行位置有缺失值 列名:"前收盘价(元)", 第[327, 328]行位置有缺失值 列名:"开盘价(元)", 第[327, 328]行位置有缺失值...(如标准正态分布)的数 答案 tem = np.random.normal(0, 1, 20) df3 = pd.DataFrame(tem) 85 数据创建 题目:将df1,df2,df3按照行合并为新

    12.7K106

    Pandas进阶修炼120题,给你深度和广度的船新体验

    来源:早起Python 本文为你介绍Pandas基础、Pandas数据处理、金融数据处理等方面的一些习题。 Pandas 是基于 NumPy 的一种数据处理工具,该工具为了解决数据分析任务而创建。...df.describe() 28.新增一列根据salary将数据分为三组 bins = [0,5000, 20000, 50000] group_names = ['低', '中', '高'] df...1) df 44.生成新的一列new为salary列减去之前生成随机数列 df["new"] = df["salary"] - df[0] df 45.检查数据中是否含有任何缺失值 df.isnull...().sum() 54.提取日期列含有空值的行 data[data['日期'].isnull()] 55.输出每列缺失值具体行数 for columname in data.columns:...col3",inplace=True) 99.将第一列大于50的数字修改为'高' df.col1[df['col1'] > 50]= '高' 100.计算第二列与第三列之间的欧式距离 np.linalg.norm

    6.2K31

    pandas

    1961/1/8 0:00:00 4.pandas中series与DataFrame区别 Series是带索引的一维数组 Series对象的两个重要属性是:index(索引)和value(数据值)...DataFrame的任意一行或者一列就是一个Series对象 创建Series对象:pd.Series(data,index=index)   其中data可以是很多类型: 一个列表----------...periods=6), "age":np.arange(6)}) print(df) df["date"] = df["date"].dt.date #将date列中的日期转换为没有时分秒的日期...df.to_excel("dates.xlsx") 向pandas中插入数据 如果想忽略行索引插入,又不想缺失数据与添加NaN值,建议使用 df['column_name'].values得出的是...ndarray类型的值,后面的操作就不会限制于索引了 # waterlevel_data_trainx.values是一维数组 new_df['新列名'] = waterlevel_data_trainx.values

    13010

    通宵翻译Pandas官方文档,写了这份Excel万字肝货操作!

    在 Pandas 中,索引可以设置为一个(或多个)唯一值,这就像在工作表中有一列用作行标识符一样。与大多数电子表格不同,这些索引值实际上可用于引用行。...我们可以用多种不同的方式构建一个DataFrame,但对于少量的值,通常将其指定为 Python 字典会很方便,其中键是列名,值是数据。...在 Pandas 中,您使用特殊方法从/向 Excel 文件读取和写入。 让我们首先基于上面示例中的数据框,创建一个新的 Excel 文件。 tips.to_excel("....可以以相同的方式分配新列。DataFrame.drop() 方法从 DataFrame 中删除一列。...If/then逻辑 假设我们想要根据 total_bill 是小于还是大于 10 美元,来创建一个具有低值和高值的列。 在Excel电子表格中,可以使用条件公式进行逻辑比较。

    19.6K20

    python操作excel表格(xlrdxlwt)

    下面分别记录python读和写excel. python读excel——xlrd 这个过程有几个比较麻烦的问题,比如读取日期、读合并单元格内容。...print(sheet2.cell(1, 0).ctype) if __name__ == '__main__': read_excel() 运行结果如下: 那么问题来了,上面的运行结果中红框框中的字段明明是出生日期...好的,来解决第一个问题: 1、python读取excel中单元格内容为日期的方式 python读取excel中单元格的内容返回的有5种类型,即上面例子中的ctype: ctype : 0 empty,...xlrd和xlwt两个模块分别用来读Excel和写Excel,只支持.xls和.xlsx格式,Python不默认包含。这两个模块之间相互独立,没有依赖关系,也就是说可以根据需要只安装其中一个。...Sheet.cell_value(r, c)根据位置获取Cell对象的值。 Cell.value返回单元格的值。

    2.5K10

    Pandas速查手册中文版

    pd.DataFrame(np.random.rand(20,5)):创建20行5列的随机数组成的DataFrame对象 pd.Series(my_list):从可迭代对象my_list创建一个Series...对象中每一列的唯一值和计数 数据选取 df[col]:根据列名,并以Series的形式返回列 df[[col1, col2]]:以DataFrame形式返回多列 s.iloc[0]:按位置选取数据 s.loc...():删除所有包含空值的行 df.dropna(axis=1):删除所有包含空值的列 df.dropna(axis=1,thresh=n):删除所有小于n个非空值的行 df.fillna(x):用x替换...1):对DataFrame中的每一行应用函数np.max 数据合并 df1.append(df2):将df2中的行添加到df1的尾部 df.concat([df1, df2],axis=1):将df2中的列添加到...():返回所有列的均值 df.corr():返回列与列之间的相关系数 df.count():返回每一列中的非空值的个数 df.max():返回每一列的最大值 df.min():返回每一列的最小值 df.median

    12.2K92

    数据分析小案例(二):面包是不是变轻了(python)

    400g,根据数据判断,面包的分量到底有没有变轻?)...模拟实验与分析 将数据存储为csv格式,其中每个观测对象(各个面包)占一行,测定的变量(购买日期和面包重量)排成一列。将数据导入python。...,那么检验面包是否变轻,就要用样本的标准差来检查样本平均值和总体平均值之间是否存在矛盾,即均值差异检验。...均值差异检验(t检验) 零假设 样本均值与总体均值的差异在误差范围内,即面包没有变轻 备择假设 样本均值与总体均值的差异超出了误差范围,即面包变轻 概率不足显著性水平(5%) 否定零假设...均值差异检验:本例中指分析了30个面包的平均重量与面包店宣传的平均重量之间是否存在实质性差异。如果概率小于显著性水平(一般为5%),则认为存在显著差异。 ---- 机器学习养成记

    99290

    ❤️ 爆肝3天!两万字图文 SQL 零基础入门,不怕你学不会,就怕你不收藏!❤️

    SQL 面向数据库执行查询 SQL 可从数据库取回数据 SQL 可在数据库中插入新的记录 SQL 可更新数据库中的数据 SQL 可从数据库删除记录 SQL 可创建新数据库 SQL 可在数据库中创建新表...JOIN – 多表关联 JOIN 用于根据两个或多个表中的列之间的关系,从这些表中查询数据。 有时为了得到完整的结果,我们需要从两个或更多的表中获取结果。我们就需要执行 join。...类型,以及它们之间的差异。...MAX – 最大值 MAX 函数返回一列中的最大值。NULL 值不包括在计算中。...MIN – 最小值 MIN 函数返回一列中的最小值。NULL 值不包括在计算中。

    8.4K11

    Python数据分析实战基础 | 初识Pandas

    03 创建、读取和存储 1、创建 在Pandas中我们想要构造下面这一张表应该如何操作呢? ?...其中count是统计每一列的有多少个非空数值,mean、std、min、max对应的分别是该列的均值、标准差、最小值和最大值,25%、50%、75%对应的则是分位数。...1、增 增加一列,用df['新列名'] = 新列值的形式,在原数据基础上赋值即可: ?...只需要选中访客数所在列,然后加上10000即可,pandas自动将10000和每一行数值相加,针对单个值的其他运算(减乘除)也是如此。 列之间的运算语句也非常简洁。...在实际业务中,一些时候PANDAS会把文件中日期格式的字段读取为字符串格式,这里我们先把字符串'2019-8-3'赋值给新增的日期列,然后用to_datetime()函数将字符串类型转换成时间格式: ?

    1.4K40

    Pandas数据应用:库存管理

    Pandas作为Python中强大的数据分析工具,在处理库存管理相关问题时具有极大的优势。本文将由浅入深地介绍Pandas在库存管理中的常见问题、常见报错及如何避免或解决,并通过代码案例进行解释。...例如:# 假设有一列名为'date'的日期数据,格式不统一df['date'] = pd.to_datetime(df['date'])# 假设有一列名为'price'的价格数据,存在非数值字符df['...如果不处理缺失值,可能会导致错误的分析结果。可以使用df.isnull()来检测缺失值,使用df.dropna()删除含有缺失值的行或者df.fillna()填充缺失值。...例如:# 检测缺失值missing_values = df.isnull().sum()print(missing_values)# 删除含有缺失值的行df_cleaned = df.dropna()#...()(三)数据查询与筛选简单条件查询在库存管理中,经常需要根据特定条件查询库存信息,如查询库存数量小于10的商品。

    12110

    Python数据分析实战基础 | 初识Pandas

    03 创建、读取和存储 1、创建 在Pandas中我们想要构造下面这一张表应该如何操作呢? ?...其中count是统计每一列的有多少个非空数值,mean、std、min、max对应的分别是该列的均值、标准差、最小值和最大值,25%、50%、75%对应的则是分位数。...1、增 增加一列,用df['新列名'] = 新列值的形式,在原数据基础上赋值即可: ?...只需要选中访客数所在列,然后加上10000即可,pandas自动将10000和每一行数值相加,针对单个值的其他运算(减乘除)也是如此。 列之间的运算语句也非常简洁。...在实际业务中,一些时候PANDAS会把文件中日期格式的字段读取为字符串格式,这里我们先把字符串'2019-8-3'赋值给新增的日期列,然后用to_datetime()函数将字符串类型转换成时间格式: ?

    2K12
    领券