首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

DataFrame和Series的使用

df按行加载部分数据:先打印前5行数据 观察第一列 print(df.head()) 最左边一列是行号,也就是DataFrame的行索引 Pandas默认使用行号作为行索引。...loc方法传入行索引,来获取DataFrame的部分数据(一行,或多行) df.loc[0] df.loc[99] df.loc[last_row_index] iloc : 通过行号获取行数据 iloc...gpd平均值,用mean做聚合运算 也可以根据两个列分组,形成二维数据聚合 df.groupby(['continent'])['country'].nunique() df.groupby('continent...')['lifeExp'].max() # 可以使用 nunique 方法 计算Pandas Series的唯一值计数 # 可以使用 value_counts 方法来获取Pandas Series 的频数统计...df.groupby(‘continent’) → dataframeGroupby对象就是把continent取值相同的数据放到一组中 df.groupby(‘continent’)[字段] →

7110

Pandas透视表及应用

之所以称为数据透视表,是因为可以动态地改变它们的版面布置,以便按照不同方式分析数据,也可以重新安排行号、列标和页字段。每一次改变版面布置时,数据透视表会立即按照新的布置重新计算数据。...Pandas pivot_table函数介绍:pandas有两个pivot_table函数 pandas.pivot_table pandas.DataFrame.pivot_table pandas.pivot_table...pd.read_excel('data/会员信息查询.xlsx') custom_info.info() # 会员信息查询 custom_info.head() 需要按月统计注册的会员数量 # 给 会员信息表 添加年月列...实现,注册年月,会员等级,按这两个字段分组,对任意字段计数  分组之后得到的是multiIndex类型的索引,将multiIndex索引变成普通索引 custom_info.groupby(['注册年月...xlsx') all_orders=pd.read_excel('data/全国销售订单数量表.xlsx') custom_consume.head() all_orders.head()  为会员消费报表添加年月列

14510

Python Pandas PK esProc SPL,谁才是数据预处理王者?

业界有很多免费的脚本语言都适合进行数据准备工作,其中Python Pandas具有多种数据源接口和丰富的计算函数,受到众多用户的喜爱;esProc SPL作为一门较新的数据计算语言,语法灵活性和计算能力方面也很有特色...访问数据 Pandas DataFrame自带行号(从0开始)、字段号(列号)、字段名(列名),可以直接通过下标或字段名方便地访问记录: #取行号列表,index相当于行号字段名 list(df.index...指定位置插入新记录。...添加计算列。...df["Fullname"]=df["NAME"]+ " " +df["SURNAME"] Pandas没有提供添加计算列的函数,虽然实现起来问题不大,但添加多个列就要处理多次,还是比较麻烦。

3.4K20

用户画像准确性评测初探 ——拨开python大数据分析的神秘面纱

用户意图识别首要识别对用户场景,如果场景错了,后面的工作就无法关联起来。如,住酒店,是个动态场景,尝试进一步拆分成可衡量的静态场景,如,什么人(性别,工作,偏好等)?...5、pandas的数据处理 (1)数据检索处理。 (a)查询首尾; ? (b)查询某行,列; 注意:iloc、loc、ix(尽量用ix,避免搞不清楚index和行号)。 ?...df.loc[1:]可获取多行,df.loc[[1],[‘name’,’score’]]也可获取某行某列iloc:主要通过行号索引行数据。...与loc的区别,index可以定义,行号固定不变,index没有重新定义的话,index与行号相同。 ix:结合loc和iloc的混合索引。df.ix[1],df.ix[‘1’]。 ?...(b)groupby 根据某列或某几列分组,本身没有任何计算,返回,用于做分组后的数据统计,如: group_results = total_result.groupby(['lable', 'diff_value

4.5K40

Pandas之实用手册

Pandas作为大数据分析最流行的框架之一。用好Pandas就像大数据工程师用好SQL用好Excel一样重要。...本篇通过总结一些最最常用的Pandas具体场景的实战。开始实战之前。一开始我将对初次接触Pandas的同学们,一分钟介绍Pandas的主要内容。...:使用数字选择一行或多行:也可以使用列标签和行号来选择表的任何区域loc:1.3 过滤使用特定值轻松过滤行。...groupby()折叠数据集并从中发现见解。聚合是也是统计的基本工具之一。除了 sum(),pandas 还提供了多种聚合函数,包括mean()计算平均值、min()、max()和多个其他函数。...二 实战本篇起始导入pandas库,后续的pd值的是pandas库import pandas as py生成DataFrame"""making a dataframe"""df = pd.DataFrame

12410

统计师的Python日记【第十天:数据聚合】

不过我觉得这样看起来特别不美丽,可以用unstack变成透视表,这个第五天(第5天:Pandas,露两手)已经学过了: salFamGen =family['salary'].groupby([family...后面其他功能都与第一种写法类似。 这个第二种写法是第一种的语法糖,什么叫语法糖?...这里的列名还可以改,比如不想用max2这个列名,想用2*max,自定义函数的时候因为不能以数字开头所以只能写成max2,那么这里可以用(‘2*max’, max2)来改名字: family.groupby...数据透视表 第5天的日记中,提到过“数据透视表”(第5天:Pandas,露两手): ?...添加margins=True可以为透视表添加总计: ? 除了margins选项,还有其他选项可以辅助: ?

2.8K80

Pandas基础:列方向分组变形

小小明:「凹凸数据」专栏作者,Pandas数据处理高手,致力于帮助无数数据从业者解决数据处理难题。 刚才碰到一个非常简单的需求: ? 但是我发现大部分人在做这个题的时候,代码写的异常复杂。...首先读取数据: import pandas as pd df = pd.read_excel("练习.xlsx", index_col=0) df 结果: ?...groupby分组相信大部分读者都使用过,但一直都是按行分组,不过groupby不仅可以按行分组,还可以按列进行分组。...可以看到,非常简单,仅8行以内的代码已经解决这个问题,剩下的只需保存到excel时设置一下单元格格式即可,具体设置方法可以参考:Pandas指定样式保存excel数据的N种姿势 简单讲解一下吧: df.columns.str...split["年份"] = year 将年份添加后面单独的一列。 总之这个问题非常简单,相信大部分读者在看到代码后已经秒懂。

1.4K20

Python pandas对excel的操作实现示例

理解每一列都是 Series 非常重要,因为 pandas 基于 numpy,对数据的计算都是整体计算。深刻理解这个,才能理解后面要说的诸如 apply() 函数等。... Excel 中实现用的是 IF 函数,但在 pandas 中需要用到 numpy 的 where 函数: df1['category'] = np.where(df1['total'] 200000...假设我们要在 state 列后面插入一列,这一列是 state 的简称 (abbreviation)。 Excel 中,根据 state 来找到 state 的简称 ,一般用 VLOOKUP 函数。...(data=sum_row).T # 将 df_sum 添加到 df df_sum = df_sum.reindex(columns=df.columns) # append 创建一个新的 DataFrame...而在 pandas 进行分类汇总,可以使用 DataFrame 的 groupby() 函数,然后再对 groupby() 生成的 pandas.core.groupby.DataFrameGroupBy

4.4K20

Pandas三百题

2 - pandas 个性化显示设置 1.显示全部列 pd.set_option('display.max_columns',None) 2.显示指定行/列 指定让 data 预览时显示10列,7行...+列名) df.loc[10:20,'总分':] 26-筛选行|通过行号 提取第10行 df.loc[9:9] 27-筛选行|通过行号(多行) 提取第10行之后的全部行 df.loc[9:] 28-筛选行...,聚合计算时新增一列计算最大值与平均值的差值 def myfunc(x): return x.max()-x.mean() df.groupby('district').agg(最低工资=...中的时间操作 1-时间生成|当前时间 使用pandas获取当前时间 pd.Timestamp('now') Timestamp('2021-12-15 11:32:16.625393') 2-时间生成|...指定范围 使用pandas按天生成2021年1月1日至2021年9月1日的全部日期 pd.date_range('1/1/2021','9/11/2021') DatetimeIndex(['2021-

4.6K22

python数据分析——数据分类汇总与统计

假设我们有一个包含学生信息的CSV文件,我们可以使用以下代码将其加载到DataFrame中: df = pd.read_csv('student_data.csv') 加载数据后,我们可以使用pandas...关键技术: groupby函数和agg函数的联用。我们用pandas对数据进 行分组聚合的实际操作中,很多时候会同时使用groupby函数和agg函数。...关键技术:调用某对象的apply方法时,其实就是把这个对象当作参数传入到后面的匿名函数中。...关键技术:如果传给apply的函数能够接受其他参数或关键字,则可以将这些内容放在函数名后面一并传入: 【例15】apply函数中设置禁止分组键。...传入margins=True参数(添加小计/总计) ,将会添加标签为ALL的行和列。

9910

量化投资中常用python代码分析(一)

一般,最常用的交易数据存储格式是csv,但是csv有一个很大的缺点,就是无论如何,存储起来都是一个文本的格式,例如日期‘2018-01-01’,csv里面是字符串格式存储,每次read_csv的时候,...量化投资中,我们经常会使用截面数据处理和时间序列数据的处理。       所谓的截面数据处理,就是站在某一个交易日,或者某一个时间点,来考察全市场这么多股票的情况。...这样的原因是因为如果返回一个series,pandas最后整个groupby语句返回的是一个multi index 的series,index第一层是日期,第二层是返回的series的index。...groupby apply的彩蛋       groupby后面apply的函数运行过程中,第一个被groupby拆分的子dataframe会被apply后面的函数运行两次。...pandas官方说,之所以这样是第一个子dataframe传入的目的是为了寻找一个能够优化运行速度的方法,提高后面的运行效率。

1.8K20

pandas 入门2 :读取txt文件以及描述性分析

我们还将添加大量重复项,以便您不止一次看到相同的婴儿名称。你可以想到每个名字的多个条目只是全国各地的不同医院报告每个婴儿名字的出生人数。...获取数据 要读取文本文件,我们将使用pandas函数read_csv。 ? 这就把我们带到了练习的第一个问题。该read_csv功能处理的第一条记录在文本文件中的头名。...为了纠正这个问题,我们将header参数传递给read_csv函数并将其设置为None(python中表示null) ? 现在让我们看看dataframe的最后五个记录 ?...您可以将数字[0,1,2,3,4,...]视为Excel文件中的行号pandas中,这些是dataframe索引的一部分。您可以将索引视为sql表的主键,但允许索引具有重复项。...这意味着1000行需要变为5.我们可以通过使用groupby函数来完成此操作。 ? 在这里,我们可以绘制出生者列并标记图表以向最终用户显示图表上的最高点。

2.7K30
领券