首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

《Pandas Cookbook》第04章 选取数据子集1. 选取Series数据2. 选取DataFrame3. 同时选取DataFrame4. 用整数和标签选取数据5. 快速选取标量6

选取Series数据 # 读取college数据集,查看CITY的前5 In[2]: college = pd.read_csv('data/college.csv', index_col='INSTNM...选取DataFrame # 还是读取college数据集 In[14]: college = pd.read_csv('data/college.csv', index_col='INSTNM')...同时选取DataFrame # 读取college数据集,给索引命名为INSTNM;选取前3和前4 In[23]: college = pd.read_csv('data/college.csv...惰性行切片 # 读取college数据集;索引10到20,每隔一个取一 In[50]: college = pd.read_csv('data/college.csv', index_col='...只能用于DataFrame和Series,也不能同时选取

3.5K10

媲美Pandas?Python的Datatable包怎么用?

整个文件共包含226万和145数据数据量规模非常适合演示 datatable 包的功能。...Frame 对象中,datatable 的基本分析单位是 Frame,这与Pandas DataFrame 或 SQL table 的概念是相同的:即数据的二维数组排列展示。...诸如矩阵索引,C/C++,R,Pandas,Numpy 中都使用相同的 DT[ij] 的数学表示法。下面来看看如何使用 datatable 来进行一些常见的数据处理工作。 ?...▌选择/的子集 下面的代码能够整个数据集中筛选出所有及 funded_amnt : datatable_df[:,'funded_amnt'] ?...下面来看看如何在 datatable 和 Pandas 中,通过对 grade 分组来得到 funded_amout 的均值: datatable 分组 %%time for i in range(100

7.2K10
您找到你想要的搜索结果了吗?
是的
没有找到

媲美Pandas?Python的Datatable包怎么用?

整个文件共包含226万和145数据数据量规模非常适合演示 datatable 包的功能。...对象中,datatable 的基本分析单位是 Frame,这与Pandas DataFrame 或 SQL table 的概念是相同的:即数据的二维数组排列展示。...诸如矩阵索引,C/C++,R,Pandas,Numpy 中都使用相同的 DT[ij] 的数学表示法。下面来看看如何使用 datatable 来进行一些常见的数据处理工作。 ?...▌选择/的子集 下面的代码能够整个数据集中筛选出所有及 funded_amnt : datatable_df[:,'funded_amnt'] ?...下面来看看如何在 datatable 和 Pandas 中,通过对 grade 分组来得到 funded_amout 的均值: datatable 分组 %%timefor i in range(100

6.7K30

媲美Pandas?一文入门Python的Datatable操作

整个文件共包含226万和145数据数据量规模非常适合演示 datatable 包的功能。...对象中,datatable 的基本分析单位是 Frame,这与Pandas DataFrame 或 SQL table 的概念是相同的:即数据的二维数组排列展示。...诸如矩阵索引,C/C++,R,Pandas,Numpy 中都使用相同的 DT[ij] 的数学表示法。下面来看看如何使用 datatable 来进行一些常见的数据处理工作。 ?...▌选择/的子集 下面的代码能够整个数据集中筛选出所有及 funded_amnt : datatable_df[:,'funded_amnt'] ?...下面来看看如何在 datatable 和 Pandas 中,通过对 grade 分组来得到 funded_amout 的均值: datatable 分组 %%timefor i in range(100

7.5K50

Python数据分析之pandas数据选取

Dataframe中选取数据大抵包括3中情况: 1)选取(单维度选取):df[]。这种情况一次只能选取或者,即一次选取中,只能为或者设置筛选条件(只能为一个维度设置筛选条件)。...Dataframe对象的有索引(index),默认情况下是[0,1,2,……]的整数序列,也可以自定义添加另外的索引,例如上面的labels,(为区分默认索引和自定义的索引,在本文中将默认索引称为整数索引...: name, dtype: object 3 区域选取 区域选取可以多个维度()对数据进行筛选,可以通过df.loc[],df.iloc[],df.ix[]三种方法实现。...37.0 1 j Even 32.0 0 3)同时选取 选取第2的第1、第3、第4 >>> df.iloc[1, [0,2,3]] name...选取第3的name数据 >>> df.ix[2,'name'] 'Jack' 选取a、c的第1,第2和第4数据 >>> df.ix[['a','c'], [0,1,3]] name

2.8K31

Python数据分析之pandas数据选取

Dataframe中选取数据大抵包括3中情况: 1)选取(单维度选取):df[]。这种情况一次只能选取或者,即一次选取中,只能为或者设置筛选条件(只能为一个维度设置筛选条件)。...Dataframe对象的有索引(index),默认情况下是[0,1,2,……]的整数序列,也可以自定义添加另外的索引,例如上面的labels,(为区分默认索引和自定义的索引,在本文中将默认索引称为整数索引...: name, dtype: object 3 区域选取 区域选取可以多个维度()对数据进行筛选,可以通过df.loc[],df.iloc[],df.ix[]三种方法实现。...37.0 1 j Even 32.0 0 3)同时选取 选取第2的第1、第3、第4 >>> df.iloc[1, [0,2,3]] name...选取第3的name数据 >>> df.ix[2,'name'] 'Jack' 选取a、c的第1,第2和第4数据 >>> df.ix[['a','c'], [0,1,3]] name

1.6K30

盘一盘 Python 系列 4 - Pandas (下)

变成 c2i_Series 时,df 的索引 c 加在其索引 r 后面得到 [r, c] 做为 c2i_Series 的多层索引 当用 unstack 将 df 变成 i2c_Series 时,...c2i_Series.unstack() c2i_Series 的最后一层 (看上面它的 MultiIndex) 就是 [行业, 价格, 交易量],索引转成索引得到上面的 DataFrame。...],索引转成索引得到上面的 DataFrame。...] 再被 stack(1) 之后变成 () 索引 = [r2, r1] 索引 = c 重塑后的 DataFrame 这时行索引有两层,第一层是代号,第二层是地区,而索引只有一层 (特征)...] 再被 stack(1) 之后变成 () 索引 = [r1, r2] 索引 = c 重塑后的 DataFrame 这时行索引有两层,第一层是地区,第二层是特征,而索引只有一层 (代号)

4.8K40

如何用Python将时间序列转换为监督学习问题

t 0 0 1 1 2 2 3 3 4 4 5 5 6 6 7 7 8 8 9 9 通过在观测值的数据中插入新的一,我们可以将上面展示的观测值位置下移一格,由于新加的一并没有数据...忽略标签,第一数据由于存在NaN值应当被丢弃。第二来看,输入数据0.0位于第二(X),输出数据1位于第一(y)。...新的数据集将被构造为DataFrame,每一根据变量的编号以及该左移或右移的步长来命名。这允许你给定的单变量或多变量序列上设定不同的时移步长来尝试解决当前的时间序列问题。...上面的函数定义了每的默认名,所以你可以在返回数据上直接调用,t-1 命名的(X)可以作为输入,t 命名的可以作为输出(y)。 该函数同时兼容Python 2和Python 3。...除此之外,具有NaN值的已经DataFrame中自动删除。 我们可以指定任意长度的输入序列(3)来重复这个例子。

24.7K2110

创建DataFrame:10种方式任你选!

数据,发现什么也没有输出;但是通过type()函数检查发现:数据DataFrame类型 [008i3skNgy1gqfh1i23a1j30kg09qwf7.jpg] 2、创建一个数值为NaN的数据 df0...= pd.DataFrame( columns=['A','B','C'], # 指定属性 index=[0,1,2] # 指定索引 ) df0 [008i3skNgy1gqfh54td30j30ei076mxa.jpg...] 改变数据索引: df0 = pd.DataFrame( columns=['A','B','C'], index=[1,2,3] # 改变索引:1开始 ) df0 [008i3skNgy1gqfh6k5lblj30wm0dsdh8...( data2, # 传入数据 columns=["姓名","出生地","身高"], # 属性 index=[0,1,2,3] # 索引 ) df17 [008i3skNgy1gqfjx36rvpj30hs08wgm3...希望本文能够对读者朋友掌握数据DataFrame的创建有所帮助。 下一篇文章的预告:如何在DataFrame中查找满足我们需求的数据

4.6K30

数据科学学习手札06)Python在数据框操作上的总结(初级篇)

数据框(Dataframe)作为一种十分标准的数据结构,是数据分析中最常用的数据结构,在Python和R中各有对数据框的不同定义和操作。...(1,10) for i in range(10)] c = ['a','b','c','d','e','f','g','h','i','j'] data = pd.DataFrame({'a':a,'...2.数据框内容的索引 方式1: 直接通过的名称调取数据框的中 data['c'][2] ?...3.数据框的拼接操作 pd.concat()方法: pd.cancat()的相关参数: objs:要进行拼接的数据框名称构成的列表,[dataframe1,dataframe2] axis:按向下拼接...,默认不放回,即False weights:根据axis的方向来定义该方向上的各行或的入样概率,长度需与对应的数目相等,当权重之和不为0时,会自动映射为和为1 a = [i for i in range

14.2K51

python下的Pandas中DataFrame基本操作(二),DataFrame、dict、array构造简析

DataFrame简介:   DataFrame是一个表格型的数据结构,它含有一组有序的,每可以是不同的值类型(数值、字符串、布尔值等)。...DataFrame既有索引也有索引,它可以被看做由Series组成的字典(共用同一个索引)。...跟其他类似的数据结构相比(R的data.frame),DataFrame中面向和面向的操作基本上是平衡的。...(s) array([[1, 2],      [3, 4]]) >>> pd.DataFrame(np.array(s)) 0 1 0 1 2 1 3 4  当然了你也可以主动指定索引...one 1 2 two 3 4 4:Python中将列表转换成为数据框有两种情况:第一种是两个不同列表转换成一个数据框,第二种是一个包含不同子列表的列表转换成为数据

4.3K30

实战 | 如何制作数据报表并实现自动化?

,因为 append()方法默认是1 开始插入的,而我们前面几行已经有 df_view 表的数据了,所以就不能用 append()方法插入,而只能通过遍历每一个单元格的方式。...遍历开始的 = df_view 表占据的 + 留白的(一般表与表之间留 2 ) + 1 遍历结束的 = 遍历开始的 + df_province 表占据的 遍历开始的 = 1 遍历结束的...因为 range()函数默认是 0 开始的,而 Excel 中的 1 开始的,所以 column需要加 1。...[0] + 6 + i,column = 1 + j).value = df_province.iloc[i,j] 接下来,插入图片,插入图片的方式与前面的单独插入方法是一致的,具体代码如下。...= df_province.columns[r] #再把具体的值插入 #先遍历 for i in range(df_province.shape[0]): #再遍历 for j in range

1.6K30

【疑惑】如何 Spark 的 DataFrame 中取出具体某一

如何 Spark 的 DataFrame 中取出具体某一?...我们可以明确一个前提:Spark 中 DataFrame 是 RDD 的扩展,限于其分布式与弹性内存特性,我们没法直接进行类似 df.iloc(r, c) 的操作来取出其某一。...但是现在我有个需求,分箱,具体来讲,需要『排序后遍历每一及其邻居比如 ii+j』,因此,我们必须能够获取数据的某一! 不知道有没有高手有好的方法?我只想到了以下几招!...我的数据2e5 * 2e4 这么多,因此 select 后只剩一大小为 2e5 * 1 ,还是可以 collect 的。 这显然不是个好方法!因为无法处理真正的大数据,比如很多时。...给每一加索引0开始计数,然后把矩阵转置,新的列名就用索引来做。 之后再取第 i 个数,就 df(i.toString) 就行。 这个方法似乎靠谱。

4K30

五花八门的Pandas取数(上)

公众号:尤而小屋 作者:Peter 编辑:Peter Pandas系列_DataFrame数据筛选(上) 本文介绍的是如何在pandas进行数据的筛选和查看。...类型数据创建 2、10种方式创建DataFrame类型数据 3、一切爆炸函数开始 模拟数据 本文中各种例子基于一份模拟数据展开,在创建数据的时候引入了部分缺失值,通过numpy库来生成: import...: [008i3skNgy1gqnu8ehs2wj30u00zlqmj.jpg] 查看头尾数据 查看头尾数据,使用的是head和tail方法: head 该方法默认是前5 [008i3skNgy1gqnqbsvlfpj30ry0dcdhe.jpg....jpg] 随机筛选 使用的是sample方法,默认是查看一数据,也可以指定查看多少: [008i3skNgy1gqnqg5wbc6j30uw0pedj7.jpg] 数值型数据筛选 单个条件 1、数值型数据的筛选一般是根据大小比较来进行的....jpg] 1、取出包含object类型的数据: [008i3skNgy1gqntj33ti8j30ui0oc41p.jpg] 如果是想取出包含多种类型的数据: [008i3skNgy1gqntnrvbs2j31140oiwi1

1.1K50

【强强联合】在Power BI 中使用Python(2

上一篇文章我们讲解了在Power BI中使用Python来获取数据的一些应用: 【强强联合】在Power BI 中使用Python(1) 这一篇我们将继续讲解如何在Power BI中使用Python进行数据清洗工作...其实我们仔细看一下场景1和场景2,它们之间是个逆过程,场景1Python获取数据传递到Power BI,而场景2是Power BI或者Power Query获取了数据,用python来处理。...前文我们讲过,Python与Power BI的数据传递是通过Dataframe格式的数据来实现的。 Python的处理结果以Dataframe形式输出,M将Dataframe自动转换为Table格式。...dataframe格式数据,“loc=1”代表在第一数据后插入一,列名是“add_100”,值是“Value”的值+100,第一1,add_100第一就是101,以此类推: ?...再比如,我们想提取数据的某,比如上面这张表的“key2,我们可以点击运行Python脚本,并写入如下的代码: ?

3.2K31
领券