首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

pandas库简单介绍(3)

4 pandas基本功能 4.1 重建索引(见上一篇文章) 4.2 数据选择 pandas数据选择是十分重要一个操作,它操作数组类似,但是pandas数据选择数组不同。...直接选择,frame[[列名,列名]]表示选择,frame[:3]表示选择行。 loc是根据轴标签进行选择,frame[行标签1,[列名,列名]]。...(整数表示选择行) df.loc[val] 根据标签选择单行多行 df.loc[:, val] 根据标签选择单列或多 df.loc[val1, val2] 根据标签同时选中行和一部分 df.iloc...[where] 根据整数选择一行或多行 df.iloc[:, where] 根据整数选择一或多 df.iloc[where_i, where_i] 根据整数选择行和 df.at[label_i,...Numpy通用函数(元素数组方法)对pandas对象也有效。

1.2K10
您找到你想要的搜索结果了吗?
是的
没有找到

pandas库详解一:基础部分

a = [1,2,3] b = [4,5,6] ​ #字典key值即为csv列名 data_dict = {'a_name':a,'b_name':b} ​#设置DataFrame排列顺序...2.2.2.3 join_axes 如果有join_axes参数传入,可以指定根据那个轴来对齐数据 例如根据df1表对齐数据,就会保留指定df1表轴,然后df4之拼接 result =...依旧某dataFrame进行排序 函数原型 sort_values(by, ascending) 参数说明 by:列名,依旧该进行排序 ascending:确定排序方式,默认为True(降序...set_index() DataFramecolumns设置成索引index 打造层次化索引方法 reset_index() 将使用set_index()打造层次化逆向操作...=states ) 4.2 设置 set_index():DataFramecolumns设置成索引index。

1.3K30

PySpark 读写 JSON 文件到 DataFrame

本文中,云朵君和大家一起学习了如何具有单行记录和多行记录 JSON 文件读取到 PySpark DataFrame ,还要学习一次读取单个和多个文件以及使用不同保存选项 JSON 文件写回...PySpark SQL 提供 read.json("path") 单行多行多行)JSON 文件读取到 PySpark DataFrame 并 write.json("path") 保存或写入 JSON...文件功能,在本教程,您将学习如何读取单个文件、多个文件、目录所有文件进入 DataFrame 并使用 Python 示例 DataFrame 写回 JSON 文件。...注意: 开箱即用 PySpark API 支持 JSON 文件和更多文件格式读取到 PySpark DataFrame 。...只需将目录作为json()方法路径传递给该方法,我们就可以目录所有 JSON 文件读取到 DataFrame

78320

数据导入预处理-拓展-pandas可视化

数据导入预处理-拓展-pandas可视化 1. 折线图 1.1 导入数据 1.2 绘制单列折线图 1.3 绘制多折线图 1.4 绘制折线图-双y轴 2....条形图 2.1 单行垂直/水平条形图 2.2 多行条形图 3. 直方图 3.1 生成数据 3.2 透明度/刻度/堆叠直方图 3.3 拆分子图 4....() df 输出为: 1.2 绘制单列折线图 绘制 df 第一折线图 # 绘制 df 第一折线图 df['A'].plot() plt.show() 输出为: 1.3 绘制多折线图...df 分别放在四个子图上 # 折线图|子图 # df 分别放在四个子图上 df.plot(subplots=True) plt.show() 输出为: df 分别放在一个图上...条形图 2.1 单行垂直/水平条形图 单行垂直/水平条形图 生成数据: # 生成数据 df2 = pd.DataFrame(np.random.rand(10, 4), columns=["a", "

3K20

MySQL 不要拿字符串类型字段直接数字进行比较

进行数据清理时候,需要对值为 0 进行清理,然后直接数字 0 进行了对比,然后发现大部分行都会被删除了,百思不得其解。...后来经过排查,发现在 MySQL 查询,'abc' 和 '0' 比较结果显然是不等,但如果 'abc' 和 0 比较呢?结果居然是相等。...在 MySQL 官方文档关于比较章节: Strings are automatically converted to numbers and numbers to strings as necessary...也就是说:在比较时候,字符串和数字进行对比是可能会被转为数字,具体来说: 对于数字开头字符串来说,转为数字结果就是截取前面的数字部分,比如 '123abc' 会被转换成 123。...---- 在对 WordPress postmeta 表或者其他 meta 表进行查询时候,要特别注意是:meta_value 字段类型是 text,所以也不要直接和 0 进行对比,特别是不要直接拿这个逻辑对

1.5K20

第四范式OpenMLDB: 拓展Spark源码实现高性能Join

代码地址为:github.com/4paradigm/OpenMLDB 第一步是对输入左表进行索引扩充,扩充方式有多种实现,只要添加索引每一行有unique id即可,下面是第一步实现代码。...有可能对输入数据进行扩充,也就是1:N变换,而所有新增行都拥有第一步进行索引拓展unique id,因此针对unique id进行reduce即可,这里使用Spark DataFramegroupByKey...对应实现在子类HashJoin.scala,原理前面也类似,调用outerJoin函数遍历stream table时候,修改核心遍历逻辑,保证左表在拼不到时保留并添加null,在拼到一行时立即返回即可...也会更耗时,而LastJoin因为在shuffle时拼接到单行就返回了,因此不会因为拼接多行导致性能下降。...从结果上看性能差异也很明显,由于右表数据量都比较小,因此这三组数据Spark都会优化成broadcast join实现,由于LeftOuterJoin会拼接多行,因此性能就比新LastJoin慢很多

1.1K20

python数据科学系列:pandas入门详细教程

字符串进行通函数操作,而且自带正则表达式大部分接口 丰富时间序列向量化处理接口 常用数据分析统计功能,包括基本统计量、分组统计分析等 集成matplotlib常用可视化接口,无论是series...前者是已有的一信息设置为标签,而后者是原标签归为数据,并重置为默认数字标签 set_axis,设置标签,一次只能设置一信息,rename功能相近,但接收参数为一个序列更改全部标签信息(...自然毫无悬念 dataframe:无法访问单个元素,只能返回一、多多行:单值或多值(多个列名组成列表)访问时按进行查询,单值访问不存在列名歧义时还可直接用属性符号" ....apply,既适用于series对象也适用于dataframe对象,但对二者处理粒度是不一样:apply应用于series时是元素执行函数操作;apply应用于dataframe时是逐行或者执行函数操作...;sort_values是按值排序,如果是dataframe对象,也可通过axis参数设置排序方向是行还是,同时根据by参数传入指定行或者,可传入多行或多并分别设置升序降序参数,非常灵活。

13.8K20

Pandas数据分组函数应用(df.apply()、df.agg()和df.transform()、df.applymap())

3种方法: apply():逐行或应用该函数 agg()和transform():聚合和转换 applymap():元素应用函数 apply()函数 介绍 apply函数是pandas里面所有函数自由度最高函数...,则apply函数 会自动遍历每一行DataFrame数据,最后所有结果组合成一个Series数据结构并返回。...2(个人处理几百M数据集时,方法1花时200s左右,方法2花时10s) ---- apply() 其中:设置axis = 1参数,可以逐行进行操作;默认axis=0,即进行操作; 对于常见描述性统计方法...'> 数据聚合agg() 数据聚合agg()指任何能够从数组产生标量值过程; 相当于apply()特例,可以对pandas对象进行逐行或处理; 能使用agg()地方,基本上都可以使用apply...DataFrame大小不同DataFrame,返回结果: 在索引上第一级别是原始列名 在第二级别上是转换函数名 >>> df.transform([lambda x:x-x.mean(),lambda

2.2K10

【呕心总结】python如何mysql实现交互及常用sql语句

这篇笔记,我整理近一个月实战中最常用到 mysql 语句,同时也涉及到如何在python3 mysql 实现数据交换。...最常用,就是对进行操作。每个具备:名称、属性、数值。 名称,需要留心不使用保留词。...要么提前自己定义表结构,设置好每属性;要么事后检查属性,并修改。所以,属性设定、修改是高频基础知识点。 数值,即除了列名称外、该其它值。修改某个值,也是高频操作。...对名称、属性进行修改,主要关键词都是 ALTER,具体又分为以下几种情况。 情境A:新增一。关键词 ADD 在你所指定 column_name 后面定义属性。...删除单行数据:添加能唯一标识该行数据条件语句。 删除多行数据:添加能标识该范围条件语句。 删除整张表格:你是认真的吗?没有写错表格名字吧?!

2.9K20

Pandas DataFrame笔记

1.属性方式,可以用于,不能用于行 2.可以用整数切片选择行,但不能用单个整数索引(当索引不是整数时) 3.直接索引可以使用集合,但不能用索引名索引行  用iloc取行,得到series: df.iloc...[1] 4.和Series一样,可以使用索引切片 对于,切片是不行(看来对于DF而言,还是有“行有序,无序”意思) 5.ix很灵活,不能:两部分必须有内容...,至少有:   集合可以用切片方式,包括数字和名称 6.索引切片或者ix指定都可以获取行,对单行而言,有区别 对多行而言,ix也是DataFrame 7.三个属性 8.按条件过滤   貌似并不像很多网文写...,可以用.访问属性 9.复合条件筛选 10.删除行 删除 11.排序 12.遍历 数据py文件 from pandas import Series,DataFrame import pandas...35000,'Texas':71000,'Oregon':16000,'Uath':5000}) se1=Series([4,7,-5,3],index=['d','b','a','c']) df1=DataFrame

93990

Oracle数据库学习笔记 (四 —— select 从入门到放弃 【下】)

,出现几率最高 单行子查询:返回多个,有可能是一条完整记录 多行子查询:返回多条记录 2.1 单行子查询 -- 查询工资比7654高,同时7788从事相同工作全部雇员信息 SELECT *...编写复杂子查询解决思路是:层分解查询。即从最内层子查询开始分解,嵌套SQL语句拆分为一个个独立SQL语句。...子查询执行过程遵循“由里及外”原则,即先执行最内层子查询语句,然后执行结果与外层语句进行合并,依次层向外扩展并最终形成完整SQL语句。...子查询联接查询执行效率比较:当子查询执行结果行数较大,而主查询执行结果行数较小时,子查询执行效率较高;而情况相反时,则联接查询执行效率较高。...、多行子查询及分页查询 聚合函数:count,sum,avg,max,min 分组查询使用关键字group by ,对分组之后数据进行筛选使用having关键字。

1.1K30

Pandas知识点-合并操作join

join(other): 一个或多个DataFrame加入到当前DataFrame,实现合并功能。...join()方法合并结果默认以左连接方式进行合并,默认连接DataFrame行索引,并且,合并两个DataFrame时,两个DataFrame不能有相同列名(不像merge()方法会自动给相同列名加后缀...观察上面的例子,left1有key,而right1没有key,不过right1行索引可以left1key可以进行匹配,用左连接方式得到结果。这个结果相当于如下merge()操作。...on参数指定多个列作为连接时,这些都要在调用join()方法DataFrame,此时,传入join()方法DataFrame必须为多重行索引(MultiIndex),且on指定数相等,否则会报错...假如第一个DataFrame单行索引,第二个DataFrame是多重行索引,此时如果不指定on参数,就必须给两个DataFrame行索引命名,并且单行索引索引名要包含在多重行索引索引名,才能够合并成功

2.7K10

数据分析索引总结(上)Pandas单级索引

单行索引 df.loc[1103] 虽然这里1103是整数, 但loc索引方式用是索引标签, 而不是默认整数索引(注意默认整数索引和标签索引这二者有时候是一样) ② 多行索引 多行索引时,需传入一个...iloc方法 ① 单行索引 df.iloc[3] ② 多行索引 注意结尾是不包含---和list切片保持一致 df.iloc[3:5] ③ 单列索引 df.iloc[:,3].head() ④ 多索引...[]操作符 如果不想陷入困境,请不要在行索引为浮点时使用[]操作符,因为在Series浮点[]并不是进行位置比较,而是值比较,非常特殊。...没有括号时候会报错--s[(s>80&s<95)] DataFrame[]操作 ① 单行索引 这里非常容易写成df['label'],会报错。...利用cut数值转为区间为元素分类变量, 例如统计数学成绩区间情况:使用pd.cut函数进行分割后, 如果没有类型转换,此时并不是区间类型,而是category类型。

5K40

Oracle 多行、多列子查询

子查询分为两种:一种是单行子查询,一种是多行子查询 1、单行子查询 单行子查询select语句只返回一行数据,也就是说嵌入在其他Sql语句中那个select查询值返回一行数据。...例:查询emp表,Smith同一部门所有员工 select * from emp where deptno= (select deptno from emp where ENAME='SMITH'...);--这里select查询只返回一行数据 所以,我们把子查询嵌入select语句至返回一行数据这类子查询,称为单行子查询 2、多行子查询 了解了单行子查询原理,那么多行子查询自然而然就知道了...deptno=10) --这里select查询返回多行记录 3、多行子查询特殊操作符 虽然in能解决多行子查询=问题,但是如果要和子查询结果集中字段比较大小呢?...和emp进行连表查询,然后比较薪水和平均值,得出结果集。

2.2K70
领券