前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >pandas系列0-基础操作大全

pandas系列0-基础操作大全

作者头像
皮大大
发布2021-03-02 15:02:15
7580
发布2021-03-02 15:02:15
举报
文章被收录于专栏:机器学习/数据可视化
读取和写入文件

读取

写入

read_csv

to_csv

read_excel

to_excel

read_hdf

to_hdf

read_sql

to_sql

read_json

to_json

read_msgpack (experimental)

to_msgpack (experimental)

read_html

to_html

read_gbq(experimental)

to_gbq (experimental)

read_stata

to_stata

read_sas

ro_sas

read_clipboard

to_clipboard

read_pickle

to_pickle//速度比csv快

保存文件
代码语言:javascript
复制
submission = pd.DataFrame({ 'PassengerId': test_df['PassengerId'],'Survived': predictions })
submission.to_csv("submission.csv", index=False)
# index参数是否写入行names键
流处理

当读取大文件的时候,通过chunksize可以分批次读取:

代码语言:javascript
复制
# 使用类似迭代器的方式
data=pd.read_csv(file, chunksize=1000000)
for sub_df in data:
    print('hello python')
是否为空
代码语言:javascript
复制
pd.isnull(obj)
obj.isnull()
转成DF数据框
代码语言:javascript
复制
DataFrame(data, 
          columns=['col1','col2','col3'...],
          index = ['i1','i2','i3'...])
查看索引和列名
代码语言:javascript
复制
DataFrame.columns
DataFrame.index
列属性和索引重排
代码语言:javascript
复制
DataFrame.reindex([columns=['col1','col2','col3'...])
# 也可以同时重建index和columns
DataFrame.reindex([index=['a','b','c'...],columns=['col1','col2','col3'...])
重命名索引和轴
代码语言:javascript
复制
data.rename(index=str.title,columns=str.upper)

#修改某个索引和列名,可以通过传入字典
data.rename(index={'old_index':'new_index'},
            columns={'old_col':'new_col'})
DF选取子集
针对S
代码语言:javascript
复制
obj[['a','b','c'...]]
obj['b':'e']=5
针对DF
代码语言:javascript
复制
#选择多列
dataframe[['col1','col2'...]]

#选择多行
dataframe[m:n]

#条件筛选
dataframe[dataframe['col3'>5]]

#选择子集
dataframe.iloc[0:3,0:5]
dataframe.ix[0:3,0:5]
排序和排名
代码语言:javascript
复制
#默认根据index排序,axis = 1 则根据columns排序
dataframe.sort_index(axis=0, ascending=False)

# 根据值排序
dataframe.sort_index(by=['col1','col2'...])

#排名,给出的是rank值

series.rank(ascending=False)
#如果出现重复值,则取平均秩次

#在行或列上面的排名
dataframe.rank(axis=0)
成员 、唯一值、成员资格
代码语言:javascript
复制
obj.unique()
obj.value_count()
obj.isin(['b','c'])
透视表
代码语言:javascript
复制
table = df.pivot_table(values=["Price","Quantity"],
            index=["Manager","Rep"],
            aggfunc=[np.sum, np.mean],
            margins=True))

#values:需要对哪些字段应用函数
#index:透视表的行索引(row)
#columns:透视表的列索引(column)
#aggfunc:应用什么函数
#fill_value:空值填充
#margins:添加汇总项

#然后可以对透视表进行筛选
table.query('Manager == ["Debra Henley"]')
table.query('Status == ["pending","won"]')
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2019-10-8,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 读取和写入文件
  • 保存文件
  • 流处理
  • 是否为空
  • 转成DF数据框
  • 查看索引和列名
  • 列属性和索引重排
  • 重命名索引和轴
  • DF选取子集
  • 针对DF
  • 排序和排名
  • 成员 、唯一值、成员资格
  • 透视表
相关产品与服务
文件存储
文件存储(Cloud File Storage,CFS)为您提供安全可靠、可扩展的共享文件存储服务。文件存储可与腾讯云服务器、容器服务、批量计算等服务搭配使用,为多个计算节点提供容量和性能可弹性扩展的高性能共享存储。腾讯云文件存储的管理界面简单、易使用,可实现对现有应用的无缝集成;按实际用量付费,为您节约成本,简化 IT 运维工作。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档