前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >帮助数据科学家理解数据的23个pandas常用代码

帮助数据科学家理解数据的23个pandas常用代码

作者头像
AiTechYun
发布2018-09-26 10:08:29
2K0
发布2018-09-26 10:08:29
举报
文章被收录于专栏:ATYUN订阅号

编译:yxy

出品:ATYUN订阅号

基本的数据集信息

(1)读取CSV数据集
代码语言:javascript
复制
pd.DataFrame.from_csv(“csv_file”)

或者

代码语言:javascript
复制
pd.read_csv(“csv_file”)
(2)读取EXCEL数据集
代码语言:javascript
复制
pd.read_excel( “excel_file”)
(3)将数据帧直接写入CSV

逗号分隔,没有索引

代码语言:javascript
复制
df.to_csv(“data.csv”,sep=“,”,index= False)
(4)基本的数据集特征信息
代码语言:javascript
复制
df.info()
(5)基本的数据集统计
代码语言:javascript
复制
print(df.describe())
(6)在表中打印数据帧
代码语言:javascript
复制
print(tabulate(print_table,headers= headers))

其中“print_table”是列表的列表,“headers”是字符串头的列表

(7)列出列名
代码语言:javascript
复制
df.columns

基本的数据处理

(8)删除丢失的数据
代码语言:javascript
复制
df.dropna(axis= 0,how='any')

返回给定轴缺失的标签对象,并在那里删除所有缺失数据(’any’:如果存在任何NA值,则删除该行或列。)。

(9)替换丢失的数据
代码语言:javascript
复制
df.replace(to_replace= None,value= None)

将“to_replace”中的值替换为“value”。

(10)检查缺失值
代码语言:javascript
复制
pd.isnull(object)

检测缺失值(数值数组中的NaN,对象数组中的None/ NaN)

(11)删除特征
代码语言:javascript
复制
df.drop('feature_variable_name', axis=1)

axis中0对应行,1对应列。

(12)将对象类型转换为FLOAT
代码语言:javascript
复制
pd.to_numeric(df [“feature_name”],errors='coerce')

将对象类型转换为数值,以便能够执行计算(如果它们是字符串的话)。

(13)将数据帧转换为NUMPY数组
代码语言:javascript
复制
df.as_matrix()
(14)获得数据帧的前N行
代码语言:javascript
复制
df.head(n)
(15)按特征名称获取数据
代码语言:javascript
复制
df.loc [FEATURE_NAME]

数据帧操作

(16)将函数应用于数据帧

这个将数据帧的“height”列中的所有值乘以2

代码语言:javascript
复制
df["height"].apply(lambda height:2 * height)

代码语言:javascript
复制
def multiply(x):
    return x* 2
df["height"].apply(multiply)
(17)重命名列

我们将数据帧的第3列重命名为“size”

代码语言:javascript
复制
df.rename(columns= {df.columns [2]:'size'},inplace= True)
(18)获取列的唯一条目

在这里,我们将获得“名称”列的唯一条目

代码语言:javascript
复制
df["name"].unique()
(19)访问子数据帧

在这里,我们抓取列的选择,数据帧中的“name”和“size”

代码语言:javascript
复制
new_df= df [[“name”,“size”]]
(20)数据的摘要信息
代码语言:javascript
复制
# Sum of values in a data frame
df.sum()
# Lowest value of a data frame
df.min()
# Highest value
df.max()
# Index of the lowest value
df.idxmin()
# Index of the highest value
df.idxmax()
# Statistical summary of the data frame, with quartiles, median, etc.
df.describe()
# Average values
df.mean()
# Median values
df.median()
# Correlation between columns
df.corr()
# To get these values for only one column, just select it like this#
df["size"].median()
(21)对数据进行排序
代码语言:javascript
复制
df.sort_values(ascending= False)
(22)布尔索引

在这里,我们将过滤名为“size”的数据列,仅显示值等于5的

代码语言:javascript
复制
df [df [“size”]== 5]
(23)选择值

选择“size”列的第一行

view source

代码语言:javascript
复制
df.loc([0],['size'])
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-08-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 ATYUN订阅号 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 基本的数据集信息
    • (1)读取CSV数据集
      • (2)读取EXCEL数据集
        • (3)将数据帧直接写入CSV
          • (4)基本的数据集特征信息
            • (5)基本的数据集统计
              • (6)在表中打印数据帧
                • (7)列出列名
                • 基本的数据处理
                  • (8)删除丢失的数据
                    • (9)替换丢失的数据
                      • (10)检查缺失值
                        • (11)删除特征
                          • (12)将对象类型转换为FLOAT
                            • (13)将数据帧转换为NUMPY数组
                              • (14)获得数据帧的前N行
                                • (15)按特征名称获取数据
                                • 数据帧操作
                                  • (16)将函数应用于数据帧
                                    • (17)重命名列
                                      • (18)获取列的唯一条目
                                        • (19)访问子数据帧
                                          • (20)数据的摘要信息
                                            • (21)对数据进行排序
                                              • (22)布尔索引
                                                • (23)选择值
                                                领券
                                                问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档