Python使用pandas使数据可视化笔记

导入Pandas

import pandas as pd

加载数据

对于csv文件

df = pd.read_csv('pathtoyourfile.csv')

对于Excel文件

df = pd.read_excel('pathtoyourfile.xlsx',sheetname ='nameofyoursheet')

读取在线HTML文件

使用以下命令,Pandas还可以在线读取HTML表格

df = pd.read_html('linktoonlinehtmlfile')

可能需要安装以下软件包才能运行 eautifulsoup htmllib5 lxml

要查看前五项,我们在数据集上调用head命令。类似于查看数据集中的最后五个元素,我们使用尾部函数。检查列的数据类型以及是否存在空值通常很重要。这可以使用info命令来实现。

由此我们可以知道,我们的数据集有24933个条目,5列,它们都是非空的。

分组

我们可能希望按用户名将所有推文分组,并计算每个组织的推文数量。我们可能也有兴趣看到推文数量最多的前10大组织。

我们使用Sort_values按照推文的数量对数据框进行排序。

求和(SUM)

由于所有组织都推出了转发,让我们找出哪些组织转推得最多。我们可以通过将组织的用户名和推文进行汇总来实现这一点。

计数数据集中唯一用户名的数量

我们的数据集中有26个独特的组织。

我们可以通过调用列上的唯一函数来获取他们的名字。

计算某一列中的项目数量

不重要的是value_counts()不适用于数据框,它只适用于系列。我们可以通过在数据框中调用它来说明。

将函数应用于整个数据集

假设我们想知道每条推文中的字数。我们将创建一个新列以保存列的长度,然后将len函数应用于该列来计算字符数。

您可以通过调用describe函数来查看刚创建的列的描述。

我们可以看到最长的推文长度为158个字符。我们如何能够看到推文?

您注意到我们只能看到部分推文。我们可以通过使用iloc函数来查看完整的推文

这意味着我们要查看位于索引零的项目,这是推文。

合并两个数据帧

假设我们想要找到推文数量和推特之间的关系。这意味着我们将有一个数据框与推文的数量,另一个与推特的数量然后合并它们。

有时你可能也想加入两个数据集。我们以Kaggle竞争数据集为例。您可能想要加入测试和训练数据集以便使用完整的数据集。你可以使用concat来实现。

使用pandas使数据可视化笔记

直方图

看直方图,我们可以看出,大多数推文长度在120到140之间

散点图

区域图

线图

核密度估计图

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180323A0NYP400?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券