导入Pandas
import pandas as pd
加载数据
对于csv文件
df = pd.read_csv('pathtoyourfile.csv')
对于Excel文件
df = pd.read_excel('pathtoyourfile.xlsx',sheetname ='nameofyoursheet')
读取在线HTML文件
使用以下命令,Pandas还可以在线读取HTML表格
df = pd.read_html('linktoonlinehtmlfile')
可能需要安装以下软件包才能运行 eautifulsoup htmllib5 lxml
要查看前五项,我们在数据集上调用head命令。类似于查看数据集中的最后五个元素,我们使用尾部函数。检查列的数据类型以及是否存在空值通常很重要。这可以使用info命令来实现。
由此我们可以知道,我们的数据集有24933个条目,5列,它们都是非空的。
分组
我们可能希望按用户名将所有推文分组,并计算每个组织的推文数量。我们可能也有兴趣看到推文数量最多的前10大组织。
我们使用Sort_values按照推文的数量对数据框进行排序。
求和(SUM)
由于所有组织都推出了转发,让我们找出哪些组织转推得最多。我们可以通过将组织的用户名和推文进行汇总来实现这一点。
计数数据集中唯一用户名的数量
我们的数据集中有26个独特的组织。
我们可以通过调用列上的唯一函数来获取他们的名字。
计算某一列中的项目数量
不重要的是value_counts()不适用于数据框,它只适用于系列。我们可以通过在数据框中调用它来说明。
将函数应用于整个数据集
假设我们想知道每条推文中的字数。我们将创建一个新列以保存列的长度,然后将len函数应用于该列来计算字符数。
您可以通过调用describe函数来查看刚创建的列的描述。
我们可以看到最长的推文长度为158个字符。我们如何能够看到推文?
您注意到我们只能看到部分推文。我们可以通过使用iloc函数来查看完整的推文
这意味着我们要查看位于索引零的项目,这是推文。
合并两个数据帧
假设我们想要找到推文数量和推特之间的关系。这意味着我们将有一个数据框与推文的数量,另一个与推特的数量然后合并它们。
有时你可能也想加入两个数据集。我们以Kaggle竞争数据集为例。您可能想要加入测试和训练数据集以便使用完整的数据集。你可以使用concat来实现。
使用pandas使数据可视化笔记
直方图
看直方图,我们可以看出,大多数推文长度在120到140之间
散点图
区域图
线图
核密度估计图
领取专属 10元无门槛券
私享最新 技术干货