在这篇文章中,我们将讨论三个令人敬畏的大数据Python工具,以使用生产数据提高您的大数据编程技能。
在本文中,我假设您使用virtualenv,pyenv或其他变体在其自己的环境中运行Python。
本文中的示例使用IPython,因此如果您愿意,请确保已安装它。
现在让我们来看一些数据。
在我们阅读本文时,我将使用一些示例数据来完成这些示例。
我们将使用的Python数据是在几天的时间内从该网站获得的实际生产日志。这些数据在技术上并不是大数据,因为它的大小只有大约2 Mb,但它对我们的目的来说非常有用。
为了获得大数据大小的样本(> 1Tb),我必须加强我的基础设施。
要获取示例数据,您可以使用git从我的公共GitHub存储库admintome / access-log-data中删除它:
数据是一个简单的CSV文件,因此每行代表一个单独的日志,字段用逗号分隔:
现在我们已经拥有了将要使用的数据,让我们来看看三个大数据Python工具。
由于可以对数据执行的许多操作的复杂性,本文将重点介绍如何加载数据并获取一小部分数据样本。
对于列出的每个工具,我将提供链接以了解更多信息。
我们将讨论的第一个工具是Python Pandas。正如它的网站所述,Pandas是一个开源的Python数据分析库。
让我们启动IPython并对我们的示例数据进行一些操作。
大约一秒后它应该回复:
如您所见,我们有大约7000行数据,我们可以看到它找到了四列与上述模式匹配的列。
Pandas自动创建了一个表示我们CSV文件的DataFrame对象!让我们看看用该head()
函数导入的数据样本 。
使用Python Pandas和Big Data可以做很多事情。单独使用Python非常适合修改数据并做好准备。现在有了Pandas,您也可以在Python中进行数据分析。数据科学家通常将Python Pandas与IPython一起使用,以交互方式分析大量数据集,并从该数据中获取有意义的商业智能。查看上面的网站了解更多信息。
我们将讨论的下一个工具是PySpark。这是来自Apache Spark项目的大数据分析库。
PySpark为我们提供了许多用于在Python中分析大数据的功能。它带有自己的shell,您可以从命令行运行它。
这会加载pyspark shell。
当你启动shell时,你也会得到一个Web GUI来查看你的工作状态; 只需浏览即可http://localhost:4040
获得PySpark Web GUI。
让我们使用PySpark Shell加载我们的示例数据。
PySpark将为我们提供已创建的DataFrame示例。
我们再次看到DataFrame中有四列与我们的模式匹配。DataFrame只是数据的内存中表示,可以被视为数据库表或Excel电子表格。
现在我们的最后一个工具。
任何关于大数据的讨论都会引发关于机器学习的讨论。而且,幸运的是,Python开发人员有很多选择来使用机器学习算法。
在没有详细介绍机器学习的情况下,我们需要获得一些执行机器学习的数据。我在本文中提供的示例数据不能正常工作,因为它不是数字数据。我们需要操纵数据并将其呈现为数字格式,这超出了本文的范围。例如,我们可以按时间映射日志条目以获得具有两列的DataFrame:一分钟内的日志数和当前分钟:
通过这种形式的数据,我们可以执行机器学习来预测未来可能获得的访客数量。但是,正如我所提到的,这超出了本文的范围。
幸运的是,SciKit-Learn附带了一些样本数据集!让我们加载一些示例数据,看看我们能做些什么。
这将加载两个用于分类机器学习算法的数据集,用于对数据进行分类。
查看SciKit-Learn Basic Tutorial了解相关信息。
鉴于这三个Python大数据工具,Python是大数据游戏以及R和Scala的主要参与者。
我希望你喜欢这篇文章。如果您不熟悉大数据并希望了解更多信息,请务必在AdminTome在线培训中注册我的免费大数据入门课程。
原文标题《Big Data Python: 3 Big Data Analytics Tools》
作者:Bill Ward
译者:February
不代表云加社区观点,更多详情请查看原文链接
本文系外文翻译,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文系外文翻译,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。