专栏首页技术翻译大数据Python:3大数据分析工具

大数据Python:3大数据分析工具

在这篇文章中,我们将讨论三个令人敬畏的大数据Python工具,以使用生产数据提高您的大数据编程技能。

介绍

在本文中,我假设您使用virtualenv,pyenv或其他变体在其自己的环境中运行Python。

本文中的示例使用IPython,因此如果您愿意,请确保已安装它。

$ mkdir python-big-data
$ cd python-big-data
$ virtualenv ../venvs/python-big-data
$ source ../venvs/python-big-data/bin/activate
$ pip install ipython
$ pip install pandas
$ pip install pyspark
$ pip install scikit-learn
$ pip install scipy

现在让我们来看一些数据。

Python数据

在我们阅读本文时,我将使用一些示例数据来完成这些示例。

我们将使用的Python数据是在几天的时间内从该网站获得的实际生产日志。这些数据在技术上并不是大数据,因为它的大小只有大约2 Mb,但它对我们的目的来说非常有用。

为了获得大数据大小的样本(> 1Tb),我必须加强我的基础设施。

要获取示例数据,您可以使用git从我的公共GitHub存储库admintome / access-log-data中删除它:

$ git clone https://github.com/admintome/access-log-data.git

数据是一个简单的CSV文件,因此每行代表一个单独的日志,字段用逗号分隔:

2018-08-01 17:10,'www2','www_access','172.68.133.49 - - [01/Aug/2018:17:10:15 +0000] "GET /wp-content/uploads/2018/07/spark-mesos-job-complete-1024x634.png HTTP/1.0" 200 151587 "https://dzone.com/" "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36"'

现在我们已经拥有了将要使用的数据,让我们来看看三个大数据Python工具。

由于可以对数据执行的许多操作的复杂性,本文将重点介绍如何加载数据并获取一小部分数据样本。

对于列出的每个工具,我将提供链接以了解更多信息。

Python Pandas

我们将讨论的第一个工具是Python Pandas。正如它的网站所述,Pandas是一个开源的Python数据分析库。

让我们启动IPython并对我们的示例数据进行一些操作。

import pandas as pd
headers = ["datetime", "source", "type", "log"]
df = pd.read_csv('access_logs_parsed.csv', quotechar="'", names=headers)

大约一秒后它应该回复:

[6844 rows x 4 columns]
In [3]:

如您所见,我们有大约7000行数据,我们可以看到它找到了四列与上述模式匹配的列。

Pandas自动创建了一个表示我们CSV文件的DataFrame对象!让我们看看用该head()函数导入的数据样本 。

In [11]: df.head()
Out[11]: 
           datetime source        type                                                log
0  2018-08-01 17:10   www2  www_access  172.68.133.49 - - [01/Aug/2018:17:10:15 +0000]...
1  2018-08-01 17:10   www2  www_access  162.158.255.185 - - [01/Aug/2018:17:10:15 +000...
2  2018-08-01 17:10   www2  www_access  108.162.238.234 - - [01/Aug/2018:17:10:22 +000...
3  2018-08-01 17:10   www2  www_access  172.68.47.211 - - [01/Aug/2018:17:10:50 +0000]...
4  2018-08-01 17:11   www2  www_access  141.101.96.28 - - [01/Aug/2018:17:11:11 +0000]...

使用Python Pandas和Big Data可以做很多事情。单独使用Python非常适合修改数据并做好准备。现在有了Pandas,您也可以在Python中进行数据分析。数据科学家通常将Python Pandas与IPython一起使用,以交互方式分析大量数据集,并从该数据中获取有意义的商业智能。查看上面的网站了解更多信息。

PySpark

我们将讨论的下一个工具是PySpark。这是来自Apache Spark项目的大数据分析库。

PySpark为我们提供了许多用于在Python中分析大数据的功能。它带有自己的shell,您可以从命令行运行它。

$ pyspark

这会加载pyspark shell。

(python-big-data)[email protected]:~/Development/access-log-data$ pyspark Python 3.6.5 (default, Apr 1 2018, 05:46:30) [GCC 7.3.0] on linux Type "help", "copyright", "credits" or "license" for more information. 2018-08-03 18:13:38 WARN Utils:66 - Your hostname, admintome resolves to a loopback address: 127.0.1.1; using 192.168.1.153 instead (on interface enp0s3) 2018-08-03 18:13:38 WARN Utils:66 - Set SPARK_LOCAL_IP if you need to bind to another address 2018-08-03 18:13:39 WARN NativeCodeLoader:62 - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable Setting default log level to "WARN". To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel). Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /__ / .__/\_,_/_/ /_/\_\ version 2.3.1 /_/ Using Python version 3.6.5 (default, Apr 1 2018 05:46:30) SparkSession available as 'spark'. >>>

当你启动shell时,你也会得到一个Web GUI来查看你的工作状态; 只需浏览即可http://localhost:4040获得PySpark Web GUI。

让我们使用PySpark Shell加载我们的示例数据。

dataframe = spark.read.format("csv").option("header","false").option("mode","DROPMALFORMED").option("quote","'").load("access_logs.csv")
dataframe.show()

PySpark将为我们提供已创建的DataFrame示例。

>>> dataframe2.show()
+----------------+----+----------+--------------------+
|             _c0| _c1|       _c2|                 _c3|
+----------------+----+----------+--------------------+
|2018-08-01 17:10|www2|www_access|172.68.133.49 - -...|
|2018-08-01 17:10|www2|www_access|162.158.255.185 -...|
|2018-08-01 17:10|www2|www_access|108.162.238.234 -...|
|2018-08-01 17:10|www2|www_access|172.68.47.211 - -...|
|2018-08-01 17:11|www2|www_access|141.101.96.28 - -...|
|2018-08-01 17:11|www2|www_access|141.101.96.28 - -...|
|2018-08-01 17:11|www2|www_access|162.158.50.89 - -...|
|2018-08-01 17:12|www2|www_access|192.168.1.7 - - [...|
|2018-08-01 17:12|www2|www_access|172.68.47.151 - -...|
|2018-08-01 17:12|www2|www_access|192.168.1.7 - - [...|
|2018-08-01 17:12|www2|www_access|141.101.76.83 - -...|
|2018-08-01 17:14|www2|www_access|172.68.218.41 - -...|
|2018-08-01 17:14|www2|www_access|172.68.218.47 - -...|
|2018-08-01 17:14|www2|www_access|172.69.70.72 - - ...|
|2018-08-01 17:15|www2|www_access|172.68.63.24 - - ...|
|2018-08-01 17:18|www2|www_access|192.168.1.7 - - [...|
|2018-08-01 17:18|www2|www_access|141.101.99.138 - ...|
|2018-08-01 17:19|www2|www_access|192.168.1.7 - - [...|
|2018-08-01 17:19|www2|www_access|162.158.89.74 - -...|
|2018-08-01 17:19|www2|www_access|172.68.54.35 - - ...|
+----------------+----+----------+--------------------+
only showing top 20 rows

我们再次看到DataFrame中有四列与我们的模式匹配。DataFrame只是数据的内存中表示,可以被视为数据库表或Excel电子表格。

现在我们的最后一个工具。

Python SciKit-Learn

任何关于大数据的讨论都会引发关于机器学习的讨论。而且,幸运的是,Python开发人员有很多选择来使用机器学习算法。

在没有详细介绍机器学习的情况下,我们需要获得一些执行机器学习的数据。我在本文中提供的示例数据不能正常工作,因为它不是数字数据。我们需要操纵数据并将其呈现为数字格式,这超出了本文的范围。例如,我们可以按时间映射日志条目以获得具有两列的DataFrame:一分钟内的日志数和当前分钟:

+------------------+---+
| 2018-08-01 17:10 | 4 |
+------------------+---+
| 2018-08-01 17:11 | 1 |
+------------------+---+

通过这种形式的数据,我们可以执行机器学习来预测未来可能获得的访客数量。但是,正如我所提到的,这超出了本文的范围。

幸运的是,SciKit-Learn附带了一些样本数据集!让我们加载一些示例数据,看看我们能做些什么。

In [1]: from sklearn import datasets
In [2]: iris = datasets.load_iris()
In [3]: digits = datasets.load_digits()
In [4]: print(digits.data)
[[ 0.  0.  5. ...  0.  0.  0.]
 [ 0.  0.  0. ... 10.  0.  0.]
 [ 0.  0.  0. ... 16.  9.  0.]
 ...
 [ 0.  0.  1. ...  6.  0.  0.]
 [ 0.  0.  2. ... 12.  0.  0.]
 [ 0.  0. 10. ... 12.  1.  0.]]

这将加载两个用于分类机器学习算法的数据集,用于对数据进行分类。

查看SciKit-Learn Basic Tutorial了解相关信息。

结论

鉴于这三个Python大数据工具,Python是大数据游戏以及R和Scala的主要参与者。

我希望你喜欢这篇文章。如果您不熟悉大数据并希望了解更多信息,请务必在AdminTome在线培训中注册我的免费大数据入门课程。

原文标题《Big Data Python: 3 Big Data Analytics Tools》

作者:Bill Ward

译者:February

不代表云加社区观点,更多详情请查看原文链接

原文链接:https://dzone.com/articles/big-data-python-3-big-data-analytics-tools

原文作者:Bill Ward

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 人工智能的10个最佳框架和库

    人工智能已经存在了很长时间。然而,由于该领域的巨大改进,近年来它已成为流行语。人工智能曾经被称为总体书呆子和天才的领域,但由于各种图书馆和框架的发展,它已成为一...

    February
  • 基于Aptana3+Django开发blog的示例

    3、选择django的版本号,先查看当前系统中的django版本号(IDE默认选择1.2 or later)

    meteoric
  • Python的编码问题

    而我使用urlopen写一个采集小程序时,遇上了一个编码问题。以抓取百度首页为例:

    meteoric
  • centos/linux 安装node.js

    wget  http://www.python.org/ftp/python/2.7/Python-2.7.tar.bz2 tar jfvx Python-2...

    meteoric
  • Windows下编译Chrome V8

    步骤基本上可以完成按照官方的操作来处理,这里记录编译中遇到的问题(编译环境 xp sp3、vs2005、python 2.6、scons 2.0):

    meteoric
  • 如何在Debian 9上使用Python 3设置Jupyter笔记本

    Jupyter Notebook为交互式计算提供了一个命令shell作为Web应用程序。该工具可以与多种语言一起使用,包括Python,Julia,R,Hask...

    葡萄
  • zabbix监控之redis自动发现并监控

    [root@localhost etc]# cat  redis_port.py

    三杯水Plus
  • 如何在服务器模式下安装和配置pgAdmin 4

    pgAdmin是PostgreSQL及其相关数据库管理系统的开源管理和开发平台。用Python和jQuery编写,它支持PostgreSQL中的所有功能。您可以...

    何处惹尘埃
  • Python下载prettyloaded的swf

    以前看到prettyloaded上面的loading条都很不错,最近又有需要用到loading条,怎奈它并不提供直接打包下载,只好自己写程序去抓取了…

    meteoric
  • 我用Facebook开源神器Prophet,预测时间序列基于Python(代码+论文)

    Prophet是Facebook 开源一款基于 Python 和 R 语言的数据预测工具。Facebook 表示,Prophet 相比现有预测工具更加人性化,并...

    量化投资与机器学习微信公众号

扫码关注云+社区

领取腾讯云代金券