开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

社区首页 >专栏 >Win10+Python3.6配置Spark创建分布式爬虫

Win10+Python3.6配置Spark创建分布式爬虫

作者头像

Python小屋屋主

发布于 2019-12-13 15:59:11

8480

发布于 2019-12-13 15:59:11

举报

文章被收录于专栏：Python小屋Python小屋

介绍Spark在Win 10系统中的的安装、配置以及在分布式爬虫中的使用，Python版本为3.6.8。

Spark安装、配置和使用请参考《Python程序设计开发宝典》“第12章多任务与并行处理：线程、进程、协程、分布式、GPU加速”（董付国著，清华大学出版社，2017.10），京东：https://item.jd.com/12143483.html

网络爬虫入门请参考《Python可以这样学》“第9章网络应用开发”（董付国著，清华大学出版社，2017.2），京东缺货，请选择亚马逊、当当、天猫搜索“董付国”；《Python程序设计基础与应用》“第13章网络爬虫入门与应用”（董付国著，机械工业出版社，2018.9），京东：https://item.jd.com/12433472.html

================

1、下载安装jdk，地址：https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html

2、添加环境变量JAVA_HOME，配置为jdk的安装路径。

3、下载Spark，解压缩到G:\spark-2.2.3-bin-hadoop2.7。

地址：http://mirrors.shu.edu.cn/apache/spark/spark-2.2.3/spark-2.2.3-bin-hadoop2.7.tgz，注意版本，并不是越新越好，很容易因为版本不兼容影响运行。

4、配置环境变量HADOOP_HOME和SPARK_HOME为Spark的解压缩目录G:\spark-2.2.3-bin-hadoop2.7。

5、修改环境变量PATH，把Python 3.6的安装目录放到前面，添加jdk安装路径。

6、下载winutils.exe并放到Spark解压缩目录的bin中，下载地址：http://public-repo-1.hortonworks.com/hdp-win-alpha/winutils.exe

7、编写爬虫程序sparkCrawlYuanshi.py并保存到Spark安装目录的bin目录中，以爬取工程院院士信息为例，略去对网页结构的分析，感兴趣的朋友可自行完成这个步骤。

8、进入Power Shell，执行命令./spark-submit.cmd sparkCrawlYuanshi.py运行爬虫程序。

本文参与腾讯云自媒体分享计划，分享自微信公众号。

原始发表：2019-02-02，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Python小屋微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体分享计划，欢迎热爱写作的你一起参与！

评论

登录后参与评论

0 条评论

热度

最新

LV.