首页
学习
活动
专区
工具
TVP
发布

Python小屋

专栏作者
961
文章
1634160
阅读量
146
订阅数
Win10+Python3.6配置Spark创建分布式爬虫
介绍Spark在Win 10系统中的的安装、配置以及在分布式爬虫中的使用,Python版本为3.6.8。
Python小屋屋主
2019-12-13
8480
Python大数据处理扩展库pySpark用法精要
Spark是一个开源的、通用的并行计算与分布式计算框架,其活跃度在Apache基金会所有开源项目中排第三位,最大特点是基于内存计算,适合迭代计算,兼容多种应用场景,同时还兼容Hadoop生态系统中的组件,并且具有非常强的容错性。Spark的设计目的是全栈式解决批处理、结构化数据查询、流计算、图计算和机器学习等业务和应用,适用于需要多次操作特定数据集的应用场合。需要反复操作的次数越多,所需读取的数据量越大,效率提升越大。 Spark集成了Spark SQL(分布式SQL查询引擎,提供了一个DataFrame编
Python小屋屋主
2018-04-16
1.7K0
Python利用Spark并行处理框架批量判断素数
方法一: from pyspark import SparkConf, SparkContext conf = SparkConf().setAppName("isPrime") sc = SparkContext(conf=conf) def isPrime(n): if n<2: return False if n==2: return True if not n&1: return False for i in range(3, int(n**0.5)+2, 2): if n%i =
Python小屋屋主
2018-04-16
7450
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档