首页
学习
活动
专区
工具
TVP
发布

范传康的专栏

专栏作者
45
文章
122719
阅读量
24
订阅数
使用Elasticsearch、Spark构建推荐系统 #2:深入分析
Elasticsearch-spark-based recommender系统方案的两个关键步骤:
flavorfan
2022-04-08
3.5K0
PySpark on HPC 续:批量处理的框架的工程实现
PySpark on HPC系列记录了我独自探索在HPC利用PySpark处理大数据业务数据的过程,由于这方面资料少或者搜索能力不足,没有找到需求匹配的框架,不得不手搓一个工具链,容我虚荣点,叫“框架”。框架的实现功能如下:
flavorfan
2022-01-21
1.3K0
PySpark on hpc 续: 合理分区处理及合并输出单一文件
在HPC上启动任务以local模式运行自定义spark,可以自由选择spark、python版本组合来处理数据;起多个任务并行处理独立分区数据,只要处理资源足够,限制速度的只是磁盘io。本地集群处理需要2周的数据,2个小时就处理好了。HPC通常没有数据库,进一步BI展示或者处理需要拉回本地集群,这时候需要把数据块(比如一天)的数据保存为tsv.gz拉回本地集群。pyspark dataframe 提供write的save方法,可以写tsv.gz,spark默认是并行写,所以在提供outpath目录下写多个文件。这个时候,需要顺序拼接多个tsv文件并压缩为gz格式。
flavorfan
2022-01-12
1.4K0
pyspark on hpc
本地内部集群资源有限,简单的数据处理跑了3天。HPC上有很多计算资源,出于先吃锅里的再吃碗里的思想,琢磨先充分利用共有资源。简单调研下,也不是很复杂的事情。
flavorfan
2021-12-10
1.6K0
PySpark UD(A)F 的高效使用
Spark无疑是当今数据科学和大数据领域最流行的技术之一。尽管它是用Scala开发的,并在Java虚拟机(JVM)中运行,但它附带了Python绑定,也称为PySpark,其API深受panda的影响。在功能方面,现代PySpark在典型的ETL和数据处理方面具有与Pandas相同的功能,例如groupby、聚合等等。
flavorfan
2021-09-10
19.3K0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档