腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
范传康的专栏
专栏作者
举报
45
文章
122719
阅读量
24
订阅数
订阅专栏
申请加入专栏
全部文章(45)
机器学习(15)
tensorflow(12)
大数据(8)
tencentos tiny(6)
nlp(6)
python(5)
嵌入式(5)
人工智能(5)
spark(5)
chatgpt(5)
c++(4)
pytorch(4)
物联网(4)
深度学习(3)
智能硬件(3)
工业物联(3)
推荐系统(3)
machine-learning(3)
LLM(3)
人脸识别(2)
其他(2)
物联网通信(2)
腾讯云 TI 平台(2)
云数据仓库套件 sparkling(2)
Elasticsearch Service(2)
云服务器(1)
NLP 服务(1)
数据挖掘(1)
sqlite(1)
git(1)
容器镜像服务(1)
批量计算(1)
SSL 证书(1)
高性能计算(1)
wordpress(1)
数据处理(1)
物联网开发平台(1)
chatbot(1)
deep-learning(1)
embedded(1)
redis(1)
streamlit(1)
tokenize(1)
搜索文章
搜索
搜索
关闭
使用Elasticsearch、Spark构建推荐系统 #2:深入分析
spark
Elasticsearch Service
推荐系统
机器学习
大数据
Elasticsearch-spark-based recommender系统方案的两个关键步骤:
flavorfan
2022-04-08
3.5K
0
PySpark on HPC 续:批量处理的框架的工程实现
spark
大数据
PySpark on HPC系列记录了我独自探索在HPC利用PySpark处理大数据业务数据的过程,由于这方面资料少或者搜索能力不足,没有找到需求匹配的框架,不得不手搓一个工具链,容我虚荣点,叫“框架”。框架的实现功能如下:
flavorfan
2022-01-21
1.3K
0
PySpark on hpc 续: 合理分区处理及合并输出单一文件
spark
大数据
python
在HPC上启动任务以local模式运行自定义spark,可以自由选择spark、python版本组合来处理数据;起多个任务并行处理独立分区数据,只要处理资源足够,限制速度的只是磁盘io。本地集群处理需要2周的数据,2个小时就处理好了。HPC通常没有数据库,进一步BI展示或者处理需要拉回本地集群,这时候需要把数据块(比如一天)的数据保存为tsv.gz拉回本地集群。pyspark dataframe 提供write的save方法,可以写tsv.gz,spark默认是并行写,所以在提供outpath目录下写多个文件。这个时候,需要顺序拼接多个tsv文件并压缩为gz格式。
flavorfan
2022-01-12
1.4K
0
pyspark on hpc
spark
高性能计算
大数据
本地内部集群资源有限,简单的数据处理跑了3天。HPC上有很多计算资源,出于先吃锅里的再吃碗里的思想,琢磨先充分利用共有资源。简单调研下,也不是很复杂的事情。
flavorfan
2021-12-10
1.6K
0
PySpark UD(A)F 的高效使用
大数据
spark
Spark无疑是当今数据科学和大数据领域最流行的技术之一。尽管它是用Scala开发的,并在Java虚拟机(JVM)中运行,但它附带了Python绑定,也称为PySpark,其API深受panda的影响。在功能方面,现代PySpark在典型的ETL和数据处理方面具有与Pandas相同的功能,例如groupby、聚合等等。
flavorfan
2021-09-10
19.3K
0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档