范传康的专栏-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

范传康的专栏

专栏成员

45

文章

128402

阅读量

25

订阅数

推荐系统负采样的几种实现

大数据推荐系统 python

作为推荐模型训练的重要组成部分，推荐系统的负采样对模型的训练效果有着重要的影响，也是重要研究分支。实际的推荐系统场景，大部分数据是隐式反馈信息。对于模型训练，一般假设用户交互过的产品都是正例，通过抽样，选择用户没有交互过的部分产品作为负例。根据一定的策略从用户的非交互产品集中选择负样本的过程称为负样本采样（Negative Sampling）。

2022-07-08

1.8K0

使用Elasticsearch、Spark构建推荐系统 #2：深入分析

spark Elasticsearch Service 推荐系统机器学习大数据

Elasticsearch-spark-based recommender系统方案的两个关键步骤：

2022-04-08

3.6K0

使用Elasticsearch、Spark构建推荐系统 #1：概述及环境构建

云数据仓库套件 sparkling 大数据推荐系统机器学习 Elasticsearch Service

推荐系统是机器学习当前最著名、最广泛使用，且已经证明价值的落地案例。尽管有许多资源可用作训练推荐模型的基础，但解释如何实际部署这些模型来创建大型推荐系统的资源仍然相对较少。

2022-03-18

3.4K0

PySpark on HPC 续：批量处理的框架的工程实现

spark 大数据

PySpark on HPC系列记录了我独自探索在HPC利用PySpark处理大数据业务数据的过程，由于这方面资料少或者搜索能力不足，没有找到需求匹配的框架，不得不手搓一个工具链，容我虚荣点，叫“框架”。框架的实现功能如下：

2022-01-21

1.4K0

PySpark on hpc 续：合理分区处理及合并输出单一文件

spark 大数据 python

在HPC上启动任务以local模式运行自定义spark，可以自由选择spark、python版本组合来处理数据；起多个任务并行处理独立分区数据，只要处理资源足够，限制速度的只是磁盘io。本地集群处理需要2周的数据，2个小时就处理好了。HPC通常没有数据库，进一步BI展示或者处理需要拉回本地集群，这时候需要把数据块（比如一天）的数据保存为tsv.gz拉回本地集群。pyspark dataframe 提供write的save方法，可以写tsv.gz，spark默认是并行写，所以在提供outpath目录下写多个文件。这个时候，需要顺序拼接多个tsv文件并压缩为gz格式。

2022-01-12

1.5K0

spark 高性能计算大数据

本地内部集群资源有限，简单的数据处理跑了3天。HPC上有很多计算资源，出于先吃锅里的再吃碗里的思想，琢磨先充分利用共有资源。简单调研下，也不是很复杂的事情。

2021-12-10

1.7K0

PySpark UD(A)F 的高效使用

大数据 spark

Spark无疑是当今数据科学和大数据领域最流行的技术之一。尽管它是用Scala开发的，并在Java虚拟机(JVM)中运行，但它附带了Python绑定，也称为PySpark，其API深受panda的影响。在功能方面，现代PySpark在典型的ETL和数据处理方面具有与Pandas相同的功能，例如groupby、聚合等等。

2021-09-10

19.6K0

基于云计算的 CV 移动交互应用研究：头部姿态估计综述（2）

人工智能机器学习人脸识别大数据

导语随便说说，其一，项目的原名是“CV移动交互应用的前后台框架”，为了高大上，起了个“云计算”；其二，这是动手写的第一篇，不过在规划里面第二篇，第一篇项目概述没想好；这篇文章主要来之IEEE的一篇文章，是CV算法实现方案的指导性综述。 1 概述 1.1 定义头部姿态估计（Head Pose Estimate，HPE）：利用计算机视觉和模式识别的方法在数字图像中判断人头部的朝向问题；头部姿态估计是一个空间坐标系内识别头部的姿态方向参数,也就是，头部位置参数(x,y,z) 和方向角度参数(Yaw,Pitch

2018-01-15

2.5K0

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态