SAMshare-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

SAMshare

专栏成员

272

文章

311638

阅读量

39

订阅数

用PySpark开发时的调优思路（上）

文件存储 spark python

这一小节的内容算是对pyspark入门的一个ending了，全文主要是参考学习了美团Spark性能优化指南的基础篇和高级篇内容，主体脉络和这两篇文章是一样的，只不过是基于自己学习后的理解进行了一次总结复盘，而原文中主要是用Java来举例的，我这边主要用pyspark来举例。文章主要会从4个方面（或者说4个思路）来优化我们的Spark任务，主要就是下面的图片所示：（本小节只写了开发习惯调优哈）

2021-06-25

1.4K0

推荐系统中模型训练及使用流程的标准化

文件存储推荐系统

导读：本次分享的主题为推荐系统中模型训练及使用流程的标准化。在整个推荐系统中，点击率 ( CTR ) 预估模型是最为重要，也是最为复杂的部分。无论是使用线性模型还是当前流行的深度模型，在模型结构确定后，模型的迭代主要在于特征的选择及处理方面。因而，如何科学地管理特征，就显得尤为重要。在实践中，我们对特征的采集、配置、处理流程以及输出形式进行了标准化：通过配置文件和代码模板管理特征的声明及追加，特征的选取及预处理等流程。由于使用哪些特征、如何处理特征等流程均在同一份配置文件中定义，因而，该方案可以保证离线训练和在线预测时特征处理使用方式的代码级一致性。

2019-11-15

1.9K0

MLK | 一文理清深度学习循环神经网络

文件存储神经网络机器学习深度学习

在开始讲循环神经网络之前，我们可以简单来回顾一下前向神经网络的知识点，因为这一块的知识是有一些互通的呢（请戳《一文理清深度学习前馈神经网络》）。

2019-10-30

6490

推荐收藏 | Pandas常见的性能优化方法

css 文件存储

Pandas是数据科学和数据竞赛中常见的库，我们使用Pandas可以进行快速读取数据、分析数据、构造特征。但Pandas在使用上有一些技巧和需要注意的地方，如果你没有合适的使用，那么Pandas可能运行速度非常慢。本文将整理一些Pandas使用技巧，主要是用来节约内存和提高代码速度。

2019-10-15

1.3K0

推荐收藏 | Facets快速评估数据集质量

文件存储机器学习神经网络深度学习人工智能

在机器学习任务中，数据集的质量优劣对数据分析的结果影响非常大，所谓Garbage in, garbage out，数据决定模型的上限，因此数据质量成为数据分析流程不可或缺的一个环节。即使是像Kaggle那样主办方已经把数据集准备好的场景，也需要评估train set和test set的分布是否一致，存不存在偏斜等。如果两者不一致，可能会导致离线cv分数非常高，可是在leaderborad却下跌了很多，以至于大量花在模型调参上的功夫其实都白费了。

2019-08-28

1.3K0

BigData | Beam的基本操作（PCollection）

apache 大数据 css 数据处理文件存储

在一开始接触到PCollection的时候，也是一脸懵逼的，因为感觉这个概念有点抽象，除了PCollection，还有PValue、Transform等等，在学习完相关课程之后，也大致有些了解。

2019-08-09

1.3K0

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态