腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
SAMshare
专栏成员
举报
272
文章
311638
阅读量
39
订阅数
订阅专栏
申请加入专栏
全部文章(272)
编程算法(114)
机器学习(84)
神经网络(68)
深度学习(67)
人工智能(52)
python(45)
https(39)
网络安全(33)
数据分析(18)
sql(15)
linux(15)
决策树(15)
大数据(14)
github(13)
spark(11)
数据库(8)
bash(7)
apache(7)
腾讯云测试服务(7)
hadoop(7)
数据结构(7)
git(6)
api(6)
mapreduce(6)
文件存储(6)
开源(6)
正则表达式(6)
数据处理(6)
特征工程(6)
java(5)
numpy(5)
windows(5)
数据挖掘(4)
css(4)
http(4)
监督学习(4)
NLP 服务(3)
javascript(3)
node.js(3)
html(3)
unix(3)
批量计算(3)
容器(3)
分布式(3)
推荐系统(3)
scikit-learn(3)
模型(3)
c 语言(2)
c++(2)
scala(2)
matlab(2)
bash 指令(2)
spring(2)
访问管理(2)
网站(2)
日志数据(2)
金融风控(2)
自动化(2)
卷积神经网络(2)
线性回归(2)
keras(2)
自动化测试(2)
pytorch(2)
markdown(2)
无监督学习(2)
数据可视化(2)
聚类算法(2)
precision(2)
target(2)
云镜(主机安全)(1)
语音识别(1)
其他(1)
官方文档(1)
go(1)
xml(1)
单片机(1)
云数据库 SQL Server(1)
nosql(1)
打包(1)
ide(1)
vba(1)
全文检索(1)
ubuntu(1)
容器镜像服务(1)
日志服务(1)
TAPD 敏捷项目管理(1)
知识图谱(1)
图像处理(1)
企业(1)
vr 视频解决方案(1)
yarn(1)
存储(1)
shell(1)
jdk(1)
ssh(1)
hive(1)
grep(1)
二叉树(1)
tcp/ip(1)
kernel(1)
微信(1)
腾讯云开发者社区(1)
processing(1)
敏感数据处理(1)
kafka(1)
unicode(1)
项目管理(1)
area(1)
break(1)
class(1)
curve(1)
dp(1)
dt(1)
email(1)
excel(1)
for循环(1)
goto(1)
kaggle(1)
lift(1)
list(1)
member(1)
pdf(1)
position(1)
pyspark(1)
time(1)
产品(1)
产品经理(1)
公众号(1)
函数(1)
集合(1)
架构(1)
监控(1)
可视化(1)
面试(1)
数据(1)
统计(1)
性能(1)
搜索文章
搜索
搜索
关闭
用PySpark开发时的调优思路(上)
文件存储
spark
python
这一小节的内容算是对pyspark入门的一个ending了,全文主要是参考学习了美团Spark性能优化指南的基础篇和高级篇内容,主体脉络和这两篇文章是一样的,只不过是基于自己学习后的理解进行了一次总结复盘,而原文中主要是用Java来举例的,我这边主要用pyspark来举例。文章主要会从4个方面(或者说4个思路)来优化我们的Spark任务,主要就是下面的图片所示:(本小节只写了开发习惯调优哈)
Sam Gor
2021-06-25
1.4K
0
推荐系统中模型训练及使用流程的标准化
文件存储
推荐系统
导读:本次分享的主题为推荐系统中模型训练及使用流程的标准化。在整个推荐系统中,点击率 ( CTR ) 预估模型是最为重要,也是最为复杂的部分。无论是使用线性模型还是当前流行的深度模型,在模型结构确定后,模型的迭代主要在于特征的选择及处理方面。因而,如何科学地管理特征,就显得尤为重要。在实践中,我们对特征的采集、配置、处理流程以及输出形式进行了标准化:通过配置文件和代码模板管理特征的声明及追加,特征的选取及预处理等流程。由于使用哪些特征、如何处理特征等流程均在同一份配置文件中定义,因而,该方案可以保证离线训练和在线预测时特征处理使用方式的代码级一致性。
Sam Gor
2019-11-15
1.9K
0
MLK | 一文理清深度学习循环神经网络
文件存储
神经网络
机器学习
深度学习
在开始讲循环神经网络之前,我们可以简单来回顾一下前向神经网络的知识点,因为这一块的知识是有一些互通的呢(请戳《一文理清 深度学习前馈神经网络》)。
Sam Gor
2019-10-30
649
0
推荐收藏 | Pandas常见的性能优化方法
css
文件存储
Pandas是数据科学和数据竞赛中常见的库,我们使用Pandas可以进行快速读取数据、分析数据、构造特征。但Pandas在使用上有一些技巧和需要注意的地方,如果你没有合适的使用,那么Pandas可能运行速度非常慢。本文将整理一些Pandas使用技巧,主要是用来节约内存和提高代码速度。
Sam Gor
2019-10-15
1.3K
0
推荐收藏 | Facets快速评估数据集质量
文件存储
机器学习
神经网络
深度学习
人工智能
在机器学习任务中,数据集的质量优劣对数据分析的结果影响非常大,所谓Garbage in, garbage out,数据决定模型的上限,因此数据质量成为数据分析流程不可或缺的一个环节。即使是像Kaggle那样主办方已经把数据集准备好的场景,也需要评估train set和test set的分布是否一致,存不存在偏斜等。如果两者不一致,可能会导致离线cv分数非常高,可是在leaderborad却下跌了很多,以至于大量花在模型调参上的功夫其实都白费了。
Sam Gor
2019-08-28
1.3K
0
BigData | Beam的基本操作(PCollection)
apache
大数据
css
数据处理
文件存储
在一开始接触到PCollection的时候,也是一脸懵逼的,因为感觉这个概念有点抽象,除了PCollection,还有PValue、Transform等等,在学习完相关课程之后,也大致有些了解。
Sam Gor
2019-08-09
1.3K
0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档