首页
学习
活动
专区
工具
TVP
发布

Coggle数据科学

Coggle全称Communicatio For Kaggle,专注数据科学领域竞赛相关资讯分享。 微信公众号:Coggle数据科学
专栏作者
81
文章
101572
阅读量
31
订阅数
深入理解推荐系统:CTR平滑问题
在广告系统中,一个重要的指标是CTR。ctr=点击(Click)/曝光(Impression)。
Coggle数据科学
2022-08-31
8380
小米广告算法(CTR组)招聘
来自小米商业算法部广告算法(CTR组)的广告推荐职位,感兴趣的小伙伴,欢迎将简历投递至:wanghe11@xiaomi.com
Coggle数据科学
2021-07-06
5370
数据竞赛之常见数据抽样方式
该抽样方法是按等概率原则直接从总中抽取n个样本,这种随机样本方法简单,易于操作;但是它并不能保证样本能完美的代表总体,这种抽样的基本前提是所有样本个体都是等概率分布,但真实情况却是很多数样本都不是或无法判断是否等概率分布。在简单随机抽样中,得到的结果是不重复的样本集,还可以使用有放回的简单随机抽样,这样得到的样本集中会存在重复数据。该方法适用于个体分布均匀的场景。
Coggle数据科学
2020-12-15
1.2K0
深入理解推荐系统:特征交叉组合模型演化简史
深入理解推荐系统:Fairness、Bias和Debias​mp.weixin.qq.com
Coggle数据科学
2020-11-03
2.3K0
厦门国际银行 “数创金融杯”数据建模大赛-冠军分享
成员介绍:团队成员由当下国内赛圈著名选手组成,一月三冠选手宁缺,赛圈网红林有夕,以及最具潜力选手孙中宇组成。
Coggle数据科学
2020-06-23
1.3K0
深入理解XGBoost:分布式实现
本文将重点介绍XGBoost基于Spark平台Scala版本的实现,带领大家逐步完成特征提取、变换和选择、XGBoost模型训练、Pipelines、模型选择。
Coggle数据科学
2020-03-17
3.8K0
TIANCHI天池-OGeek算法挑战赛分享及完整代码(亚军)
首先很幸运拿到本次大赛的亚军,同时非常感谢大佬队友的带飞,同时希望我的分享与总结能给大家带来些许帮助,并且一起交流学习。
Coggle数据科学
2019-09-12
1.1K0
模型选择之交叉验证
交叉验证是在机器学习建立模型和验证模型参数时常用的办法,一般被用于评估一个机器学习模型的表现。更多的情况下,我们也用交叉验证来进行模型选择(model selection)。
Coggle数据科学
2019-09-12
1.5K0
集成学习概述
集成学习本身不是一个单独的机器学习算法,而是通过构建并结合多个机器学习器来完成学习任务。也就是我们常说的“博采众长”。集成学习可以用于分类问题集成,回归问题集成,特征选取集成,异常点检测集成等等,可以说所有的机器学习领域都可以看到集成学习的身影。本文就对集成学习方法进行简单的总结和概述。
Coggle数据科学
2019-09-12
5830
李航《统计学习方法》朴素贝叶斯分类器实现
朴素贝叶斯认为所有特征都是独立的,然后得出一个样本出现的概率使其所有特征出现概率的联乘。
Coggle数据科学
2019-09-12
6760
奇异值分解(SVD)原理
的图片,如果以像素值作为特征,那么每张图片的特征维度是10000。当进行PCA降维时,难点在于我们构造协方差矩阵时,维度达到
Coggle数据科学
2019-09-12
1.9K0
机器学习面试干货精讲
本内容涉及模型核心数学公式,把本人面试中常被问到问题以及模型知识点的总结,起到提纲挈领作用,在准备的过程中抓住每个模型的重点。
Coggle数据科学
2019-09-12
7850
天池-OGeek算法挑战赛Baseline(0.7016)
此baseline是西安电子科技大学小幸运所提供,借此平台能够帮助更多新入手同学。
Coggle数据科学
2019-09-12
5750
特征选择
特征选择是特征工程里的一个重要问题,其目标是寻找最优特征子集。特征选择能剔除不相关(irrelevant)或冗余(redundant )的特征,从而达到减少特征个数,提高模型精确度,减少运行时间的目的。另一方面,选取出真正相关的特征简化模型,协助理解数据产生的过程。并且常能听到“数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已”,由此可见其重要性。但是它几乎很少出现于机器学习书本里面的某一章。然而在机器学习方面的成功很大程度上在于如果使用特征工程。
Coggle数据科学
2019-09-12
9680
机器学习/数据挖掘面试总结
一面基本从项目里面提问,所有所写项目务必全部吃透,例如为何用这个模型,和其它的模型的区别,为什么不选用其它模型。
Coggle数据科学
2019-09-12
8410
李航《统计学习方法》决策树ID3算法实现
机器学习算法其实很古老,作为一个码农经常会不停的敲if, else if, else,其实就已经在用到决策树的思想了。只是你有没有想过,有这么多条件,用哪个条件特征先做if,哪个条件特征后做if比较优呢?怎么准确的定量选择这个标准就是决策树机器学习算法的关键了。1970年代,一个叫昆兰的大牛找到了用信息论中的熵来度量决策树的决策选择过程,方法一出,它的简洁和高效就引起了轰动,昆兰把这个算法叫做ID3。下面给出ID3算法的初始形式。
Coggle数据科学
2019-09-12
5620
判别模型与生成模型
监督学习方法可以分为生成方法(generative approach)和判别方法(discriminative approach),所学到的模型分别称为生成模型(generative model)和判别模型(discriminative model)。
Coggle数据科学
2019-08-29
9370
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档