首页
学习
活动
专区
工具
TVP
发布

Coggle数据科学

Coggle全称Communicatio For Kaggle,专注数据科学领域竞赛相关资讯分享。 微信公众号:Coggle数据科学
专栏作者
81
文章
101661
阅读量
31
订阅数
Kaggle知识点:缺失值处理
在进行数据竞赛中,数据预处理阶段经常需要对数据进行缺失值处理。关于缺失值的处理并没有想象中的那么简单。以下为一些经验分享,基本涵盖了大部分处理方式。
Coggle数据科学
2022-05-05
1.8K0
时序预测竞赛之异常检测算法综述
本文将介绍在时间序列预测相关问题中常见的异常检测算法,可以很大程度上帮助改善最终预测效果。
Coggle数据科学
2022-05-05
1.1K0
Kaggle知识点:类别特征处理
类别型特征(categorical feature)主要是指职业,血型等在有限类别内取值的特征。它的原始输入通常是字符串形式,大多数算法模型不接受数值型特征的输入,针对数值型的类别特征会被当成数值型特征,从而造成训练的模型产生错误。
Coggle数据科学
2022-05-05
1.3K0
一文梳理2017腾讯广告算法大赛决赛方案
时隔两年,这篇决赛方案梳理悄然登场,主要针对前十名的方案进行学习,17的腾讯赛算法是比较早的ctr比赛,很多方法都值得借鉴,同时也不乏有经典的操作。当时的我还没有开始参加数据竞赛,不过在之后的比赛中,也常分析这场经典赛事。接下来让我们回到两年前,以前来学习优秀方案。
Coggle数据科学
2021-12-24
1K0
TIANCHI-全球城市计算挑战赛-完整方案及关键代码分享(季军)
首先很幸运能和杰少、林有夕成为队友,与你们一起比赛真是件无比轻松的事情。同时希望我的分享与总结能给大家带来些许帮助,并且一起交流学习。
Coggle数据科学
2021-12-24
5540
小米广告算法(CTR组)招聘
来自小米商业算法部广告算法(CTR组)的广告推荐职位,感兴趣的小伙伴,欢迎将简历投递至:wanghe11@xiaomi.com
Coggle数据科学
2021-07-06
5370
Kaggle知识点:文本相似度计算方法
文本相似度是指衡量两个文本的相似程度,相似程度的评价有很多角度:单纯的字面相似度(例如:我和他 v.s. 我和她),语义的相似度(例如:爸爸 v.s. 父亲)和风格的相似度(例如:我喜欢你 v.s. 我好喜欢你耶)等等。
Coggle数据科学
2021-02-23
2.5K0
机器学习中“距离与相似度”计算汇总
涵盖了常用到的距离与相似度计算方式,其中包括欧几里得距离、标准化欧几里得距离、曼哈顿距离、汉明距离、切比雪夫距离、马氏距离、兰氏距离、闵科夫斯基距离、编辑距离、余弦相似度、杰卡德相似度、Dice系数。
Coggle数据科学
2020-12-16
3K0
数据竞赛之常见数据抽样方式
该抽样方法是按等概率原则直接从总中抽取n个样本,这种随机样本方法简单,易于操作;但是它并不能保证样本能完美的代表总体,这种抽样的基本前提是所有样本个体都是等概率分布,但真实情况却是很多数样本都不是或无法判断是否等概率分布。在简单随机抽样中,得到的结果是不重复的样本集,还可以使用有放回的简单随机抽样,这样得到的样本集中会存在重复数据。该方法适用于个体分布均匀的场景。
Coggle数据科学
2020-12-15
1.2K0
深入理解推荐系统:Fairness、Bias和Debias
作为【推荐系统】系列文章的第四篇,将以推荐系统的“Fairness公平性”作为今天的主角,会从四个方面来介绍Fairness的相关问题、解决方案、相关比赛和参考文献。
Coggle数据科学
2020-07-27
8960
厦门国际银行 “数创金融杯”数据建模大赛-冠军分享
成员介绍:团队成员由当下国内赛圈著名选手组成,一月三冠选手宁缺,赛圈网红林有夕,以及最具潜力选手孙中宇组成。
Coggle数据科学
2020-06-23
1.3K0
冠军7w美金,2020腾讯广告算法大赛正式开始!!!
期待已久的2020腾讯广告算法大赛终于开始了,本届赛题“广告受众基础属性预估”。本文将给出基本解题思路,以及最完备的竞赛资料,助力各位取得优异成绩!!!
Coggle数据科学
2020-04-17
9340
深入理解推荐系统:召回
鱼遇雨欲语与余:深入理解YouTube推荐系统算法​zhuanlan.zhihu.com
Coggle数据科学
2020-04-03
2.9K0
GNN 系列(三):GraphSAGE
在GCN的博文中我们重点讨论了图神经网络的逐层传播公式是如何推导的,然而,GCN的训练方式需要将邻接矩阵和特征矩阵一起放到内存或者显存里,在大规模图数据上是不可取的。其次,GCN在训练时需要知道整个图的结构信息(包括待预测的节点), 这在现实某些任务中也不能实现(比如用今天训练的图模型预测明天的数据,那么明天的节点是拿不到的)。GraphSAGE的出现就是为了解决这样的问题,这篇文中我们将会详细得讨论它。
Coggle数据科学
2019-09-12
1K0
TIANCHI-津南数字制造算法挑战赛【赛场一】基本分析&Baseline
有趣的是,训练集中缺失值比较多的A23和A21在测试集中并无缺失,同样地,测试集中缺失概率达67%的A25、A27和A20反而在训练集中并无缺失。(此处作者笔误,缺失率只有0.67%)
Coggle数据科学
2019-09-12
6190
2018科大讯飞AI营销算法大赛总结及完整代码(冠军)
bettenW/2018-iFLYTEK-Marketing-Algorithms-Competition-Finals-Rank1​github.com
Coggle数据科学
2019-09-12
2K0
奇异值分解(SVD)原理
的图片,如果以像素值作为特征,那么每张图片的特征维度是10000。当进行PCA降维时,难点在于我们构造协方差矩阵时,维度达到
Coggle数据科学
2019-09-12
1.9K0
动态规划问题总结
动态规划算法通常基于一个递推公式及一个或多个初始状态。当前子问题的解将由上一次子问题的解推出。使用动态规划来解题只需要多项式时间复杂度,因此它比回溯法、暴力法等要快许多。 首先,我们要找到某个状态的最优解,然后在它的帮助下,找到下一个状态的最优解。
Coggle数据科学
2019-09-12
1.1K0
2019腾讯广告算法大赛入门-Part1(竞赛小白晋升之路)
这试腾讯的第三届广告算法大赛,也是我第二次参加,18年很意外的拿到第十一名,虽然距离决赛只差一步,不过结果还是很令我满意的,毕竟去年的我只是初打比赛不久的小白。作为过来人,我想在此分享下我的基本解题思路。让我们一起打比赛吧!!!
Coggle数据科学
2019-09-12
9890
TIANCHI-全球城市计算挑战赛-完整方案及关键代码分享(季军)
首先很幸运能和杰少、林有夕成为队友,与你们一起比赛真是件无比轻松的事情。同时希望我的分享与总结能给大家带来些许帮助,并且一起交流学习。
Coggle数据科学
2019-09-12
1.6K1
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档