首页
学习
活动
专区
工具
TVP
发布

Coggle数据科学

Coggle全称Communicatio For Kaggle,专注数据科学领域竞赛相关资讯分享。 微信公众号:Coggle数据科学
专栏作者
81
文章
99956
阅读量
31
订阅数
深入理解推荐系统:如何多种业务场景合并建模
以往CTR(Click-Through Rate、点击率)预估模型更加关注于单个业务场景域(domain)的预测。在淘宝的App中,有多种domains需要用到CTR预估模型,比如首页推荐、猜你喜欢等等。如果每个场景都单独建模,模型的数目会很多,可能有几百个,维护成本变大,而且有的domains的数据比较少,模型的学习效果也不够好。考虑到不同domains之间有很大的共性,比如domains间的用户是重叠的、商品也是重叠的,一个思路是把多个domains放到一起建模,利用domains间的共享部分,提升其他domains的效果,减少模型的个数。
Coggle数据科学
2022-08-31
1.1K0
深入理解推荐系统:大厂如何进行CTR增量训练
互联网用户会训练大量在线产品和服务,因此很难区分什么对它们更有兴趣。为了减小信息过载,并满足用户的多样性需求,个性化推荐系统扮演着重要的角色。精准的个性化推荐系统有利于包括publisher和platform在内的需求侧和供给侧。
Coggle数据科学
2022-08-31
9680
2022 WSDM-Xmrec:跨境电商推荐挑战赛题方案
WSDM Cup on Cross-Market Recommendation Competition
Coggle数据科学
2022-08-31
3540
深入理解推荐系统:CTR平滑问题
在广告系统中,一个重要的指标是CTR。ctr=点击(Click)/曝光(Impression)。
Coggle数据科学
2022-08-31
8140
深入理解推荐系统:阿里DIN原理与实践
文章首先介绍了现有的点击率 (CTR) 预估模型大都满足相同的模式: 先将大量的稀疏类别特征 (Categorical Features) 通过 Embedding 技术映射到低维空间, 再将这些特征的低维表达按照特征的类别进行组合与变换 (文中采用 in a group-wise manner 来描述), 以形成固定长度的向量 (比如常用的 sum pooling / mean pooling), 最后将这些向量 concatenate 起来输入到一个 MLP (Multi-Layer Perceptron) 中, 从而学习这些特征间的非线性关系.
Coggle数据科学
2022-08-31
5640
深入理解推荐系统:微软xDeepFM原理与实践
上面的所有模型都使用DNN来学习高阶特征交叉。然而,DNN可以以一个隐式的方式建模高阶特征交叉。由DNN学到的最终函数可以是任意形式,关于特征交叉的最大阶数(maximum degree)没有理论上的结论。另外,DNNs在bit-wise级别建模征交叉,这与FM框架不同(它会在vector-wise级别建模)。这样,在推荐系统的领域,其中DNN是否是用于表示高阶特征交叉的最有效模型,仍然是一个开放问题。在本paper中,我们提供了一个基于NN的模型,以显式、vector-wise的方式来学习特征交叉。我们的方法基于DCN(Deep&Cross Network)之上,该方法能有效捕获有限阶数(bounded degree)的特征交叉。然而,我们会在第2.3节讨论,DCN将带来一种特殊形式的交叉。我们设计了一种新的压缩交叉网络CIN(compressed interaction network)来替换在DCN中的cross network。CIN可以显式地学到特征交叉,交叉的阶数会随着网络depth增长。根据Wide&Deep模型和DeepFM模型的精神,我们会结合显式高阶交叉模块和隐式交叉模型,以及传统的FM模块,并将该联合模型命名为“eXtreme Deep Factorization Machine (xDeepFM)”。这种新模型无需人工特征工程,可以让数据科学家们从无聊的特征搜索中解放出来。总结一下,主要有三个贡献:
Coggle数据科学
2022-08-31
7080
科大讯飞:电信客户流失预测赛方案
2022科大讯飞大赛于6月9日正式开赛了。Datawhale作为大赛生态伙伴,与科大讯飞联合设计了学习型赛事,帮助大家提升数据挖掘、CV、NLP等方向的实践技能。
Coggle数据科学
2022-08-31
1.5K0
GraphEmbedding实战系列:Node2vec原理与代码实战
论文:《node2vec: Scalable Feature Learning for Networks》
Coggle数据科学
2022-08-31
1.2K0
Kaggle知识点:缺失值处理
在进行数据竞赛中,数据预处理阶段经常需要对数据进行缺失值处理。关于缺失值的处理并没有想象中的那么简单。以下为一些经验分享,基本涵盖了大部分处理方式。
Coggle数据科学
2022-05-05
1.7K0
时序预测竞赛之异常检测算法综述
本文将介绍在时间序列预测相关问题中常见的异常检测算法,可以很大程度上帮助改善最终预测效果。
Coggle数据科学
2022-05-05
1.1K0
Kaggle知识点:类别特征处理
类别型特征(categorical feature)主要是指职业,血型等在有限类别内取值的特征。它的原始输入通常是字符串形式,大多数算法模型不接受数值型特征的输入,针对数值型的类别特征会被当成数值型特征,从而造成训练的模型产生错误。
Coggle数据科学
2022-05-05
1.2K0
一文梳理2017腾讯广告算法大赛决赛方案
时隔两年,这篇决赛方案梳理悄然登场,主要针对前十名的方案进行学习,17的腾讯赛算法是比较早的ctr比赛,很多方法都值得借鉴,同时也不乏有经典的操作。当时的我还没有开始参加数据竞赛,不过在之后的比赛中,也常分析这场经典赛事。接下来让我们回到两年前,以前来学习优秀方案。
Coggle数据科学
2021-12-24
9990
2019CCF-BDCI-乘用车细分市场销量预测方案(Top1%)
本文将带来最近一场比赛的方案分享,这是一场有关时间序列的问题,虽然没有进决赛,不过很多点还是非常值得学习的。希望能给大家带来帮助,也欢迎与我进行更多讨论。
Coggle数据科学
2021-12-24
6210
TIANCHI-全球城市计算挑战赛-完整方案及关键代码分享(季军)
首先很幸运能和杰少、林有夕成为队友,与你们一起比赛真是件无比轻松的事情。同时希望我的分享与总结能给大家带来些许帮助,并且一起交流学习。
Coggle数据科学
2021-12-24
5420
小米广告算法(CTR组)招聘
来自小米商业算法部广告算法(CTR组)的广告推荐职位,感兴趣的小伙伴,欢迎将简历投递至:wanghe11@xiaomi.com
Coggle数据科学
2021-07-06
5300
深入理解推荐系统:十大序列化推荐算法梳理
作为【推荐系统】系列文章的第九篇,将以“序列化推荐算法”作为今天的主角,主要介绍相关的模型原理和发展方向。
Coggle数据科学
2021-03-02
2K0
Kaggle知识点:文本相似度计算方法
文本相似度是指衡量两个文本的相似程度,相似程度的评价有很多角度:单纯的字面相似度(例如:我和他 v.s. 我和她),语义的相似度(例如:爸爸 v.s. 父亲)和风格的相似度(例如:我喜欢你 v.s. 我好喜欢你耶)等等。
Coggle数据科学
2021-02-23
2.5K0
机器学习中“距离与相似度”计算汇总
涵盖了常用到的距离与相似度计算方式,其中包括欧几里得距离、标准化欧几里得距离、曼哈顿距离、汉明距离、切比雪夫距离、马氏距离、兰氏距离、闵科夫斯基距离、编辑距离、余弦相似度、杰卡德相似度、Dice系数。
Coggle数据科学
2020-12-16
3K0
深入理解推荐系统:超长用户行为序列建模
作为【推荐系统】系列文章的第七篇,将以CIKM2020中的一篇论文“Search-based User Interest Modeling with Lifelong Sequential Behavior Data for Click-Through Rate Prediction”作为今天的主角,主要介绍针对Lifelong用户行为序列建模的方案,用户行为长度可以达到上万,而且可以像DIN那样,对于不同的候选商品从用户行为里查找有效的信息建模用户的特殊兴趣。
Coggle数据科学
2020-12-16
4.4K0
数据竞赛之常见数据抽样方式
该抽样方法是按等概率原则直接从总中抽取n个样本,这种随机样本方法简单,易于操作;但是它并不能保证样本能完美的代表总体,这种抽样的基本前提是所有样本个体都是等概率分布,但真实情况却是很多数样本都不是或无法判断是否等概率分布。在简单随机抽样中,得到的结果是不重复的样本集,还可以使用有放回的简单随机抽样,这样得到的样本集中会存在重复数据。该方法适用于个体分布均匀的场景。
Coggle数据科学
2020-12-15
1.1K0
点击加载更多
社区活动
Python精品学习库
代码在线跑,知识轻松学
【玩转EdgeOne】征文进行中
限时免费体验,发文即有奖~
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品·最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档