十问机器学习

本文中的问题精选自上期【你问我答】——深度学习专题中读者的提问。【你问我答】是由美团点评技术团队推出的线上问答服务,你在工作学习中遇到的各种技术问题,都可以通过我们微信公众号发问,我们5000+工程师会义务为你解答,欢迎大家踊跃提问。高质量、定义清晰的问题会优先获得解答。

Q1:您好,有一个问题想请教一下。这里有一批用户的App行为数据,但是有些存在缺失,怎样从相对完整的用户行为数据中,推断出用户缺失的那部分行为数据?思路是怎样的?

A:如果缺失的用户行为数据是数值型,可以建立预测缺失数据的模型,用已有数据训练模型,然后预测结果填充;如果不是,比如埋点统计的用户操作行为之类的,可以通过统计已有数据的分布规律,用随机函数+规则去填充。

Q2:第一,想问下特征提取以及如何删除一些无用的特征。第二,美团点评都使用了哪些推荐系统算法?

A:1. 特征提取的关键在于理解业务数据和业务逻辑,这样才能分析出哪些因素与预测目标相关,另外某些场景还需要对原始特征进行特定的数学变换才能更好地应用。特征筛选可采用的策略比较多,比如树模型、L1正则化等等,主流工具是XGBoost。 2. 美团点评的推荐系统里,召回主要是融合协同过滤、位置、搜索查询、实时用户行为等算法。排序主要采用Learning to Rank技术。

Q3:机器学习的最优新手路程是什么,有没有一套标准的书的栏目?

A:建议看李航的《统计学习方法》打好基础,配合视频coursra《Machine Learning》。喜欢看视频的同学可以看下台大林轩田的两套视频。 之后,开始找一些简单的竞赛题目(基础的点击预估)练手,推荐工具:pandas,sklearn。

Q4:机器学习模型筛选特征一般怎么做?

A:我了解到的筛选特征有两大类,第一类是用固定的评价指标衡量特征对数据的描述能力,例如使用ID3决策树对数据进行分类,就能利用IC3内部的信息增益机制知道哪些特征能够很好的区分数据(信息增益最大),然后用筛选出的特征子集放到自己的模型里训练;第二类是利用模型的反馈来筛选特征,例如向初始为空的特征子集中不断添加能够最大提高模型预测能力的特征,直到添加的特征对模型的预测能力几乎没有提升为止。同样逐步删除特征是该类方法下另一种比较常见的选择特征方式。两大类方法的区别是第一类速度快,但是缺少反馈,第二类结果比较好,但是速度太慢。

Q5:L1正则可以获得稀疏解的数学原理是什么?

A:从梯度下降方法看,由于L1范数的梯度恒定,带来的惩罚效果与位置无关,从而更容易将原损失函数惩罚到0。

Q6:文本分类有什么比较好的算法吗?性能能明显超过tfidf/word2vec + linearsvm/bayes这类传统方法的,谢谢~

A:还是强推一波textCNN,如果embedding那段训练数据量不够,可以使用word2vec代替,效果还是很不错的。

Q7:请教一下,搜索排序的样本集怎么取?我理解模型的作用是对全部返回的item进行排序,但训练的时候却只用了曝光出来的数据,已经使用了线上模型的排序结果,这样会不会造成越是线上模型认为重要的特征越会被低估重要度?召回层和排序层的区分是想解决这个问题吗?

A:一般训练是这样,但是特征提取有泛化性,所以没曝光的结果也可以被很好地学习。召回更多是希望减少精排计算量,又尽可能不损失用户感兴趣结果。

Q8:请教一下,基于wide&deep的推荐排序模型那块,训练集的特征标注是通过人工标注还是其他方式?

A:W&D推荐标注都是基于用户行为数据自动标注的。

Q9:以前做视频中的目标检测,用VIBE算法就能取得较好效果,现在都用深度学习做吗?

A:视频中的目标检测,目前深度学习方法在该领域占据统治地位,ILSVRC 2016 VID比赛的前五名都是深度学习。VIBE的实时性不错,但性能和深度学习比还是有明显差距的。

Q10:想问一下有没有人使用过FM模型来算点击率的?有没有哪些开源工程化的代码可以参考呢?

A:Kaggle上面有一些点击率的比赛,都有公开的代码,可以参考一下 Criteo Display Advertising Challenge 和 Avazu Click-Through Rate Prediction等。

原文发布于微信公众号 - 美团点评技术团队(meituantech)

原文发表时间:2017-10-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数说工作室

造出一艘logistic模型 | 【logistic从生产到使用】(上) | 数说 · 算法

前几天飞扬博士更新了一篇算法文章,关于softmax regression的,它是logistic模型的扩展,因此要是能有些logistic regressi...

3355
来自专栏机器之心

KDD 2018 | 腾讯提出用于文本匹配的多信道信息交叉模型,在真实任务中表现优异

2062
来自专栏数据科学与人工智能

【数据科学】数据科学书上很少提及的三点经验

【编者按】本文作者指出了关于数据科学书上很少提及的三点经验:模型评价方法是关键,特征提取是根本,模型选择而非数据集规模最费时间。文章指出,处理上万维的特征和几十...

22010
来自专栏量子位

Keras作者Chollet谈深度学习的未来:自动调参,极端泛化

王小新 编译自 Keras Blog 量子位 出品 | 公众号 QbitAI Francois Chollet是深度学习框架Keras库的作者和谷歌人工智能研究...

3355
来自专栏大数据挖掘DT机器学习

美国电商平台的个性化推荐算法实践及优化思路

本文介绍了手工艺品电商平台Etsy的个性化推荐算法实践及优化思路,计算过程分为基于历史数据建模和计算推荐结果两个阶段,采用的手段主要包括矩阵分解、交替...

3628
来自专栏ATYUN订阅号

机器学习初学者常犯的六大错误总结

在机器学习中,有很多方法来构建产品或解决方案,而且每种方法都有不同的假设。很多时候,如何识别哪些假设是合理的并不是件容易的事情。在最初的操作中,机器学习新手总会...

2797
来自专栏PPV课数据科学社区

【译】从文本挖掘和机器学习中洞悉数据

版权申明 作者:Murat Yazici 原文链接:http://www.ibmbigdatahub.com/b ... rning 翻译:星星 ...

2689
来自专栏向治洪

[置顶] 机器学习简介及常用算法

概念 什么是机器学习? 机器学习是英文名称Machine Learning(简称ML)的直译。机器学习涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多...

1778
来自专栏企鹅号快讯

机器学习初学者常犯的六大错误总结

AiTechYun 编辑:yining 在机器学习中,有很多方法来构建产品或解决方案,而且每种方法都有不同的假设。很多时候,如何识别哪些假设是合理的并不是件容易...

1778
来自专栏人工智能头条

放弃 RNN/LSTM 吧,因为真的不好用!望周知~

1476

扫描关注云+社区