付晴川,目前在美团网技术工程部数据组担任技术专家。长期致力于机器学习&数据挖掘相关工作,曾就职于百度搜索研发部负责网页/图片分析,现任职于美团技术工程部,负责用户相关的数据挖掘工作。
CSDN:您对算法是怎样理解的?以及您认为算法有哪些应用领域?
付晴川:听过李开复老师的演讲《算法的力量》,也阅读过吴军老师的大作《数学之美》,不得不说算法是许多高效计算机程序的灵魂。 像查找、排序等等这样广义上讲的算法,实际上已经渗透到凡是涉及计算机程序上的几乎所有的领域了;而像机器学习/数据挖掘等等这样狭义上讲的算法,目前也越来越多的应用在电商、搜索、金融、游戏等领域中的分析、挖掘、推荐上。
CSDN:算法在美团都有哪些应用?以及如何评价算法带来的商业效果?
付晴川:美团有团购、外卖、酒店、电影等多个产品线,每个产品线都有海量的用户以及这些用户产生的海量数据。如何高效处理这些数据,是需要算法来驱动的,目前跟算法特别是机器学习有关的应用主要有:个性化推荐/排序、风险控制、精细化运营、行业大数据据报告等等。
至于算法带来的商业效果,主要是通过离线、在线对比实测数据影响来完成,离线评测会有一些具体的指标, 比如排序问题的ndcg, 分类的问题的准确/召回等,而线上通常会A/B test考察访购率、点击率的提升幅度等等。
CSDN:算法工程师面试美团,作为美团的数据组技术专家的您有哪些建议?
付晴川:算法工程师实际上是需要考察三个方面的:
CSDN:在这么多年的工作中您肯定使用了很多算法,再结合目前的工作,您感觉哪些算法比较重要?他们各有什么优势和劣势。
付晴川:我这里主要说说机器学习相关的算法,像分类用我自己用的比较多的就是:SVM/LR/最大熵/以及各种基于决策树的方法;聚类主要是kmeans及其变体;回归的话主要是线性回归/Lasso/Rigde等,损失函数通常会自己调整;推荐的话尝试过ALS。
直接探讨算法本身的优劣可能意义不大,通常需要基于不同的应用场景选择不同的算法,需要考虑的维度有样本量的大小、类别是否平衡、数据规模大小(性能tradeoff)、特征数量以及稀疏情况等等,比如说,SVM/最大熵/LR同样都是分类模型,但是在CTR的应用中LR最吃香,文本分类中SVM是王者,最大熵作为最完美的模型,反而因为实现和计算的复杂性应用的比较少。