前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >杂谈 | 选搜索还是选推荐?

杂谈 | 选搜索还是选推荐?

作者头像
张小磊
发布2021-05-11 14:31:02
1.2K0
发布2021-05-11 14:31:02
举报

和邱锡鹏老师的合影

本周公司邀请了邱锡鹏老师来做了一个关于 nlp 预训练模型的讲座,线下和学术大佬的讨论请教,的确会对基础的理论知识框架有更清晰的认识。不过有的小伙伴可能会想,你不是做搜索,做推荐的吗,为啥去凑人家的 nlp 的热闹~哈哈哈,来了大佬不去凑热闹,拿什么发朋友圈(狗头)

晒一晒邱老师的签名书

其实最近也有一些小伙伴在后台,或者加我微信咨询一些关于搜索和推荐相关的问题,最常见的就是自己还在上学,或者本科,或者刚刚读研,亦或者是都读了一两年研了,现在想换到这个方向来,找我探讨可行性,或者了解这个方向的侧重点。

本质上讲,还是很多同学没有理清楚这几个方向的具体在工业界的区别。今天借着 nlp 这个开题,简单的扯一下 nlp,搜索,推荐这三个方向,给同学们提供一点参考。

话说,上来就问我(搜索,推荐)这行业还有前途吗?好不好转?自己的情况适不适合?应不应该转?这些问题都让我瞪大狗眼,不知该如何作答。另一方面,间接的帮人做决定的这类问题,我也不敢回答,毕竟是你的人生(好吧,我知道我回答了你也不一定参考~~~)

所以我也只能给你回答一下我了解的这几个方向在干啥,让你参考下自己做决定。今天扯点这类废话,后面有人问我此类问题,也有东西可以给他直接转发了(哈哈,一天一个偷懒小妙招~)

数据能力哪个方向都缺

首先,无论是哪个方向,我觉得都可以套用今天吴恩达过生日提出的口号:80% 的数据加 20% 的模型才是更好的 AI。

我现在越来越觉得,对于绝大多数算法工程师而言,优秀的数据处理能力,才是最重要的;其次是对业务的充分理解,进而形成的特征构建的能力;最后才是模型的事情。

对于算法这个方向,我想大多数公司的算法工程师应该分为这么两大类:面向平台的算法工程师,和面向业务的算法工程师。前者要么构建公司的机器学习平台,封装各类算法 API;要么在做各种底层训练的优化,面向训练指标和性能的提升。而后者无论是做 nlp,搜索,推荐,广告,亦或者是其它方向,都是要考虑怎么落地赚钱。

所以算法往往不是瓶颈,模型也不是掣肘你发挥的原因,首先要保证的是数据的质量可靠。就像打撸啊撸一样,人家 sofm 顶着上百的延迟,一样在韩服上了王者,我们总不能拿电脑当自己上不去分的理由(狗头~)

搜索推荐在技术栈的区别

搜索难。这是我做搜索以后最明显的体会,导师也多次强调:搜索是需要堆人力的。

推荐的模型折腾了这么多年,其实核心灵魂还是 FM 那一套。往前看,诸如经典的协同管理之流,可以套在 FM 的框架里解释;往后看,pnn,wide&deep,fnn,deepfm 之类的,都是 FM 套上了深度学习的思路来搞,不行再加点 attention,序列化之类的搞个 afm,din,dien 等等。

对于这些模型而言,换个模型带来的收益往往不如搞点优秀特征来的实在。

换到搜索其实某些内容和推荐很相似,但是难的地方在于搜索涉及的面太广。其实有时候看 nlp 的应用里,也会提到的信息检索,也就是说,在 nlp 看来,搜索也是 nlp 的一个应用方向。但是我个人更想将「现代化」的搜索定义为 nlp + 推荐的产物。

为什么说「现代化」的搜索呢。大家也都能体会到,我前两天在狗东买了个耳机,买之前搜索改型号的耳机,出来的自然都是耳机,但是当你买了以后再搜索同样的关键词,就会变成各种配件。

前两天两个同事讨论出去旅游的事情,也遇到这么一个例子,同样的目标地,两个消费观不同的同事用某订酒店 APP 进行搜索,发现展现出来的列表截然不同,A 搜索结果的均价是 B 的两倍。

所以现在的搜索不仅仅是搜了以后做个匹配检索就完事儿了,甚至有时候还要再加上个性化。而这一部分就是典型的推荐系统的领域。

之前的文章:一篇文章告诉你搜索引擎是如何工作的,有介绍过搜索需要涉及到的常见工作内容,和推荐相比,可以看到搜索的联想,纠错,改写,Ner 之类的都是典型的 nlp 任务。但是如果你工作的重点在于召回排序一侧的话,就和推荐比较相似了(当然很多细节上的处理还是很有区别的,无论是样本的选取,排序的思路,离线指标的设计等等,都是有所差异的)。

其实换个角度来看,搜索的双塔是 query 和 item,推荐的双塔是 user 和 item,那么在 item 一侧的处理大家无非都是 embedding,但是 user 可以同样去做 embedding,而 query 就需要很多上面提到的处理了,这也是两者互通与不同的地方。

总的来说,从搜索可以转到 nlp,可以转到推荐,但是取决于你的工作重点在于前面提到的 query 侧还是 item 侧。我目前的工作重点也集中在搜索的召回与推荐上,后面文章的分享也会重点在搜索和推荐在召回与排序方向上的收获。

总结

和大家简单聊聊工作具体的内容,也是回答一些经常私信我的同学的常见问题,希望对大家有所帮助,有啥问题也欢迎后台找我,或者加底下的微信私聊。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-04-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器学习与推荐算法 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 数据能力哪个方向都缺
  • 搜索推荐在技术栈的区别
  • 总结
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档