前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >超详细!腾讯NLP算法岗面经(已offer)

超详细!腾讯NLP算法岗面经(已offer)

作者头像
NewBeeNLP
发布2020-08-26 16:56:57
3.2K0
发布2020-08-26 16:56:57
举报
文章被收录于专栏:NewBeeNLPNewBeeNLP

作者 | ZipZou

整理 | NewBeeNLP

面试锦囊之面经分享系列,持续更新中

写在前面

首先来段简单的自我介绍:2021届硕士,硕士期间未有实习经历,本科大三有过一次实习,小公司,可以忽略。本人投递的是腾讯暑期实习:技术研究-自然语言处理方向

腾讯校招开启的比较早,提前批在3.5号就已经开启了,我算是赶上了最早的那一批。本次的算法岗竞争同往年一样,也蛮激烈的,我亲眼看着,从投递最初NLP岗的投录比为3:1,面试时升到了4:1,最后完成流程后变为了5:1,NLP方向相对好些,CV、机器学习等竞争更大,CV 9:1,ML 10:1,听师兄描述,算法岗到后面会到20:1都可能,所以还是要趁早准备。

本人的面试流程大概如下,3月1日找的内推,收到完善简历的链接,在官网投了简历,当时选择的意向BG是WXG,3月2日上午收到HR小姐姐电话,说她们是PCG部门,问我面不面,我大概询问了PCG的主要业务,得知是社交类的业务居多,然后就拒绝了,说还是优先考虑面WXG那边,于是HR小姐姐便说帮我转投。

这点很诡异,官网的显示是,校招从3.5日开始提前批,但是实际上在这之前应该就开始筛简历并且面试了。

在腾讯,据说简历如果被捞了,如果同意面试简历就会被锁定,从简历池中提到面试的部门,这样其他的BG就看不到你的简历了,然后走官方流程,当时不知道,主要是考虑WXG当时更符合我的预期吧。

3月4日,再次收到HR电话,官网当时状态是未发起面试,这次是直接约面试时间,问我啥时候有空,约了3月6日(在此之前大致准备了下算法题,但是没有仔细准备,所以隔了两天,再充分准备下)。3月6日下午,参加了电话面试,3.9,查公众号状态进入复试。期间等待了一段时间,3.15日收到二面电话,并且是当天面试,于是当天晚上8点面试,到9点左右结束。第二天,官网流程变为HR面,17日下午收到面试邀请链接,约20.40的视频面试,20日状态更新为已完成。

一面(技术面)

一面个人感觉面的不是很好,虽然大部分问题答出来了,但是还是有不清晰的地方,而且有些问题没有答出来,甚至以为会挂,一面时间持续了大概有1小时2分钟。面试形式:电话面试。

1.简要的自我介绍。

自我介绍之前大致准备了下,就主要介绍个人情况,我主要是按照简历上的内容,大概介绍了下,时间在3分钟左右,但是个人感觉亮点不够突出,这点大家可以再发挥。

2.研究生阶段最有挑战的项目是什么?

我觉得这是我的一面面试官比较关注的点,这点聊了很久。因为我们组的主要方向是智能化软件测试,或者说智能软件工程,然后介绍了最近研究的一个项目。大概介绍了这个项目的动机,然后传统的一些研究方法,以及我们准备采用的一些方法(NLP相关)。

3.对于这个项目,传统的方法是怎么样的?

介绍了在软件测试领域大致的做法,主要是机器学习相关的内容了,即人工抽取的一些特征,已经使用的方法。

4.列举下这个任务在传统用法的一些典型特征。

我大概列举了几个,感觉这里的案例说的不是很清楚,因为那些工作主要不是我在做,我只是对这些工作有过一些了解。

5.看你简历里有QA相关的论文,大概介绍下里面用的方法。

主要介绍了这篇论文用的模型,以及方法,细节面试官没有深究。

6.你在这篇论文里用到的是GloVe,为何不用word2vec,或者说word2vec与GloVe有什么区别?

我大致说了下他们的区别:word2vec是NNLM的一个较为典型的代表,其利用了DNN的方法来训练获取到词向量,而且词向量是中间产物,这个思路最早是Bengio提出,Google Brain提出的word2vec让词向量火了起来。而GloVe是采用词频统计信息,利用一些数学方法逐步优化得来,它没有神经网络的结构,所以词向量训练的速度相对更快。(这里当时不记得具体的公式推导了,原论文我倒是看过,但是当时记得不清了,实际上GloVe是词共现矩阵+类SVD的方法)

7.你清楚word2vec吗,大致描述下word2vec的结构以及训练方法。

清楚(好刚的我,面完发现答的有瑕疵),从宏观上描述了DNN的一个结构,从输入(大致带过分词,词表构建,one-hot等过程),到隐层,到输出层。然后详细讲了两种训练结构,即CBoW和Skip-Gram,但是当时这两种方法被我说反了。(当时并无觉察)讲完两种训练方法后,大致介绍了下训练时候词表大小过大,输出层过大的优化方法,即:hierarchical softmax和negative sampling。

8.现阶段NLP的研究相对CV发展还是很缓慢,你认为是什么原因?

自然语言存在变化性,和不确定性,即语义的抽取对神经网络来说是很难的,在英文,人脑可以通过词形来建立词与词之间的关系,但是语义不确定性很强,比如歧义,一词多义,词序等等都会影响语义。而CV的特征相对固定,如图像处理,filter提取的特征一般是某种轮廓或边缘特征,这些特征对于特定的物体都是固定的,所以效果会更好。(说了很多废话,不清楚,其实总结就是感知智能和认知智能,感知智能很容易实现,即CV,而认知智能有很多挑战,即NLP)

9.你知道隐马尔可夫模型吗,大概介绍下。

当时HMM的具体理论在准备阶段就大致地看了下,面试官很nice,没有很为难,理论的不记得那来实践的,就接着这个问题,问了HMM的几个要素,即:初始概率,状态转移矩阵,发射矩阵,这三个要素,然后我主要讲了下这三个要素的运算过程,提及了一下维特比算法。(这里当时准备的不充分,说的不是特别清楚,后来我去恶补了一下)

10.维特比算法其实是一种动态规划算法,动态规划算法通常用来解决什么问题,在HMM里是怎么使用的?

大致描述了下动态规划的最优解问题,然后结合HMM的迭代过程说了一些。(后来仔细看了下,感觉面试官应该还是想听到HMM的理论,因为HMM推导会用到它里面的假设,然后得到递推关系,就可以分解为子问题,利用维特比算法求解)

11.快结束时,来道算法题吧,在一个敏感词过滤的场景下,要怎么在一个字符串里找出敏感词的位置?

当时懵了,没想出来,只说了一个暴力解。(面试官应该是想听到KMP一类的算法)

12.算法复杂度是多少?

大概算了下,面试官和蔼的说,没想到也没关系。他还曾循循善诱,从多个敏感词的词表简化到一个词,我对不起他。

13.你实习的时间实验室有没有什么要求,能实习吗?

没要求,当然能。(就这意思)

14.你还有什么问题要问我的吗?

咱们部门对实习生的预期目标是啥?面试官很和蔼地介绍了面试的BG是TEG,部门是AI产品部。大致介绍了下实习生的培养方式和考核方式。

工作期间的考核情况如何,比如周报、月报、日报这些频繁吗?面试官大概介绍了周会情况、周报情况,并说明疫情期间,线上工作,可能会要求写日报,方便查看工作进度之类,我表示理解。

时长:1h2min,结束,表示感谢,感谢不杀之恩!

二面(技术面)

二面也是技术,但是和初面不同的是,二面没有那么关注项目了(但是也是从项目开始问),比较注重理论层面。自初面结束之后,有一周时间的空档,我恶补了基础理论知识,首先是对初面的知识查漏补缺,再刷了剑指offer,捡起了李航《统计学习方法》,基本的机器学习算法以及推导。面试形式:电话面试。

个人发现,NLP岗位,很多面试官喜欢问:HMM、CRF、LDA这些知识。

1.看你的简历上,在做一个相似性评估的项目,大致介绍下。

介绍了下我的这个项目的模型,以及用的一些方法。

2. 了解,那么获取的词向量你是怎么获取的?

从word2vec中获取,然后作为模型的输入(讲了一些实验操作)。

3.你的词向量自己训练过吗?

我讲了很多废话。

4.你的词向量自己训练过吗?

没有。(面试官心态:早说不就完了)

5.你知道几种词向量的方法?

这里说的很详细,我带了一下传统的,如IDF、词袋、LDA,GloVe等偏统计方法,然后具体描述了NNLM下的模型:word2vec(和一面一样,介绍的比较详细),character level CNN Model(英文适用,中文不太适用);转向RNN结构:传统RNN将序列压缩至向量的过程,LSTM解决RNN长依赖模型,双向语言模型(BiLSTM);根据双向语言模型,导出了ELMo以及内部细节;主流热门的Transformer系列:Transformer内部细节详细讲了一下,然后转向GPT(Transformer Decoder,单向模型,和之前的双向模型做了个区分),详细说了一下,然后是BERT(Transformer Encoder,双向语言模型,和GPT的对比和ELMo的相同点,以及区别)详解。

安利本人译的一篇综述:综述:神经网络语言模型(译)[1] 如果觉得翻译不好的话,建议论文阅读原文[??]。

6.n元模型了解吗,如果共现频率为零怎么解决?

大致讲了下ngram与n阶马尔可夫。共现为0的解决方案有点忘记了,但是提了一下在GloVe中有提及这个情况的解决方案,但是我也忘记了。

7.你认为为什么BERT能达到这么好的效果?

我认为BERT的效果很大程度上取决于Transformer的一个Attention机制,即Self-Attention,正如原文标题《Attention is all you need》,注意力机制很好地找出了文本序列的语义相关度,在语义层面上,能够提取到更关键的特征,比如理解序列中的指示代词。其次是Transformer的结构优势,没有RNN的梯度消失问题,理论上支持任意长度的文本,用了position embedding(区别说明了下Transformer的三角函数和BERT的position embedding的不同)。

8.注意力机制你了解多少,或者说你了解哪几种?

注意力机制最初是在CV领域用的比较多,其次被应用到了NLP领域,并且取得了较好的效果。我主要研究NLP比较多,CV了解不深,所以只了解NLP的两种attention。最早的Attention是在seq2seq中提出(或者说Encoder-Decoder模型),讲了下这个模型注意力机制的细节,以及注意力获取的方式,文献名我忘记了,原始的论文应该是NMT相关场景。然后讲了BERT的Self-Attention细节,比如Q、K、V这些。

这里到BERT想要继续向后拓展的时候,被面试官打断了。

9.LSTM你了解吗,它的大致结构是怎么样的?

大概描述了下它的三个门。

10.假设输入是

x

维,LSTM的参数量为多少?当时着急了,没怎么算出来,事后算了下,还挺简单的。

面试官:你下去可以再确认下。

11.正则化你用过吗,有哪些正则化方法?

用过,我了解的有L1、L2正则化,讲了很多废话。。。尝试讲L1、L2的细节的时候,被打断了。

12.还有其他的吗?

有,比如Dropout、Batch Normalization不知道算不算,但是它能达到正则化的效果。

13.文本相似性一般有哪几种度量方法?

之前项目里有过这个相似性的问题,我不知道面试官具体想要的点在哪,就先说了下VSM的基础知识,他又再次深入地问了下,可以用什么模型。

然后我大致说了下常用的方法,比如最简单的word2vec加权,然后用VSM,RNN得到固定维度的向量后,用VSM,以及这一系列的方法。然后补充说了,利用深度学习转化为二分类的问题的思路和方法,以及BERT中的使用,因为BERT是有做文本相似性任务的。深度学习之外,还有很多方法,比如主题模型、LDA之类的,我当时没想到,面试完后想到了。

14.序列标注做过吗?

没有。

15.HMM和CRF有什么区别?

之前恶补了HMM的理论,详细讲了HMM,但是CRF只有大概了解,就没仔细说。HMM的2个假设,正向反向算法(递推式推导),EM算法,维特比算法。CRF打破了两个假设,所以效果更好。(说的比较大概,也和面试官说了这部分不是很了解,只知道个大概)

16.传统机器学习算法了解吗,比如XGBoost和SVM这些?

了解。

17.那你讲一下SVM吧。

讲了下SVM的推导:hard margin, soft margin, 几何距离、函数距离,最优化,拉格朗日乘子法,对偶问题,KKT条件,损失函数,惩罚系数等。

18.为什么SVM求解要求解他的对偶问题?

为了使原问题更好求解,因为原问题不好求解,引入对偶问题之后就更好求解了。面试官:哈哈哈,就是因为这个?好吧。其实,是因为对偶问题可以降低原问题的计算复杂度。

好了,结束,没让我问问题,当时是晚上8点开始面,面试官也忙,我表示感谢,他就匆匆挂电话了,时长:50 min。

三面(HR面)

HR面就不涉及技术了,主要是和HR各种聊,在这之前,看网上很多面经,都说HR面还是很多坑的,即有套路,但是好在面我的HR小哥哥比较真实,没有过分的套路我。面试形式:视频面试(腾讯会议)。

学校的基本情况,导师是谁,组里的研究方向是啥?根据我的研究方向,问了下我们的工作。有没有了解行业内你这个领域的一些工作,即你们组的研究方向的落地情况如何?聊基本情况,实习时间,毕业要求。家庭情况,籍贯、家里成员、父母工作。实习地点有没有什么规划?HR小哥哥开始介绍他们部门的业务情况,业务方向等等。你有没有什么问题?那么我这边也没有问题了,整个面试就算通过了,大概一周左右会有通知。(大概意思,算是口头offer) 致谢,结束,时长:20-30 min。

恕我直言,17号面完HR,忐忑无比,开始日常刷流程,直到20日晚才刷到已完成。开始牛客找组织,看有没有已完成,但是没收到offer的同学(没办法,太恐怖了,眼看着3:1到我结束面试,已经5:1了,慌张)。然后开始关注内部状态,⾮非常感谢⽜牛客⽹网的腾讯⼤大⽜牛们帮忙。经历5个⼯工作⽇日 后,内部状态变更更为:实习已录⽤。

小建议

技术岗,刷算法题!时间来不及就先剑指offer 66道,相对简单,多刷几遍,然后做leetcode。

算法岗,基础机器学习算法:SVM、Bayes、DT、Clustering、boosting(Adaboost、GBDT)、bagging(RF)、LR。

项目,一定要熟悉,不熟悉的就别往简历上写。说不清楚的会被喷的很惨,一定会被diss,甚至会质疑简历真实性。简历上写了的就要再次复盘,要了然于胸,不要忘记了然后讲不明白。

论文,要熟悉所在领域的一些经典论文模型,里面的细节也要清楚,最好读原文。

NLP的经典:HMM、CRF、LDA,我在很多次面试都碰到这些,重点圈出,个人遭遇,视情况准备吧。

HR套路,虽然面我的HR没怎么套路我,但是HR毕竟还是要尽量选择稳定的人,所以HR面还是要长心眼,对某些敏感问题的态度要坚决,宗旨:我爱XX公司,我一定去,工作地点不挑,实习时间能满足。

预祝各位能够斩获理想offer,加油!

本文参考资料

[1]

综述:神经网络语言模型(译): https://zhuanlan.zhihu.com/p/109564205

- END -

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-04-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 NewBeeNLP 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 写在前面
  • 一面(技术面)
  • 二面(技术面)
  • 三面(HR面)
  • 小建议
    • 本文参考资料
    相关产品与服务
    NLP 服务
    NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档