超详细！腾讯NLP算法岗面经（已offer）

NewBeeNLP

发布于 2020-08-26 16:56:57

3.8K0

文章被收录于专栏：NewBeeNLPNewBeeNLP

作者 | ZipZou

整理 | NewBeeNLP

面试锦囊之面经分享系列，持续更新中

写在前面

首先来段简单的自我介绍：2021届硕士，硕士期间未有实习经历，本科大三有过一次实习，小公司，可以忽略。本人投递的是腾讯暑期实习：技术研究-自然语言处理方向。

腾讯校招开启的比较早，提前批在3.5号就已经开启了，我算是赶上了最早的那一批。本次的算法岗竞争同往年一样，也蛮激烈的，我亲眼看着，从投递最初NLP岗的投录比为3:1，面试时升到了4:1，最后完成流程后变为了5:1，NLP方向相对好些，CV、机器学习等竞争更大，CV 9:1，ML 10:1，听师兄描述，算法岗到后面会到20:1都可能，所以还是要趁早准备。

本人的面试流程大概如下，3月1日找的内推，收到完善简历的链接，在官网投了简历，当时选择的意向BG是WXG，3月2日上午收到HR小姐姐电话，说她们是PCG部门，问我面不面，我大概询问了PCG的主要业务，得知是社交类的业务居多，然后就拒绝了，说还是优先考虑面WXG那边，于是HR小姐姐便说帮我转投。

这点很诡异，官网的显示是，校招从3.5日开始提前批，但是实际上在这之前应该就开始筛简历并且面试了。

在腾讯，据说简历如果被捞了，如果同意面试简历就会被锁定，从简历池中提到面试的部门，这样其他的BG就看不到你的简历了，然后走官方流程，当时不知道，主要是考虑WXG当时更符合我的预期吧。

3月4日，再次收到HR电话，官网当时状态是未发起面试，这次是直接约面试时间，问我啥时候有空，约了3月6日（在此之前大致准备了下算法题，但是没有仔细准备，所以隔了两天，再充分准备下）。3月6日下午，参加了电话面试，3.9，查公众号状态进入复试。期间等待了一段时间，3.15日收到二面电话，并且是当天面试，于是当天晚上8点面试，到9点左右结束。第二天，官网流程变为HR面，17日下午收到面试邀请链接，约20.40的视频面试，20日状态更新为已完成。

一面（技术面）

一面个人感觉面的不是很好，虽然大部分问题答出来了，但是还是有不清晰的地方，而且有些问题没有答出来，甚至以为会挂，一面时间持续了大概有1小时2分钟。面试形式：电话面试。

1.简要的自我介绍。

自我介绍之前大致准备了下，就主要介绍个人情况，我主要是按照简历上的内容，大概介绍了下，时间在3分钟左右，但是个人感觉亮点不够突出，这点大家可以再发挥。

2.研究生阶段最有挑战的项目是什么？

我觉得这是我的一面面试官比较关注的点，这点聊了很久。因为我们组的主要方向是智能化软件测试，或者说智能软件工程，然后介绍了最近研究的一个项目。大概介绍了这个项目的动机，然后传统的一些研究方法，以及我们准备采用的一些方法（NLP相关）。

3.对于这个项目，传统的方法是怎么样的？

介绍了在软件测试领域大致的做法，主要是机器学习相关的内容了，即人工抽取的一些特征，已经使用的方法。

4.列举下这个任务在传统用法的一些典型特征。

我大概列举了几个，感觉这里的案例说的不是很清楚，因为那些工作主要不是我在做，我只是对这些工作有过一些了解。

5.看你简历里有QA相关的论文，大概介绍下里面用的方法。

主要介绍了这篇论文用的模型，以及方法，细节面试官没有深究。

6.你在这篇论文里用到的是GloVe，为何不用word2vec，或者说word2vec与GloVe有什么区别？

我大致说了下他们的区别：word2vec是NNLM的一个较为典型的代表，其利用了DNN的方法来训练获取到词向量，而且词向量是中间产物，这个思路最早是Bengio提出，Google Brain提出的word2vec让词向量火了起来。而GloVe是采用词频统计信息，利用一些数学方法逐步优化得来，它没有神经网络的结构，所以词向量训练的速度相对更快。（这里当时不记得具体的公式推导了，原论文我倒是看过，但是当时记得不清了，实际上GloVe是词共现矩阵+类SVD的方法）

7.你清楚word2vec吗，大致描述下word2vec的结构以及训练方法。

清楚（好刚的我，面完发现答的有瑕疵），从宏观上描述了DNN的一个结构，从输入（大致带过分词，词表构建，one-hot等过程），到隐层，到输出层。然后详细讲了两种训练结构，即CBoW和Skip-Gram，但是当时这两种方法被我说反了。（当时并无觉察）讲完两种训练方法后，大致介绍了下训练时候词表大小过大，输出层过大的优化方法，即：hierarchical softmax和negative sampling。

8.现阶段NLP的研究相对CV发展还是很缓慢，你认为是什么原因？

自然语言存在变化性，和不确定性，即语义的抽取对神经网络来说是很难的，在英文，人脑可以通过词形来建立词与词之间的关系，但是语义不确定性很强，比如歧义，一词多义，词序等等都会影响语义。而CV的特征相对固定，如图像处理，filter提取的特征一般是某种轮廓或边缘特征，这些特征对于特定的物体都是固定的，所以效果会更好。（说了很多废话，不清楚，其实总结就是感知智能和认知智能，感知智能很容易实现，即CV，而认知智能有很多挑战，即NLP）

9.你知道隐马尔可夫模型吗，大概介绍下。

当时HMM的具体理论在准备阶段就大致地看了下，面试官很nice，没有很为难，理论的不记得那来实践的，就接着这个问题，问了HMM的几个要素，即：初始概率，状态转移矩阵，发射矩阵，这三个要素，然后我主要讲了下这三个要素的运算过程，提及了一下维特比算法。（这里当时准备的不充分，说的不是特别清楚，后来我去恶补了一下）

10.维特比算法其实是一种动态规划算法，动态规划算法通常用来解决什么问题，在HMM里是怎么使用的？

大致描述了下动态规划的最优解问题，然后结合HMM的迭代过程说了一些。（后来仔细看了下，感觉面试官应该还是想听到HMM的理论，因为HMM推导会用到它里面的假设，然后得到递推关系，就可以分解为子问题，利用维特比算法求解）

11.快结束时，来道算法题吧，在一个敏感词过滤的场景下，要怎么在一个字符串里找出敏感词的位置？

当时懵了，没想出来，只说了一个暴力解。（面试官应该是想听到KMP一类的算法）

12.算法复杂度是多少？

大概算了下，面试官和蔼的说，没想到也没关系。他还曾循循善诱，从多个敏感词的词表简化到一个词，我对不起他。

13.你实习的时间实验室有没有什么要求，能实习吗？

没要求，当然能。（就这意思）

14.你还有什么问题要问我的吗？

咱们部门对实习生的预期目标是啥？面试官很和蔼地介绍了面试的BG是TEG，部门是AI产品部。大致介绍了下实习生的培养方式和考核方式。

工作期间的考核情况如何，比如周报、月报、日报这些频繁吗？面试官大概介绍了周会情况、周报情况，并说明疫情期间，线上工作，可能会要求写日报，方便查看工作进度之类，我表示理解。

时长：1h2min，结束，表示感谢，感谢不杀之恩！

二面（技术面）

二面也是技术，但是和初面不同的是，二面没有那么关注项目了（但是也是从项目开始问），比较注重理论层面。自初面结束之后，有一周时间的空档，我恶补了基础理论知识，首先是对初面的知识查漏补缺，再刷了剑指offer，捡起了李航《统计学习方法》，基本的机器学习算法以及推导。面试形式：电话面试。

个人发现，NLP岗位，很多面试官喜欢问：HMM、CRF、LDA这些知识。

1.看你的简历上，在做一个相似性评估的项目，大致介绍下。

介绍了下我的这个项目的模型，以及用的一些方法。

2. 了解，那么获取的词向量你是怎么获取的？

从word2vec中获取，然后作为模型的输入（讲了一些实验操作）。

3.你的词向量自己训练过吗？

我讲了很多废话。

4.你的词向量自己训练过吗？

没有。（面试官心态：早说不就完了）

5.你知道几种词向量的方法？

这里说的很详细，我带了一下传统的，如IDF、词袋、LDA，GloVe等偏统计方法，然后具体描述了NNLM下的模型：word2vec（和一面一样，介绍的比较详细），character level CNN Model（英文适用，中文不太适用）；转向RNN结构：传统RNN将序列压缩至向量的过程，LSTM解决RNN长依赖模型，双向语言模型（BiLSTM）；根据双向语言模型，导出了ELMo以及内部细节；主流热门的Transformer系列：Transformer内部细节详细讲了一下，然后转向GPT（Transformer Decoder，单向模型，和之前的双向模型做了个区分），详细说了一下，然后是BERT（Transformer Encoder，双向语言模型，和GPT的对比和ELMo的相同点，以及区别）详解。

安利本人译的一篇综述：综述：神经网络语言模型（译）[1] 如果觉得翻译不好的话，建议论文阅读原文[??]。

6.n元模型了解吗，如果共现频率为零怎么解决？

大致讲了下ngram与n阶马尔可夫。共现为0的解决方案有点忘记了，但是提了一下在GloVe中有提及这个情况的解决方案，但是我也忘记了。

7.你认为为什么BERT能达到这么好的效果？

我认为BERT的效果很大程度上取决于Transformer的一个Attention机制，即Self-Attention，正如原文标题《Attention is all you need》，注意力机制很好地找出了文本序列的语义相关度，在语义层面上，能够提取到更关键的特征，比如理解序列中的指示代词。其次是Transformer的结构优势，没有RNN的梯度消失问题，理论上支持任意长度的文本，用了position embedding（区别说明了下Transformer的三角函数和BERT的position embedding的不同）。

8.注意力机制你了解多少，或者说你了解哪几种？

注意力机制最初是在CV领域用的比较多，其次被应用到了NLP领域，并且取得了较好的效果。我主要研究NLP比较多，CV了解不深，所以只了解NLP的两种attention。最早的Attention是在seq2seq中提出（或者说Encoder-Decoder模型），讲了下这个模型注意力机制的细节，以及注意力获取的方式，文献名我忘记了，原始的论文应该是NMT相关场景。然后讲了BERT的Self-Attention细节，比如Q、K、V这些。

这里到BERT想要继续向后拓展的时候，被面试官打断了。

9.LSTM你了解吗，它的大致结构是怎么样的？

大概描述了下它的三个门。

10.假设输入是

维，LSTM的参数量为多少？当时着急了，没怎么算出来，事后算了下，还挺简单的。

面试官：你下去可以再确认下。

11.正则化你用过吗，有哪些正则化方法？

用过，我了解的有L1、L2正则化，讲了很多废话。。。尝试讲L1、L2的细节的时候，被打断了。

12.还有其他的吗？

有，比如Dropout、Batch Normalization不知道算不算，但是它能达到正则化的效果。

13.文本相似性一般有哪几种度量方法？

之前项目里有过这个相似性的问题，我不知道面试官具体想要的点在哪，就先说了下VSM的基础知识，他又再次深入地问了下，可以用什么模型。

然后我大致说了下常用的方法，比如最简单的word2vec加权，然后用VSM，RNN得到固定维度的向量后，用VSM，以及这一系列的方法。然后补充说了，利用深度学习转化为二分类的问题的思路和方法，以及BERT中的使用，因为BERT是有做文本相似性任务的。深度学习之外，还有很多方法，比如主题模型、LDA之类的，我当时没想到，面试完后想到了。

14.序列标注做过吗？

没有。

15.HMM和CRF有什么区别？

之前恶补了HMM的理论，详细讲了HMM，但是CRF只有大概了解，就没仔细说。HMM的2个假设，正向反向算法（递推式推导），EM算法，维特比算法。CRF打破了两个假设，所以效果更好。（说的比较大概，也和面试官说了这部分不是很了解，只知道个大概）

16.传统机器学习算法了解吗，比如XGBoost和SVM这些？

了解。

17.那你讲一下SVM吧。

讲了下SVM的推导：hard margin, soft margin, 几何距离、函数距离，最优化，拉格朗日乘子法，对偶问题，KKT条件，损失函数，惩罚系数等。

18.为什么SVM求解要求解他的对偶问题？

为了使原问题更好求解，因为原问题不好求解，引入对偶问题之后就更好求解了。面试官：哈哈哈，就是因为这个？好吧。其实，是因为对偶问题可以降低原问题的计算复杂度。

好了，结束，没让我问问题，当时是晚上8点开始面，面试官也忙，我表示感谢，他就匆匆挂电话了，时长：50 min。

三面（HR面）

HR面就不涉及技术了，主要是和HR各种聊，在这之前，看网上很多面经，都说HR面还是很多坑的，即有套路，但是好在面我的HR小哥哥比较真实，没有过分的套路我。面试形式：视频面试（腾讯会议）。

学校的基本情况，导师是谁，组里的研究方向是啥？根据我的研究方向，问了下我们的工作。有没有了解行业内你这个领域的一些工作，即你们组的研究方向的落地情况如何？聊基本情况，实习时间，毕业要求。家庭情况，籍贯、家里成员、父母工作。实习地点有没有什么规划？HR小哥哥开始介绍他们部门的业务情况，业务方向等等。你有没有什么问题？那么我这边也没有问题了，整个面试就算通过了，大概一周左右会有通知。（大概意思，算是口头offer）致谢，结束，时长：20-30 min。

恕我直言，17号面完HR，忐忑无比，开始日常刷流程，直到20日晚才刷到已完成。开始牛客找组织，看有没有已完成，但是没收到offer的同学（没办法，太恐怖了，眼看着3:1到我结束面试，已经5:1了，慌张）。然后开始关注内部状态，⾮非常感谢⽜牛客⽹网的腾讯⼤大⽜牛们帮忙。经历5个⼯工作⽇日后，内部状态变更更为:实习已录⽤。