字节AI Lab-NLP算法热乎面经

NewBeeNLP

发布于 2020-08-26 16:49:05

1.5K0

发布于 2020-08-26 16:49:05

文章被收录于专栏：NewBeeNLPNewBeeNLP

作者 | 我爱雪糕整理 | NewBeeNLP

面试锦囊之面经分享系列，持续更新中

先说下感受吧。本人在今年3月1号（周日）投递简历，隔天周一hr就约了周四的面试，结果那天是2面视频技术面+hr面直接走完了，周五内推的学长就告诉我过了，紧接着就是offer call。整体投递+面试+发录用通知函的时间不到一周，而且面试官都是和简历对口的，整体体验非常棒。

PS：offer call里说我的leader是李航，看了看手里的小蓝书，意外的惊喜

面试的岗位是“AI Lab实习生 — 自然语言处理NLP”，一共2面技术和一面hr，这里主要说下其中的技术面试。

20min简历 + 30min题

先自我介绍，然后面试官说了句“好的了解”就直接进入项目了。

我的经历主要是一些竞赛，因此也是主要聊竞赛，在竞赛细节中扣一些细节提问。竞赛主要是关于机器阅读理解MRC的（百度机器阅读、莱斯杯等），面试官也刚好懂，大致问题如下：

请你描述一下竞赛背景，以及你在其中的工作/职责。
我看你数据做了很多预处理，这部分重要吗，具体是如何做的预处理。这个不同项目应该不太一样，不细说了。
我看你用了word2vec的词向量，知道它是如何训练的吗，有哪些trick。这个很基础了，trick就是负采样和分层softmax。
glove了解吗，elmo呢？
你把很多组件改成了transformer 的 multi-head attention，为什么要舍弃lstm的结构而选用它呢。我回答的是可并行+更强大的特征提取能力，顺便还解释了self attention的原理以及multi-head的作用。
说一下bidaf的匹配层，解释了bidaf的c2q和q2c的意义和具体做法。
你取得top2的成绩还有其他优化吗。这部分答了很多，当时吃了没用bert的亏，所以在很多方面进行了一定的优化。
你的第二个竞赛用roberta，它和bert的区别。动态mask+去除NSP+大力出奇迹（更大的batch，更多的数据，更多的step）。
xlnet和bert有啥不同。自回归&&自编码的知识，其中解释了xlnet排列语言模型以及双流attention。
albert了解吗？embedding层矩阵分解+参数共享 + SOP + 工程细节。

其他还有些小问题想不起来了，总体来说问的面不广，但是扣了些细节。

最后是两道算法题：