专栏首页深度学习自然语言处理2020年NLP算法秋招“神仙打架”,我该如何应对?

2020年NLP算法秋招“神仙打架”,我该如何应对?

自然语言处理无非是目前最大的风口,从Word2Vec、ElMo、GPT、Bert到XLNet, 我们见证了这个领域的高速发展以及未来的前景。互联网中的大量的文本以及IOT时代赋予我们的全新交互带来了这个领域的爆发。

第一阶段 算法与机器学习基础

【核心知识点】

. 时间复杂度,空间复杂度分析

. Master's Theorem,递归复杂度分析

. 动态规划以及Dynamic Time Warpping

. Earth Mover's Distance

. 维特比算法

. LR、决策树、随机森林、XGBoost

. 梯度下降法、随机梯度下降法、牛顿法

. Projected Gradient Descent

. L0, L1, L2, L-Infinity Norm

. Grid Search, Bayesian Optimization

. 凸函数、凸集、Duality、KKT条件

. Linear SVM、Dual of SVM

. Kernel Tick, Mercer's Theorem

. Kernelized Linear Regression、Kernelized KNN

. Linear/Quadratic Programming

. Integer/Semi-definite Programming

. NP-completeness/NP-hard/P/NP

. Constrained Relaxation、Approximate Algorithm

. Convergence Analysis of Iterative Algorithm

【部分案例讲解】:

. 基于Sparse Quadratic Programming的股票投资组合优化策略编写

. 基于Earth Mover's Distance的短文本相似度计算

. 基于Projected Gradient Descent和非负矩阵分解的词向量学习

. 基于Linear Programming的机票定价系统

. 基于DTW的文本相似度分析

第二阶段 语言模型与序列标注

【核心知识点】

. 文本预处理技术(tf-idf,Stemming等)

. 文本领域的特征工程

. 倒排表、信息检索技术

. Noisy Channel Model

. N-gram模型,词向量介绍

. 常见的Smoothing Techniques

. Learning to Rank

. Latent Variable Model

. EM算法与Local Optimality

. Convergence of EM

. EM与K-Means, GMM

. Variational Autoencoder与Text Disentangling

.有向图与无向图模型

. Conditional Indepence、D-separation、Markov Blanket

. HMM模型以及参数估计

. Viterbi、Baum Welch

. Log-Linear Model与参数估计

. CRF模型与Linear-CRF

. CRF的Viterbi Decoding与参数估计

【部分案例讲解】:

. 基于无监督学习方法的问答系统搭建

. 基于监督学习的Aspect-Based 情感分析系统搭建

. 基于CRF、LSTM-CRF、BERT-CRF 的命名实体识别应用

. 基于语言模型和Noisy Channel Model的拼写纠错

第三阶段 信息抽取、词向量与知识图谱

【核心知识点】

. 命名实体识别技术

. 信息抽取技术

. Snowball, KnowitAll, RunnerText

. Distant Supervision, 无监督学习方法

. 实体统一、实体消歧义、指代消解

. 知识图谱、实体与关系

. 词向量、Skip-Gram、Negative Sampling

. 矩阵分解、CBOW与Glove向量

. Contexualized Embedding与ELMo

. KL Divergence与Gaussian Embedding

. 非欧式空间与Pointcare Embedding

. 黎曼空间中的梯度下降法

. 知识图谱嵌入技术

. TransE, NTN 的详解

. Node2Vec详解

. Adversial Learning与KBGAN

【部分案例讲解】:

. 利用非结构化数据和信息抽取技术构建知识图谱

. 任务导向型聊天机器人的搭建

. 包含Intent与Entity Extraction的NLU模块实现

. 基于SkipGram的推荐系统实现(参考Airbnb论文)

第四阶段 深度学习与NLP

【核心知识点】

. Pytorch与Tensorflow详解

. 表示学习,分布式表示技术

. 文本领域中的Disentangling

. 深度神经网络与BP算法详解

. RNN与Vanishing/Exploding Gradient

. LSTM与GRU

. Seq2Seq与注意力机制

. Greedy Decoding与Beam Search

. BI-LSTM-CRF模型

. Neural Turing Machine

. Memory Network

. Self Attention,Transformer以及Transformer-XL.

. Bert的详解

. BERT-BiLSTM-CRF

. GPT,MASS, XLNet

. Low-resource learning

. 深度学习的可视化

. Laywer-wise Relevance Propagation

* 由于此领域的飞速发展,我们会在课程进行过程中也会及时更新,确保2周之内新出的重要技术第一时间可以理解并使用。

【部分案例讲解】:

. 利用纯Python实现BP算法

. 基于Seq2Seq+注意力机制、基于Transformer的机器翻译系统

. 基于Transformer的闲聊型聊天机器人

. 基于BI-LSTM-CRF和BERT-BiLSTM-CRF在命名实体中的比较

. 利用Laywer-wise RP可视化端到端的机器翻译系统

第五阶段 贝叶斯模型与NLP

【核心知识点】

. 概率图模型与条件独立

. Markov Blanket

. Dirichlet分布、Multinomial分布

. Beta分布、Conjugate Prior回顾

. Detail Balance

. 主题模型详解

. MCMC与吉布斯采样

. 主题模型与Collapsed Gibbs Sampling

. Metropolis Hasting, Rejection Sampling

. Langevin Dyamics与SGLD

. 分布式SGLD与主题模型

. Dynamic Topic Model

. Supervised Topic Model

. KL Divergence与ELBO

. Variantional Inference, Stochastic VI

. 主题模型与变分法

. Nonparametric Models

. Dirichlet Process

. Chinese Restarant Process

. Bayesian Deep Neural Network

. VAE与Reparametrization trick

. Bayesian RNN/LSTM

. Bayesian Word2Vec

. MMSB

【部分案例讲解】:

. 利用Collapsed Gibbs Sampler和SGLD对主题模型做Inference

. 基于Bayesian-LSTM的命名实体识别

. 利用主题模型做文本分类在

. LDA的基础上修改并搭建无监督情感分析模型

第六阶段 开放式项目 (Optional)

【项目介绍】

开放式项目又称为课程的capstone项目。作为课程中的很重要的一部分,可以选择work on一个具有挑战性的项目。通过此项目,可以深入去理解某一个特定领域,快速成为这个领域内的专家,并且让项目成果成为简历中的一个亮点。

【项目流程】:

Step 1: 组队

Step 2:立项以及提交proposal

Step 3: Short Survey Paper

Step 4: 中期项目Review

Step 5: 最终项目PPT以及代码提交

Step 6: 最终presentation

Step 7: Technical Report/博客

本文分享自微信公众号 - 深度学习自然语言处理(zenRRan)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-09-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 干货 | 深度文本分类综述(12篇经典论文)

    最近有很多小伙伴想了解深度学习在文本分类的发展,因此,笔者整理最近几年比较经典的深度文本分类方法,希望帮助小伙伴们了解深度学习在文本分类中的应用。

    zenRRan
  • NLP硬核入门-条件随机场CRF

    实际上HMM和CRF的学习没有先后顺序。但是两者很相似,在学习了HMM后更容易上手CRF,所以建议先学习HMM后学习CRF。

    zenRRan
  • 【比赛】CCL“中国法研杯”相似案例匹配评测竞赛 - TOP队伍攻略分享

    上周末参加了在云南昆明举办的“第十八届中国计算语言学大会”(The Eighteenth China National Conference on Comput...

    zenRRan
  • mpx 中手写一个关联组件 relations 使用

    yangdongnan
  • 校园技术工坊丨云开发校园执行官招募开启!

    ? 云开发技术工作坊校园执行官报名正式开启!寻找优秀的你,与云开发一同奔赴一场关于青春和热爱的约会! ? 转眼间,2019暑假余额已用完~ 又来到了元气满满的...

    腾讯技术工程官方号
  • 【Chrome浏览器】如何在无痕模式下启用扩展程序

    Chrome浏览器无痕模式下默认不启用扩展程序,因为即使在无痕模式下拓展程序也可能会记录用户的浏览记录,这样的话不利于保护用户的个人隐私。但是有时候,我们需要在...

    浩Coding
  • [机器学习算法]随机森林

    从统计学的角度来讲,将模型的性能寄希望于单棵决策树是不稳健的,这意味着它在处理未知数据时预测结果的方差是较大的。如同我们做重要决定时会考虑多个专家的意见,元算法...

    TOMOCAT
  • 中科院计算所、浙大等提出首个全自动3D模型变形传播法,无需配对训练数据

    当然,教主没有真的在跳舞,只是录了一段普通的视频。有算法将迈克尔·杰克逊源视频中的“舞姿”识别出来,再将相关的肢体动作投射到教主身上,这样,就得到了右边的魔性视...

    新智元
  • 云开发校园执行官招募开启!丨校园技术工坊

    “ 云开发技术工作坊校园执行官报名正式开启!寻找优秀的你,与云开发一同奔赴一场关于青春和热爱的约会! ” ? 转眼间,2019暑假余额已用完~ 又来到了元气满...

    腾讯高校合作
  • Git进阶:你不知道的git stash 和 git worktree

    部门从SVN签到了Git, 总算跟上了潮流的脚后跟. 其实从技术的角度来说, SVN没有那么烂. 但是从当今的角度来说, Git已经代表潮流, SVN已经没落并...

    望天

扫码关注云+社区

领取腾讯云代金券