前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >复旦大学教授邱锡鹏:NLP 任务中有哪些巧妙的 idea?

复旦大学教授邱锡鹏:NLP 任务中有哪些巧妙的 idea?

作者头像
zenRRan
发布2019-12-09 17:19:23
8700
发布2019-12-09 17:19:23
举报

阅读大概需要5分钟 跟随小博主,每天进步一丢丢

整理:达观数据

在知乎中自然语言处理话题下有一个非常有意思的话题 "NLP 任务中有哪些巧妙的idea?" ,目前已经有1188+关注,40000+浏览量,今天就为大家分享下获得最高点赞的答案,复旦大学邱锡鹏教授的回答:

这个问题很有趣!看了下目前的回答都是深度学习之后的,我就回答几个深度学习之前的吧:

先从语义表示说起,个人觉得都是简单并且巧妙的想法 ( 但其背后的理论不一定简单 )。

1. 分布式假设 ( Distributional Hypothesis )

"Linguistic items with similar distributions have similar meanings."

直白点就是,一个词的语义可以用它的上下文表示。

对 NLP 来说,个人觉得分布式假设是来自语言学的最有价值的 "理论" 之一。

2. 词袋模型 ( Bag-of-Words )

将一篇文档看作是一个词的集合,不考虑语法,甚至是词序信息也都抛弃了。

BoW 模型解决了用机器学习来做 NLP 的一个痛点问题:怎样把一个变成的文本序列转换为定长的向量。

相关扩展:N-gram,TF-IDF 等。

3. 潜在语义分析 ( Latent Semantic Analysis )

基于上面的分布式假设和词袋模型,我们可以构建一个词-文档矩阵 ( term-document matrix )

。这个矩阵

很有意思,每一列为一个文档的表示 ( BoW 向量 ),每一行为一个词的语义表示 ( 分布式假设,其中上下文是以文档为基本单位 )。这样我们就可以用

表示文档和文档之间的关系,用

表示词与词之间的关系。这个矩阵还可以进行 SVD 分解,得到词和文档的稠密向量表示,可以发现潜在的语义信息 ( 比如主题等 )。

4. 概率主题模型 ( Probabilistic Topic Models )

概率主题模型比词袋模型多引入了一个 "主题 ( Topic )" 作为隐变量。词和文档的之间关联变成了:文档 -> 主题 -> 词。这个想法合情合理,听上去就更好。如果你觉得哪里不好,又可以魔改。概率主题模型的数学基础 ( 概率有向图模型 ) 十分漂亮,并且基于吉布斯采样的推断简单到不可思议,甚至不需要图模型的知识就可以理解。PTM 是前深度学习时代 NLP 领域的一个大宝矿 ( Shui Keng )!

5. 基于 BMES 的中文分词或基于 BIO 的 NER/Chunking

BMES 是 Begin/Middle/End/Single 的缩写,代表所标记的字符是一个词语的开始/中间/结尾/单字词。

BIO 是 Begin/Inside/Outside 的缩写,表示所标记的词是一个实体名的开始/内部/外部。

这种标记将带有分割性质的 NLP 任务转换为序列标注任务,可以使用 HMM、CRF 等成熟的机器学习模型。

6. 基于 PageRank 的 TextRank

PageRank 本身非常巧妙了,TextRank 更是巧妙地将 PageRank 应用到 NLP 中的词排序或句子排序上面,比如关键词抽取、文本摘要等。

参考资料

1. "Linguistic items with similar distributions have similar meanings."

https://en.wikipedia.org/wiki/Distributional_semantics

2. term-document matrix

https://en.wikipedia.org/wiki/Term-document_matrix

原文链接:

https://www.zhihu.com/question/356132676/answer/901244271

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-12-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 深度学习自然语言处理 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档