假如你的公司发布了一款全新的手机产品,新产品的发布带来了来自不同媒体的相关报道、用户反馈。 面对这些数据,你可能希望了解
在面对海量数据的情况下,使用人力分析这些数据显然是不切实际的。 这种场景下,语言分析就派上了用场。让语义分析机器人代替人来完成这些分析工作正是语言分析要做的工作。
常见的语言分析任务包括:分词,词性标注,命名实体识别,依存句法分析,语义角色标注,语义依存分析。下面通过哈工大的 LTP 平台实验说明每个任务都是什么,完成了什么,意义又是什么。
中文分词 (Word Segmentation, WS) 指的是将汉字序列切分成词序列。 因为在汉语中,词是承载语义的最基本的单元。分词是信息检索、文本分类、情感分析等多项中文自然语言处理任务的基础。
例如,句子:
他们的季后赛征程就将开启
分词的结果是
再看另一个句子:
101中学校长刘文强调研了京北大学
分词的结果:
因为强调也是一个常见的词,所以很可能出现:101 中学 校长 刘文 强调 研 了 .... ,如果学校编辑部想要搜索和刘文强相关的信息时,搜索引擎就很难检索到该文档了。
切分歧义是分词任务中的主要难题。哈工大-科大讯飞的 LTP 的分词模块基于机器学习框架,可以很好地解决歧义问题。 同时,模型中融入了词典策略,使得 LTP 的分词模块可以很便捷地加入新词信息。
主流的分词算法包括基于词典匹配的方法和基于统计机器学习的方法。 LTP分词模块使用的算法将两种方法进行了融合,算法既能利用机器学习较好的消歧能力,又能灵活地引入词典等外部资源。在LTP中,将分词任务建模为基于字的序列标注问题。 对于输入句子的字序列,模型给句子中的每个字标注一个标识词边界的标记。
同时,为了提高互联网文本特别是微博文本的处理性能。在分词系统中加入如下一些优化策略:
词性标注 (Part-of-speech Tagging, POS) 是给句子中每个词一个词性类别的任务。 这里的词性类别可能是名词、动词、形容词或其他。 对上面说到的第一个句子进行词性标注:
上面中 r, u, n, d, v 代表什么意思呢?参考 LTP 平台上给出的词性标注集。
Tag | Description | Example |
---|---|---|
a | adjective | 美丽 |
b | other noun-modifier | 大型, 西式 |
c | conjunction | 和, 虽然 |
d | adverb | 很 |
e | exclamation | 哎 |
g | morpheme | 茨, 甥 |
h | prefix | 阿, 伪 |
i | idiom | 百花齐放 |
j | abbreviation | 公检法 |
k | suffix | 界, 率 |
m | number | 一, 第一 |
n | general noun | 苹果 |
nd | direction noun | 右侧 |
nh | person name | 杜甫, 汤姆 |
ni | organization name | 保险公司 |
nl | location noun | 城郊 |
ns | geographical name | 北京 |
nt | temporal noun | 近日, 明代 |
nz | other proper noun | 诺贝尔奖 |
o | onomatopoeia | 哗啦 |
p | preposition | 在, 把 |
q | quantity | 个 |
r | pronoun | 我们 |
u | auxiliary | 的, 地 |
v | verb | 跑, 学习 |
wp | punctuation | ,。! |
ws | foreign words | CPU |
词性作为对词的一种泛化,在语言识别、句法分析、信息抽取等任务中有重要作用。 比方说,在抽取 “歌曲” 的相关属性时,我们有一系列短语:
儿童歌曲
欢快歌曲
各种歌曲
悲伤歌曲
...
如果进行了词性标注,我们可以发现一些能够描述歌曲属性的模板,比如
[形容词] 歌曲
[名词] 歌曲
而[代词]歌曲往往不是描述歌曲属性的模板。
命名实体识别 (Named Entity Recognition, NER) 是在句子的词序列中定位并识别人名、地名、机构名等实体的任务。 如之前的例子,命名实体识别的结果是:
命名实体识别对于挖掘文本中的实体进而对其进行分析有很重要的作用。
命名实体识别的类型一般是根据任务确定的。LTP 提供最基本的三种实体类型人名、地名、机构名的识别。 用户可以很容易将实体类型拓展成品牌名、软件名等实体类型。
其他三个:依存句法分析,语义角色标注,语义依存分析,下一篇介绍。
[1] LTP 语言云介绍
https://www.ltp-cloud.com/intro/
[2] LTP 在线演示
https://www.ltp-cloud.com/demo/
点击以下标题查看相关内容:
本文分享自 程序员郭震zhenguo 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!