前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >例子 3 个语言分析的基本任务

例子 3 个语言分析的基本任务

作者头像
double
发布2018-07-25 18:11:57
7990
发布2018-07-25 18:11:57
举报
文章被收录于专栏:算法channel算法channel

假如你的公司发布了一款全新的手机产品,新产品的发布带来了来自不同媒体的相关报道、用户反馈。 面对这些数据,你可能希望了解

  • 大家关注的是这款手机的哪些特性
  • 大家对这款手机的评价如何
  • 有哪些用户表达了购买的意愿

在面对海量数据的情况下,使用人力分析这些数据显然是不切实际的。 这种场景下,语言分析就派上了用场。让语义分析机器人代替人来完成这些分析工作正是语言分析要做的工作。

常见的语言分析任务包括:分词,词性标注,命名实体识别,依存句法分析,语义角色标注,语义依存分析。下面通过哈工大的 LTP 平台实验说明每个任务都是什么,完成了什么,意义又是什么。

分词

中文分词 (Word Segmentation, WS) 指的是将汉字序列切分成词序列。 因为在汉语中,词是承载语义的最基本的单元。分词是信息检索、文本分类、情感分析等多项中文自然语言处理任务的基础。

例如,句子:

他们的季后赛征程就将开启

分词的结果是

再看另一个句子:

101中学校长刘文强调研了京北大学

分词的结果:

因为强调也是一个常见的词,所以很可能出现:101 中学 校长 刘文 强调 研 了 .... ,如果学校编辑部想要搜索和刘文强相关的信息时,搜索引擎就很难检索到该文档了。

切分歧义是分词任务中的主要难题。哈工大-科大讯飞的 LTP 的分词模块基于机器学习框架,可以很好地解决歧义问题。 同时,模型中融入了词典策略,使得 LTP 的分词模块可以很便捷地加入新词信息。

主流的分词算法包括基于词典匹配的方法和基于统计机器学习的方法。 LTP分词模块使用的算法将两种方法进行了融合,算法既能利用机器学习较好的消歧能力,又能灵活地引入词典等外部资源。在LTP中,将分词任务建模为基于字的序列标注问题。 对于输入句子的字序列,模型给句子中的每个字标注一个标识词边界的标记。

同时,为了提高互联网文本特别是微博文本的处理性能。在分词系统中加入如下一些优化策略:

  • 英文、URI一类特殊词识别规则
  • 利用空格等自然标注线索
  • 在统计模型中融入词典信息
  • 从大规模未标注数据中统计字间互信息、上下文丰富程度

词性标注

词性标注 (Part-of-speech Tagging, POS) 是给句子中每个词一个词性类别的任务。 这里的词性类别可能是名词、动词、形容词或其他。 对上面说到的第一个句子进行词性标注:

上面中 r, u, n, d, v 代表什么意思呢?参考 LTP 平台上给出的词性标注集。

Tag

Description

Example

a

adjective

美丽

b

other noun-modifier

大型, 西式

c

conjunction

和, 虽然

d

adverb

e

exclamation

g

morpheme

茨, 甥

h

prefix

阿, 伪

i

idiom

百花齐放

j

abbreviation

公检法

k

suffix

界, 率

m

number

一, 第一

n

general noun

苹果

nd

direction noun

右侧

nh

person name

杜甫, 汤姆

ni

organization name

保险公司

nl

location noun

城郊

ns

geographical name

北京

nt

temporal noun

近日, 明代

nz

other proper noun

诺贝尔奖

o

onomatopoeia

哗啦

p

preposition

在, 把

q

quantity

r

pronoun

我们

u

auxiliary

的, 地

v

verb

跑, 学习

wp

punctuation

,。!

ws

foreign words

CPU

词性作为对词的一种泛化,在语言识别、句法分析、信息抽取等任务中有重要作用。 比方说,在抽取 “歌曲” 的相关属性时,我们有一系列短语:

儿童歌曲

欢快歌曲

各种歌曲

悲伤歌曲

...

如果进行了词性标注,我们可以发现一些能够描述歌曲属性的模板,比如

[形容词] 歌曲

[名词] 歌曲

而[代词]歌曲往往不是描述歌曲属性的模板。

命名实体识别

命名实体识别 (Named Entity Recognition, NER) 是在句子的词序列中定位并识别人名、地名、机构名等实体的任务。 如之前的例子,命名实体识别的结果是:

命名实体识别对于挖掘文本中的实体进而对其进行分析有很重要的作用。

命名实体识别的类型一般是根据任务确定的。LTP 提供最基本的三种实体类型人名、地名、机构名的识别。 用户可以很容易将实体类型拓展成品牌名、软件名等实体类型。

其他三个:依存句法分析,语义角色标注,语义依存分析,下一篇介绍。

相关链接

[1] LTP 语言云介绍

https://www.ltp-cloud.com/intro/

[2] LTP 在线演示

https://www.ltp-cloud.com/demo/

点击以下标题查看相关内容:

  • 这个例子,妙!
  • @all: 新浪 机器学习算法岗 面试实录
  • 一文了解自然语言处理的每个范畴用到的核心技术,难点和热点(1)

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-04-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 程序员郭震zhenguo 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 分词
  • 词性标注
  • 命名实体识别
  • 相关链接
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档