前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >统计自然语言处理-词汇获取

统计自然语言处理-词汇获取

作者头像
数据处理与分析
发布2019-07-31 16:48:08
3410
发布2019-07-31 16:48:08
举报
词汇获取

一成不变的词库意义不大,只有保持动态更新,保持数据的时效性,这样个的词库才有意义。

评价方法

靠谱的数据评价方法非常重要,但这些应该有专人来做,毕竟,专业的人做专业的事情嘛!

动词子范畴
附着歧义
选择倾向

选择倾向,类似固定搭配。但在中文语境下,问题又复杂了许多,比如说:“吃亏”,你能说亏是个食物?当然了,书中的说法很严谨,人家说的是大部分,不是绝对的。

语义相似性

如何给一个词定词性,时间很难的事情,不然的话那些标注好的词库就不会收费那么贵了。一条条结构化的数据都是花了心血做的,哪能说给就给。

获取词汇的作用

一个词条,平均需要半个小时,这样的数据能不贵?这样想来,我拆分并处理(定地名级别)了那么多的数据,那是多么大的工作量啊。按照小时工的标准那产值也大了去了。

自然语言处理这本书读下来的感觉

到现在为止,虽然中间也停更了几周(或者是更新不及时)。但总体来讲,还是坚持到现在了,书也读了了一半。我最开始看这本书的时候,基础部分有很多地方看着都很有意思,但后面的章节越来越枯燥。不是说这本书不好,我相信这本书绝对是自然语言统计与处理的经典,书中的公式与算法什么的绝对是干货,但实在是太干了,啃不下来啊。这本书越往后读,越觉得跟我的工作离得越远。但转念一想,如果书读下来都像网络小说一样,读起来觉得很爽,不用动啥脑子,那这书也没啥读的价值了。难读的书读下去,对自己来说,记下来的都是知识储备,就算记不下来,养成读书的习惯也是好的。写写画画,粗略读一读,有意思的就先记下来。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-03-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据处理与分析 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 词汇获取
  • 评价方法
  • 动词子范畴
  • 附着歧义
  • 选择倾向
  • 语义相似性
  • 获取词汇的作用
  • 自然语言处理这本书读下来的感觉
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档