首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >为什么词干工很难用一些不固定的词

为什么词干工很难用一些不固定的词
EN

Stack Overflow用户
提问于 2013-08-21 09:22:25
回答 1查看 275关注 0票数 1

这个问题可能与哲学有关,而不是与编码有关。nltk提供了一个标记包,它用一个标签标记句子中的每个单词,并提供一个词干包,它将一个单词转换成它的基本形式。我注意到词干器常常无法将一些不固定的单词转换成它的基本形式。例如,"It's“to "It is",”知情者“,”get“to "get",以此类推。这有点令人惊讶,因为标签者可以正确地将“s”标记为其正确形式的动词("VBZ"),并能识别“已知”("VBD")和“知道”("VB")之间的区别。既然我们已经知道“明知”是过去时态中的动词,那么词干机为什么很难正确返回其基本形式?似乎最好的词干器是雪球柄器,尽管它的性能并不令人满意。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2013-08-23 02:48:59

我注意到词干器常常无法将一些不固定的单词转换成它的基本形式。

词干分析器是用来做的:“词干通常是指一种粗略的启发式过程,为了大多数时间都能正确地实现这一目标,它会把单词的结尾切掉,并且常常包括删除派生词缀。词干化通常是指使用词汇和词形分析来正确地做事情,通常只是为了删除屈折的结尾,并返回单词的基或字典形式,这就是所谓的引理。”(来源)。

如果你想要一个语言上合适的基本形式,用一个狐猴代替。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/18363895

复制
相关文章
webpack 为什么这么难用?
如今对于每一个前端工程师来说,webpack 已经成为了一项基础技能,它基本上包办了本地开发、编译压缩、性能优化的所有工作,从这个角度上来说,webpack 确实是伟大的,它的诞生意味着一整套工程化体系开始普及,并且慢慢统一了前端自动构建的让前端开发彻底告别了之前的刀耕火种时代。现在 webpack 之于前端开发,正如同 gcc/g++ 之于 C/C++,是一个你无论如何都绕不开的工具。
用户8639654
2021/07/16
4990
webpack 为什么这么难用?2
官方文档里确实写了一些关于如何开发插件的指南。但这份指南也只有 60 分刚及格的水平,它确实向你介绍了 webpack 插件的基础范例、基本概念以及一些 API,但当你读完这份简短的文档后想自己真的去开发一个插件时,你会发现文档里讲的东西真的远远不够。
用户8639654
2021/07/16
7040
webpack 为什么这么难用?3
在日常业务中,特别是大公司的一些运营性质的业务里,我们常常会看到 “某某业务已经实现完全配置化” 这样的字眼,在这个语境里,配置化代表了低维护成本、高灵活性、高封装性。
用户8639654
2021/07/16
4070
初学python,调用固定参,不固定参
函数调用时的参数传递方式:(调用函数) 传递方式有以下四种: 位置传参 序列传参 关键字传参 字典关键字传参 ---------------------------------------------------yu---
py3study
2020/01/03
1.7K0
学习笔记CB002:词干提取、词性标注、中文切词、文档分类
英文词干提取器,import nltk,porter = nltk.PorterStemmer(),porter.stem('lying') 。
利炳根
2018/02/13
2K0
为什么说PBI的AI问答实操中很难用
大概每一个数据人都有搭建SSA(Self-Service Analytics高集成自助分析平台)的梦想吧。但是梦想之所以是一个梦想,就是因为其难以实现,否则这里应该叫做目标而不是梦想。
做数据的二号姬
2023/09/04
2350
为什么说PBI的AI问答实操中很难用
SpringBoot一些很实用的功能
然后这个图案是可以自定义的,在src/main/resource下新建一个banner.txt文件,然后去http://patorjk.com/software/taag/下自定义自己所要显示的文字,然后点击下面的select & copy把复制的内容复制到banner.txt文件中,重启一下Springboot,图标就会发生变化。
lyb-geek
2018/09/27
1.6K0
SpringBoot一些很实用的功能
这些架构师很闲么?不 不 不,都在忙着呢……
如果觉得不错,请帮忙分享到朋友圈或者技术群让更多技术朋友也能获取到这份资料,老马发微信给我说没人点赞,没人帮我转发,哈哈,我不信,因为有你们^ ^
黑洞代码
2021/01/14
6790
这部分代码有没有优化的空间:假如day天数不固定,pd.concat则也不固定?
国庆期间在Python白银交流群【像风自由】问了一个Pandas处理的问题,提问截图如下:
Python进阶者
2022/11/14
3850
这部分代码有没有优化的空间:假如day天数不固定,pd.concat则也不固定?
64-参数个数不固定的函数
def func1(*args): # *表示args是个元组 print(args) def func2(**kwargs): # **表示kwargs是个字典 print(kwargs) def func3(x, y): print(x * y) def func4(name, age): print("%s is %s years old" % (name, age)) if __name__ == '__main__': func1() f
凯茜的老爸
2018/09/11
8540
App向后台传不固定张数的图片
适用于意见反馈 public Map<String, Object> saveOpinion(HttpServletRequest request, String title, String sit
用户5899361
2020/12/07
6850
网工神器PNET安装教程,步骤很详细!
最近很多朋友都用到一款模拟器,外观非常漂亮,功能非常实用, 这个模拟器就是PNET,今天给大家分享一下如何对PNET 模拟器进行初始化安装。
网络工程师笔记
2021/09/29
4.7K0
一些Redis很实用的工作技巧
常用技术框架、开源中间件,系统架构、数据库、大公司架构案例、常用三方类库、项目管理、线上问题排查、个人成长、思考等知识
微观技术
2020/08/20
3260
词干提取 – Stemming | 词形还原 – Lemmatisation
词干提取是英文语料预处理的一个步骤(中文并不需要),而语料预处理是 NLP 的第一步,下面这张图将让大家知道词干提取在这个知识结构中的位置。
easyAI
2019/12/18
2.6K0
词干提取 – Stemming | 词形还原 – Lemmatisation
高度不固定的图片、多行文字的水平垂直居中
想必写css的都知道如何让单行文字在高度固定的容器内垂直居中,但是您知道或者想过让行数不固定的文字在高度固定的容器内垂直居中呢?本文将会告诉你如何实现多行文字的垂直居中显示。
javascript.shop
2019/09/04
3K0
高度不固定的图片、多行文字的水平垂直居中
我想向你介绍NLP,小哥哥你想听听嘛?
原文地址点这里!https://towardsdatascience.com/introduction-to-nlp-5bff2b2a7170 自然语言处理(NLP)是计算机科学和人工智能的一个研究领域,它的主要关注点就是人和计算机之间对于自然语言的理解。NLP的终极目标就是能够让计算机对自然语言的理解能力和人一样。这些研究推动了很多项目,诸如虚拟助手,语音识别,情感分析,自动摘要,机器翻译等等一些内容。在本文中,你将学到自然语言处理的基础内容,探索它的技术,并了解前沿科技深度学习是如何对NLP起到助力作用的。
机器学习之禅
2022/07/11
4620
我想向你介绍NLP,小哥哥你想听听嘛?
为什么阿里的员工要带着工牌逛街?
最近,这段来自脉脉的匿名发言在网上炸开了锅。阿里员工幸福地带着工牌逛街的场景激发了这位匿名网友某种奇妙的负面情绪。你可以脑补阿里员工满脸幸福的表情,但是拿来和电子厂的工人做比较确实还是多少有点极端。
老钱
2018/08/14
5850
为什么说中国科研很悲哀?
最近一篇题为《一个山东教授5个亿的创富神话》的文章在科技界刷了屏,文章讲述山东理工大学毕玉遂教授团队研发的无氟氯聚氨酯发泡剂专利技术,以5亿人民币的价格独占许可给了一家国内企业,这个金额刷新了国内高校科技成果转化的纪录,比第二名的清华大学还多5000多万。
钱塘数据
2019/06/11
8260
为什么说中国科研很悲哀?
Python NLP 入门教程
本文简要介绍Python自然语言处理(NLP),使用Python的NLTK库。NLTK是Python的自然语言处理工具包,在NLP领域中,最常使用的一个Python库。 什么是NLP? 简单来说,自然语言处理(NLP)就是开发能够理解人类语言的应用程序或服务。 这里讨论一些自然语言处理(NLP)的实际应用例子,如语音识别、语音翻译、理解完整的句子、理解匹配词的同义词,以及生成语法正确完整句子和段落。 这并不是NLP能做的所有事情。 NLP实现 搜索引擎: 比如谷歌,Yahoo等。谷歌搜索引擎知道你
小小科
2018/05/03
1.5K0
Python NLP 入门教程
我的电脑不联网,很安全,黑客:你还有风扇呢
从1988年第一个网络蠕虫病毒诞生以来,「互联网危机四伏」的观念就已经深入人心。如果只是这样,不给电脑联网、禁止使用任何可移动储存介质,数据就安全了吗?但专门研究黑客攻击技术的研究者告诉我们,这个想法太天真了。他们用实验证明,即使不联网,机箱里的风扇也能泄露你的机密信息。
C语言中文社区
2022/05/31
6500
我的电脑不联网,很安全,黑客:你还有风扇呢

相似问题

词干每个词

10

词干词和词尾词

26

词干标记词

12

BERTopic中停止词的删除与词干词干/词干化

211

R中的基词词干代替词根词干

40
添加站长 进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

扫码加入开发者社群
关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

扫码关注腾讯云开发者公众号
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文