腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何
使用
荷兰语
标记
器
对
列表
中
的
句子
进行
标记
?
、
、
我设法找到了一个很好
的
荷兰NLTK
标记
器
来
标记
我
的
文本
中
的
POS,我必须
对
其
进行
注释。我
的
嵌套
列表
如下所示: ['de', 'oude', 'tovenaar', 'overpeinsde', 'zijn', 'leven'], '
浏览 10
提问于2020-05-01
得票数 0
回答已采纳
1
回答
Python:下采样
标记
或下采样word2vec模型
、
、
、
我必须制作一个较大
的
语料库(6 654 940个
句子
,19 592 258个
标记
)来与较小
的
语料库(15 607个
句子
,927 711个
标记
)相媲美,以便在2个可比较
的
word2vec模型上实现它们。每个语料库是一个
列表
列表
,其中每个
列表
都是一个
标记
化
的
句子
:例如[['the', 'boy', 'eats'
浏览 3
提问于2020-01-23
得票数 0
2
回答
命名实体识别黄金标准语料库
的
样本大小
、
、
、
、
我有一个包含170部荷兰文学小说
的
语料库,我将在其中应用命名实体识别。为了评估现有的
荷兰语
NER
标记
器
,我想在这个语料库
的
随机样本
中
手动标注命名实体-为此,我
使用
。在我
对
NER
标记
器
的
评估
中
,手动注释
的
随机样本将作为“黄金标准”。我编写了一个Python脚本,在
句子
级别输出我
的
语料库
的
随机样本。 我
的<
浏览 29
提问于2016-11-22
得票数 3
1
回答
标记
荷兰语
、
、
、
阅读文章后,我发现我可以
使用
荷兰
句子
标记
器
,如下所示:tokenizer = nltk.data.load('tokenizers/punkt/dutch.pickleDat deed ik gisteren') 但是,是否有一种
使用
荷兰语
标记
器
的
方法?英文
的
那个(默认
的
'punkt
浏览 2
提问于2021-03-01
得票数 0
回答已采纳
1
回答
斯坦福大学命名实体标签-不一致?
、
、
我有个奇怪
的
问题。 我有一个
句子
列表
(大约10万),它希望
使用
斯坦福命名实体识别(Ner)
标记
来
标记
。我正在
使用
斯坦福ner演示网站(Java )提供
的
以下代码行
进行
标记
。但是,当这些没有
标记
的
句子
被手工挑选到一些样本
列表
中
,用上面的代码
进行
测试时,它们就会被
标记
。所以我搞不懂我哪里出了问题。
浏览 2
提问于2014-07-31
得票数 0
回答已采纳
1
回答
文本文件
中
的
POS
标记
、
我想在一个包含以下
句子
的
文本文件(file1.txt)
中
应用POS
标记
:你好吗? 首先我想
对
它
进行
标记
化,然后
使用
POS
标记
器
。我知道
如何
对
字符串
进行
标记
化和
标记
。但我不确定
如何
在文件
中
做到这一点。任何帮助都将不胜感激。
浏览 0
提问于2017-06-19
得票数 0
1
回答
基于Viterbi算法
的
词性标注
、
我正在做一个项目,在这个项目中,我需要
使用
维特比算法对
句子
列表
进行
词性标注。对于我
的
训练数据,我有已经由单词
标记
的
句子
,我认为我需要解析这些
句子
并将其存储在某种数据结构
中
。然后我有一个测试数据,其中也包含每个单词都被
标记
的
句子
。 我
对
如何
处理这个问题感到有点困惑。我想问题
的
部分原因是我认为我没有完全理解维特比算
浏览 4
提问于2014-02-27
得票数 1
1
回答
如何
使用
标记
化
的
句子
作为Spacy
的
PoS
标记
器
的
输入?
、
、
Spacy
的
pos
标记
器
非常方便,它可以直接
对
原始
句子
进行
标记
。import spacy sen = sp(u"I am eating") 但我
使用
的
是nltk
的
记号赋予
器
。那么,
如何
使用
像['I', 'am
浏览 0
提问于2019-06-04
得票数 1
1
回答
斯坦福OpenNLP
中
句子
和文档之间
的
区别?
、
、
如果我们输入
的
文本是一个非常长
的
句子
,而不是文档,那么在注释一个长
句子
而不是遍历文档
中
的
每个
句子
和最终得到所有结果之间,Stanford做了什么不同
的
事情?编辑:我运行了一个测试,似乎这两种方法返回了两个不同
的
NER集。我可能只是做错了,但它确实非常有趣,我很好奇为什么会发生这种情况。
浏览 7
提问于2017-01-21
得票数 0
1
回答
句法分析和词性标注有什么区别?
、
、
、
我知道词性标注句中
的
每一个单词都带有适当
的
词性,但这不正是分析者所做
的
吗?也就是说,把一个
句子
分成几个部分?我在网上查过这个,但没有找到令人满意
的
解释。请澄清我
的
疑虑。提前感谢
浏览 3
提问于2020-04-26
得票数 4
回答已采纳
1
回答
WordNetLemmatizer函数
、
初学者
的
问题,我有一个250个
句子
的
文本文件,我已经
对
它们
进行
了
标记
化,并将这些
标记
符放在一个
列表
中
,如下所示现在,我想
使用
WordNetLemmatizer
对
每个单词
进行
词汇化但是这种情况发生了,请告诉我出什么事了。
浏览 0
提问于2017-02-12
得票数 0
2
回答
可以用来匹配
句子
的
算法是什么?
、
、
假设我们有一个包含50个
句子
的
列表
,我们有一个输入
句子
。
如何
从
列表
中选择与输入
句子
最接近
的
句子
?我尝试了许多方法/算法,例如对
句子
中
每个
标记
的
word2vec向量表示
进行
平均,然后
对
结果向量
进行
余弦相似度计算。 例如,我希望算法在“书
的
定义是什么?”之间给出一个很高
的</em
浏览 2
提问于2016-12-22
得票数 0
1
回答
为什么一组
标记
没有解析?
、
、
、
、
因此,我应该用我非常简单
的
解析
器
,从WSJ语料库中分块一些带
标记
的
句子
。当我自己给
句子
贴上标签时,works...but会用他们给出
的
方式来得到
标记
的
句子
。我
的
作业告诉我
使用
带有标签
的
WSJ语料库nltk.corpus.treebank.tagged_sents()
的
200-220句。然而,我
的
解析
器
给了我一个
浏览 1
提问于2017-03-03
得票数 0
回答已采纳
1
回答
分阶段运行斯坦福NLP管道
、
、
我尝试在多个步骤
中
运行核心流水线,以减少昂贵
的
解析和注释步骤。我可以看到,依存关系解析
器
可以接受
句子
的</e
浏览 3
提问于2015-08-20
得票数 0
1
回答
用Java设置Stanford NLP解析
器
中
的
选项
、
、
、
我正在尝试
使用
斯坦福NLP解析
器
来解析POS
标记
数据。因为我
的
数据已经被
标记
和
标记
化了,所以我尝试
使用
setOptionFlags()方法来通知解析
器
这一点, LexicalizedParser lp = LexicalizedParser.loadModelException in thread "main" java.lang.IllegalArgumentException: Unknown option: -sentence
浏览 5
提问于2013-10-22
得票数 0
2
回答
自然语言处理模型
、
我是NLP
的
初学者,做一个项目来解析,并理解用户用英语输入行
的
意图。
对
用户输入语句
进行
基本
的
标记
和词性标注,并在上
浏览 1
提问于2011-10-30
得票数 1
1
回答
关于Python2.7
中
列表
的
SpaCy问题
、
、
(x) for x in sent_text] sent11.append(token) 这对单个
句子
很有效,但我不想在一本书那么长
的
文本
中
对
每个
句子
都这样做。然后,一旦我有了这些只包含我想要
的
片段
浏览 2
提问于2018-10-14
得票数 0
1
回答
单词
标记
化NLTK缩写问题
、
我想知道
如何
对
以下
句子
(字符串)
进行
单词
标记
化: "I am good. I e.g. wash the dishes." 以下几句话: ["I", "am", "good", ".", "wash", "the", "dishes"] 现在
的
问题是,当涉及到像"e.g."这样
的
缩写时,它被N
浏览 20
提问于2019-03-17
得票数 0
回答已采纳
1
回答
为什么NLTK
使用
正则表达式表示单词
标记
化,而
使用
语句
标记
化培训?
、
、
我在python中
使用
NLTK。我理解它在其word
标记
化函数(如TreebankWordTokenizer.tokenize() )中
使用
正则表达式,但它
使用
经过训练
的
模型(泡菜文件)
进行
语句
标记
化。我不明白他们为什么不用训练来
标记
单词?这是否意味着
句子
标记
是一项更艰巨
的
任务?
浏览 2
提问于2016-12-22
得票数 0
回答已采纳
1
回答
我想忽略除名词和动词
标记
之外
的
所有其他
标记
。可以用斯坦福大学
的
corenlp单词类来做吗?
我想忽略除名词和动词
标记
之外
的
所有其他
标记
。可以用斯坦福大学
的
corenlp单词lavel来做吗?
浏览 1
提问于2013-09-10
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python自然语言处理:使用SpaCycle库进行标记化、词干提取和词形还原
【LLMs-BERT-2018】BERT模型-开创精彩的大规模预训练语言模型热潮(下)
训练一个能像人一样说话的神经网络模型,具体需要哪些步骤?
斯坦福全新NLP工具包StanfordNLP发布,支持53种语言
用于自然语言处理的BERT-双向Transformers的直观解释
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券