腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(7274)
视频
沙龙
1
回答
两个语料的Tf-Idf计算
、
、
、
我有两个
语料库
(
语料库
1和
语料库
2),
语料库
1中的文档包含从
语料库
2中抄袭的句子。我正在使用Tf-Idf方法来衡量
语料库
1中的文档与
语料库
2中的文档之间的相似度。已经为
语料库
2中的术语建立了倒排索引,如下所示: 简而言之,对于每两个句子的比较,我建立了两个Tf-Idf向量,然后使用余弦相似度来度量相似度。我的问题是,在建立与
语料库
1的句子相关的向量的过程中,我使用
语料库
2的索引,通过汇总与X术语相关的文档来获得
浏览 10
提问于2017-01-16
得票数 0
回答已采纳
1
回答
从标记文本文件创建自定义nltk
语料库
、
、
在阅读了大量的帖子后,我仍然很难在nltk中制作一个定制
语料库
。我有一个标记句子的文本文件,表格字符串中的每一项.单词/标签。我想用这东西训练一个标签师。1)训练标记者可以使用文本文件作为输入还是只使用nltk
语料库
对象? 2)如果只使用一个
语料库
,如何从文本文件中创建一个文本文件?我试过以下代码来创建一个
语料库
..。应该在这个代码运行的文件夹中创建一个
语料库
,或者在nltk_data/ code中创建,但是什么都找不到。在
语料库
模块中有什么方法可以保存我创建的“新<
浏览 2
提问于2012-05-29
得票数 0
1
回答
Python继承。无法读取属性
for word in sentence: print(wordCount) 我第一次尝试通过上面的操作来获得
语料库
中的总字数,但是当我试图调用这个函数时,它给了我一个错误:"UnigramModel‘对象没有属性’
语料库
‘。
浏览 1
提问于2017-09-27
得票数 0
回答已采纳
1
回答
用相关
语料库
和随机
语料库
计算TF-以色列国防军单词评分
、
、
、
、
给出一个相关文档
语料库
(
语料库
)和一个随机文档
语料库
( ran_CORPUS ),我想用ran_CORPUS作为基线来计算
语料库
中所有单词的TF-以色列国防军分数。在我的项目中,ran_CORPUS的文档数量大约是
语料库
的10倍。(现在,
语料库
是一个包含一个长字符串元素的列表)。在
语料库
中,我附加了所有的ran_CORPUS文档。然后,使用sklearn's TfidfTransformer,我将计算
语料库
(现在由
语料库
和r
浏览 1
提问于2018-11-12
得票数 2
回答已采纳
1
回答
在Hadoop上运行UIMA作业
、
我有一个功能齐全的UIMA作业,可以做简单的注释。我可以通过本地的CAS GUI成功地启动它。有人能告诉我这里可能发生了什么吗?我们需要在UIMA代码中进行任何额外的更改吗?
浏览 0
提问于2012-09-24
得票数 2
3
回答
如何在Python Natural Language Toolkit中创建自己的
语料库
?
、
、
我最近扩展了nltk中的名称
语料库
,我想知道如何将我拥有的两个文件(male.txt,female.txt)转换为
语料库
,这样我就可以使用现有的nltk.corpus方法访问它们。有人有什么建议吗?
浏览 2
提问于2010-01-31
得票数 4
3
回答
如何在nltk中向本地机器添加自定义
语料库
、
、
我有一个定制的
语料库
,它是用数据创建的,我需要做一些分类。我的数据集与movie_reviews
语料库
包含的格式相同。根据nltk文档,我使用以下代码访问movie_reviews
语料库
。是否有任何自定义
语料库
添加到nltk_data/ same目录,并以访问现有
语料库
的方式访问该
语料库
。
浏览 8
提问于2017-02-11
得票数 2
回答已采纳
1
回答
使用JPA关系映射的EJB 3持久性
、
、
、
、
FetchType.LAZY) private Corpus corpus; }
语料库
实体可以有许多
语料库
历史记录我希望使用
语料库
id完成映射,因此我在
语料库
历史实体中使用@JoinColumn(name="CORPUS_ID")和@ManyToOne注释。在将
语料库
对象持久化到数据库之前,我将
语料库<
浏览 2
提问于2012-06-08
得票数 0
回答已采纳
1
回答
如何在自己的
语料库
上测试默认NLTK NER chunker的准确性?
、
如何在自己的
语料库
上测试默认NLTK NER chunker的准确性? 我已经标记了我自己的
语料库
的一个百分比。我很好奇是否可以使用默认的NLTK标记器来查看这个
语料库
的准确率?我已经知道了ne_chunker.evaluate()函数,但是我不清楚如何在我自己的
语料库
(而不是黄金标准
语料库
)中输入以进行计算。
浏览 1
提问于2014-08-08
得票数 1
1
回答
编辑NLTK
语料库
、
、
、
除了nltk附带的
语料库
之外,我还想用我自己的
语料库
来训练它,该
语料库
遵循相同的词性规则。如何找到它正在使用的
语料库
,以及如何添加我自己的
语料库
(另外,不是作为替代)?
浏览 2
提问于2015-03-11
得票数 1
回答已采纳
2
回答
用于训练文本分类器的德语数据集
我正在寻找一个德语的带注释的数据集,类似于著名的英语IMDB电影评论数据集()。我还没有找到用情感分析预先训练过的德语单词嵌入,也没有找到合适的数据集来训练我自己的单词嵌入。
浏览 0
提问于2019-04-03
得票数 2
1
回答
可比较
语料库
和平行
语料库
有什么区别?
、
它们之间的区别是什么,它们能分别用于什么?
浏览 2
提问于2015-08-03
得票数 4
回答已采纳
1
回答
如何在NLTK中保存自定义分类
语料库
、
、
如何将新的
语料库
‘保存’到NLTK
语料库
数据?在我的例子中,当我在NLTK中创建了一个新的自定义分类
语料库
后,就像这个页面上说的那样: 我想使用它就像一个已经安装在NLTK中的
语料库
(比如movie_reviews)。我该怎么做呢?换句话说,我读到的新
语料库
(比如movie_reviews_0)怎么能这样命名呢?
浏览 1
提问于2013-03-25
得票数 0
回答已采纳
1
回答
如何根据
语料库
的相关性生成一包单词
、
但你看,TF -以色列国防军的TF只适用于一份文件.我需要制作一包与整体
语料库
相关的单词。我是做错了还是有别的选择?
浏览 3
提问于2016-02-26
得票数 0
1
回答
使用NLTK创建一个新的
语料库
,它忽略输入文件中的某些字符串,并且不将它们输入到
语料库
中。
、
、
我试着用一组文本文件创建我自己的
语料库
。但是,我想在文本文件被
语料库
化之前对它们做一些预处理,我想不出如何做到这一点,除非创建一个脚本,先运行每个文本文件,然后进行文本预处理,保存一个新的文本文件,然后在新的、后处理的文件上创建
语料库
。删除每行开头的数字(它们是原稿中的行号),这是每一行的前四个字符 关键的是,我想在单词进入
语料库
之前做这个预处理--我不想,例如,“咳嗽”或"0001“作为我的
语料库
中的条目,而不是”树“,而是我有基本的
语料库
读取器代码,但问题是,当它读
浏览 0
提问于2018-05-09
得票数 0
1
回答
如何构建python NLTK的翻译
语料库
?
、
、
、
我一直在使用Python的NTLK进行通用语言解析,最近我想创建一个专门用于翻译的
语料库
。我无法理解NTLK用于翻译的
语料库
选项和结构。 有很多,但是我找不到任何关于创建翻译风格
语料库
的细节。通过浏览
语料库
参考,我了解到有各种各样的风格和类型,但是我似乎找不到任何特定的翻译
语料库
示例或文档。
浏览 50
提问于2018-08-10
得票数 4
回答已采纳
1
回答
最大的平行文本和语音
语料库
最大的平行文本和语音
语料库
是什么?我指的是一个
语料库
,在这个
语料库
中,每个句子都有一个(或多个)发音(语音)。
浏览 1
提问于2014-01-18
得票数 0
1
回答
如何比较三个预先训练过的模型的余弦相似性?
、
、
、
、
我有两个
语料库
--一个是所有女性领袖的演讲,另一个是男性领袖演讲。我想检验一个
语料库
中两个词之间的余弦相似性与另一个
语料库
中相同的两个词之间的余弦相似性是显著不同的假设。此外,如果两个
语料库
之间的余弦相似性是不同的,我如何才能检查第三个
语料库
中相同的两个词之间的余弦相似性是否更类似于第一个或第二个
语料库
?
浏览 3
提问于2020-05-11
得票数 0
回答已采纳
1
回答
如何获取每个
语料库
的前25个单词(在R中)?
、
、
我猜想,这样做的技术类似于从任何数据帧中提取前N个字符,无论它是否是
语料库
。,我不知道如何创建一个空
语料库
,或者是一个足够大的
语料库
。我这里有一个包含200个文档的
语料库
(Charlotte.corpus.raw)。与向量(以及数据帧)不同,似乎没有一种简单的方法来创建空
语料库
。 问题的一部分是R似乎无法识别“文档”的类。它只识别
语料库
。也就是说,对于R,单个文档是n=1的
语料库
。然后将上面的Charlotte.corpus.raw替换为您命名的
语料库
浏览 4
提问于2016-08-19
得票数 0
1
回答
如何在NLP任务中处理这些非英语文档?
、
、
所以我有一个大约30k个文档的小
语料库
,这个
语料库
中大约有50个文档是用其他语言(波斯语、汉语、阿拉伯语、德语、西班牙语等)。我将使用这个
语料库
来训练机器学习模型。我是否应该将他们排除在最后的
语料库
之外,也不应该训练他们的模型?所涉
语料库
中的每一份文件不超过500个字
浏览 0
提问于2019-04-29
得票数 4
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
新闻语料库No.11
GitHub发布CodeSearchNet语料库以及挑战赛
人文认知语料库——我们智力进化的新纪元
复旦中文文本分类过程附语料库
无需双语语料库的无监督式机器翻译
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
云直播
活动推荐
运营活动
广告
关闭
领券