语料库pythonnlp_python 语料库_语料库预处理 - 腾讯云开发者社区

、、、

我有两个语料库(语料库1和语料库2)，语料库1中的文档包含从语料库2中抄袭的句子。我正在使用Tf-Idf方法来衡量语料库1中的文档与语料库2中的文档之间的相似度。已经为语料库2中的术语建立了倒排索引，如下所示：简而言之，对于每两个句子的比较，我建立了两个Tf-Idf向量，然后使用余弦相似度来度量相似度。我的问题是，在建立与语料库1的句子相关的向量的过程中，我使用语料库2的索引，通过汇总与X术语相关的文档来获得

浏览 10提问于2017-01-16得票数 0

回答已采纳

1回答

从标记文本文件创建自定义nltk语料库

、、

在阅读了大量的帖子后，我仍然很难在nltk中制作一个定制语料库。我有一个标记句子的文本文件，表格字符串中的每一项.单词/标签。我想用这东西训练一个标签师。1)训练标记者可以使用文本文件作为输入还是只使用nltk语料库对象? 2)如果只使用一个语料库，如何从文本文件中创建一个文本文件？我试过以下代码来创建一个语料库..。应该在这个代码运行的文件夹中创建一个语料库，或者在nltk_data/ code中创建，但是什么都找不到。在语料库模块中有什么方法可以保存我创建的“新<

浏览 2提问于2012-05-29得票数 0

1回答

Python继承。无法读取属性

for word in sentence: print(wordCount) 我第一次尝试通过上面的操作来获得语料库中的总字数，但是当我试图调用这个函数时，它给了我一个错误："UnigramModel‘对象没有属性’语料库‘。

浏览 1提问于2017-09-27得票数 0

回答已采纳

1回答

用相关语料库和随机语料库计算TF-以色列国防军单词评分

、、、、

给出一个相关文档语料库(语料库)和一个随机文档语料库( ran_CORPUS )，我想用ran_CORPUS作为基线来计算语料库中所有单词的TF-以色列国防军分数。在我的项目中，ran_CORPUS的文档数量大约是语料库的10倍。(现在，语料库是一个包含一个长字符串元素的列表)。在语料库中，我附加了所有的ran_CORPUS文档。然后，使用sklearn's TfidfTransformer，我将计算语料库(现在由语料库和r

浏览 1提问于2018-11-12得票数 2

回答已采纳

1回答

在Hadoop上运行UIMA作业

、

我有一个功能齐全的UIMA作业，可以做简单的注释。我可以通过本地的CAS GUI成功地启动它。有人能告诉我这里可能发生了什么吗?我们需要在UIMA代码中进行任何额外的更改吗？

浏览 0提问于2012-09-24得票数 2

3回答

如何在Python Natural Language Toolkit中创建自己的语料库？

、、

我最近扩展了nltk中的名称语料库，我想知道如何将我拥有的两个文件(male.txt，female.txt)转换为语料库，这样我就可以使用现有的nltk.corpus方法访问它们。有人有什么建议吗？

浏览 2提问于2010-01-31得票数 4

3回答

如何在nltk中向本地机器添加自定义语料库

、、

我有一个定制的语料库，它是用数据创建的，我需要做一些分类。我的数据集与movie_reviews语料库包含的格式相同。根据nltk文档，我使用以下代码访问movie_reviews语料库。是否有任何自定义语料库添加到nltk_data/ same目录，并以访问现有语料库的方式访问该语料库。

浏览 8提问于2017-02-11得票数 2

回答已采纳

1回答

使用JPA关系映射的EJB 3持久性

、、、、

FetchType.LAZY) private Corpus corpus; } 语料库实体可以有许多语料库历史记录我希望使用语料库id完成映射，因此我在语料库历史实体中使用@JoinColumn(name="CORPUS_ID")和@ManyToOne注释。在将语料库对象持久化到数据库之前，我将语料库<

浏览 2提问于2012-06-08得票数 0

回答已采纳

1回答

如何在自己的语料库上测试默认NLTK NER chunker的准确性？

、

如何在自己的语料库上测试默认NLTK NER chunker的准确性？我已经标记了我自己的语料库的一个百分比。我很好奇是否可以使用默认的NLTK标记器来查看这个语料库的准确率？我已经知道了ne_chunker.evaluate()函数，但是我不清楚如何在我自己的语料库(而不是黄金标准语料库)中输入以进行计算。

浏览 1提问于2014-08-08得票数 1

1回答

编辑NLTK语料库

、、、

除了nltk附带的语料库之外，我还想用我自己的语料库来训练它，该语料库遵循相同的词性规则。如何找到它正在使用的语料库，以及如何添加我自己的语料库(另外，不是作为替代)？

浏览 2提问于2015-03-11得票数 1

回答已采纳

2回答

用于训练文本分类器的德语数据集

我正在寻找一个德语的带注释的数据集，类似于著名的英语IMDB电影评论数据集()。我还没有找到用情感分析预先训练过的德语单词嵌入，也没有找到合适的数据集来训练我自己的单词嵌入。

浏览 0提问于2019-04-03得票数 2

1回答

可比较语料库和平行语料库有什么区别？

、

它们之间的区别是什么，它们能分别用于什么？

浏览 2提问于2015-08-03得票数 4

回答已采纳

1回答

如何在NLTK中保存自定义分类语料库

、、

如何将新的语料库‘保存’到NLTK语料库数据？在我的例子中，当我在NLTK中创建了一个新的自定义分类语料库后，就像这个页面上说的那样：我想使用它就像一个已经安装在NLTK中的语料库(比如movie_reviews)。我该怎么做呢？换句话说，我读到的新语料库(比如movie_reviews_0)怎么能这样命名呢？

浏览 1提问于2013-03-25得票数 0

回答已采纳

1回答

如何根据语料库的相关性生成一包单词

、

但你看，TF -以色列国防军的TF只适用于一份文件.我需要制作一包与整体语料库相关的单词。我是做错了还是有别的选择？

浏览 3提问于2016-02-26得票数 0

1回答

使用NLTK创建一个新的语料库，它忽略输入文件中的某些字符串，并且不将它们输入到语料库中。

、、

我试着用一组文本文件创建我自己的语料库。但是，我想在文本文件被语料库化之前对它们做一些预处理，我想不出如何做到这一点，除非创建一个脚本，先运行每个文本文件，然后进行文本预处理，保存一个新的文本文件，然后在新的、后处理的文件上创建语料库。删除每行开头的数字(它们是原稿中的行号)，这是每一行的前四个字符关键的是，我想在单词进入语料库之前做这个预处理--我不想，例如，“咳嗽”或"0001“作为我的语料库中的条目，而不是”树“，而是我有基本的语料库读取器代码，但问题是，当它读

浏览 0提问于2018-05-09得票数 0

1回答

如何构建python NLTK的翻译语料库？

、、、

我一直在使用Python的NTLK进行通用语言解析，最近我想创建一个专门用于翻译的语料库。我无法理解NTLK用于翻译的语料库选项和结构。有很多，但是我找不到任何关于创建翻译风格语料库的细节。通过浏览语料库参考，我了解到有各种各样的风格和类型，但是我似乎找不到任何特定的翻译语料库示例或文档。

浏览 50提问于2018-08-10得票数 4

回答已采纳

1回答

最大的平行文本和语音语料库

最大的平行文本和语音语料库是什么？我指的是一个语料库，在这个语料库中，每个句子都有一个(或多个)发音(语音)。

浏览 1提问于2014-01-18得票数 0

1回答

如何比较三个预先训练过的模型的余弦相似性？

、、、、

我有两个语料库--一个是所有女性领袖的演讲，另一个是男性领袖演讲。我想检验一个语料库中两个词之间的余弦相似性与另一个语料库中相同的两个词之间的余弦相似性是显著不同的假设。此外，如果两个语料库之间的余弦相似性是不同的，我如何才能检查第三个语料库中相同的两个词之间的余弦相似性是否更类似于第一个或第二个语料库？

浏览 3提问于2020-05-11得票数 0

回答已采纳

1回答

如何获取每个语料库的前25个单词(在R中)？

、、

我猜想，这样做的技术类似于从任何数据帧中提取前N个字符，无论它是否是语料库。，我不知道如何创建一个空语料库，或者是一个足够大的语料库。我这里有一个包含200个文档的语料库(Charlotte.corpus.raw)。与向量(以及数据帧)不同，似乎没有一种简单的方法来创建空语料库。问题的一部分是R似乎无法识别“文档”的类。它只识别语料库。也就是说，对于R，单个文档是n=1的语料库。然后将上面的Charlotte.corpus.raw替换为您命名的语料库

浏览 4提问于2016-08-19得票数 0

1回答

如何在NLP任务中处理这些非英语文档？

、、

所以我有一个大约30k个文档的小语料库，这个语料库中大约有50个文档是用其他语言(波斯语、汉语、阿拉伯语、德语、西班牙语等)。我将使用这个语料库来训练机器学习模型。我是否应该将他们排除在最后的语料库之外，也不应该训练他们的模型？所涉语料库中的每一份文件不超过500个字

浏览 0提问于2019-04-29得票数 4

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

两个语料的Tf-Idf计算

从标记文本文件创建自定义nltk语料库

Python继承。无法读取属性

用相关语料库和随机语料库计算TF-以色列国防军单词评分

在Hadoop上运行UIMA作业

如何在Python Natural Language Toolkit中创建自己的语料库？

如何在nltk中向本地机器添加自定义语料库

使用JPA关系映射的EJB 3持久性

如何在自己的语料库上测试默认NLTK NER chunker的准确性？

编辑NLTK语料库

用于训练文本分类器的德语数据集

可比较语料库和平行语料库有什么区别？

如何在NLTK中保存自定义分类语料库

如何根据语料库的相关性生成一包单词

使用NLTK创建一个新的语料库，它忽略输入文件中的某些字符串，并且不将它们输入到语料库中。

如何构建python NLTK的翻译语料库？

最大的平行文本和语音语料库

如何比较三个预先训练过的模型的余弦相似性？

如何获取每个语料库的前25个单词(在R中)？

如何在NLP任务中处理这些非英语文档？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐