用python中的搭配字典替换文本文件中的所有搭配

、、、、

我尝试使用python将文本文件corpus.txt中的子字符串替换为其他一些子字符串。python代码(由于corpus和sub的大小而使用多处理) import sysimport time from multiprocessing import Pool和sub变量(在上面的代码片段中)，以显示代码是如何工作的。在实际设置中，corpus.txt和sub.txt都包含数百万行(分别

浏览 20提问于2020-06-27得票数 2

回答已采纳

1回答

RegEx:如何找到一个搭配的所有实例？

、

我正在尝试用python编写一个脚本来查找文本中的单词搭配。词的搭配是在不同的文本中经常出现的一对词。例如，在搭配"lemon zest“中，lemon和zest这两个词经常同时出现，因此它是一个搭配。现在，我想使用re.findall查找给定搭配的所有匹配项。与"lemon zest“不同的是，有些

浏览 0提问于2014-03-17得票数 0

1回答

从Lucene索引中提取搭配词

、、

我有一个存储在Lucene中的文档索引。我需要从索引中提取所有搭配词及其频率。我知道有各种算法可以检测给定文档中的搭配，但我不知道有什么现成的库可以专门用Lucene来完成这项任务。我知道如何从lucene索引中仅提取二元语法，但并不是所有的二元语法都是搭配词。

浏览 1提问于2014-02-06得票数 0

3回答

在Java中查找单词搭配

、

我正在尝试在Java中查找。我查看了OpenNLP和GATE，但它们似乎没有搭配查找器。有谁知道用Java实现的免费开源搭配查找器？

浏览 1提问于2011-10-16得票数 4

回答已采纳

1回答

R中的文本挖掘搭配包

、

嗨，R中有一个包可以帮助查找与python pakage.Like中的搭配相似的词的同现，给出一个语料库列表中所有的同现词对。

浏览 4提问于2015-04-26得票数 0

1回答

学习:不要使用一些单词作为一个词的特征，而是在搭配中使用。

、、

我正在使用Python和scikit进行文本分类--学习。现在，我使用TfidfVectorizer作为向量器(用于将原始文本转换为特征向量)，使用MultinomialNB作为分类器。经过分类和测试，我的算法在测试集和简历集，我想提高准确性。我看到了信息最丰富的特性(由于问题)。我看到，在集信息最多的特性中，我有单词( ngram=1)，它对分类没有影响，但是在bigram (单词搭配)中，它们会产生很大的影响。所以，我不能使用stop_words

浏览 3提问于2014-07-22得票数 1

回答已采纳

1回答

如何在MxNet中计算n-克？

、

我想在MxNet中用N表示一组字符串.当然，我也会做一些类似的事情，但即使是一个简单的N克，只要有计数和功能限制，也是可以的。有内置的功能吗？什么是最好的方法？目前，我正在用Python计算它， tf = {} for

浏览 3提问于2017-10-02得票数 0

回答已采纳

1回答

Nltk模块找不到正确的英语单词python

、、

我下载了用于python的"NLTK“库的”word“和"wordnet”：from nltk.corpus import wordsnltk.download('words')检查列表中的单词是否为英语。这是我的剧本： samplewords=['accident scene&

浏览 1提问于2019-09-08得票数 0

回答已采纳

2回答

如何用jijna2获取for循环的当前索引？

、

假设我有这样的代码： <p>We are in item: {{ x }}</>我希望获得for循环的当前索引，以运行if循环，类似于</p> <p>We are in item: {{ x }}</>{% endfor %} 如何在jijna2中实现？(我用Python与烧瓶搭配)。

浏览 2提问于2015-06-27得票数 5

回答已采纳

1回答

用Python中的NLTK从bigram的listo中应用搭配

、、

我必须在几个句子中找到并“应用”搭配。句子存储在一个字符串列表中。让我们现在只关注一个句子。下面是一个例子：我最后想要的是：我正在使用Python来查找搭配，并且我能够创建一个集合，其中包含了我所有句子的<e

浏览 2提问于2017-04-23得票数 0

回答已采纳

1回答

现在移除的模块'nltk.model.NGramModel‘有替代模块吗？

、、

我已经连续两天试图寻找替代方案，但找不到任何相关的东西。我基本上是在尝试获得合成句子的概率分数(通过替换从语料库中挑选的原始句子中的一些单词来合成)。我尝试了搭配，但我得到的分数并不是很有帮助。所以我试着使用语言模型的概念，结果发现看似有用的模块' model‘已经因为一些bug从NLTK中删除了。如果有人能让我知道用python实现

浏览 1提问于2014-10-19得票数 12

2回答

为什么在使用Python的wordcloud库时，停止单词不被排除在单词云之外？

、、、

我不想在我的文字云中显示'The‘、’它们‘和' my’。我正在使用python库' wordcloud‘如下所示，并使用这三个额外的停止词更新stopwords列表，但wordcloud仍然包括它们。我需要修改什么才能把这三个词排除在外？我尝试在以下位置向STOPWORDS集添加元素，但是，即使成功地添加了单词，wordcloud仍然显示了我添加到STOPWORDS集合中的三个单词：STOPWO

浏览 13提问于2020-05-22得票数 3

回答已采纳

1回答

如何使用Python识别单个字符之间的搭配？

、、、、

我想用NLTK来识别日语汉字和汉语汉字之间的搭配。与词语搭配一样，一些汉字序列比其他序列更容易出现。例:汉语和日语中的许多单词都是两个字符的双字形-A和B(例如:A和B)。(3) A字和B字一起出现在句子中的可能性有多大，即使它们不并排出现？相关地:如果我有一个汉字/汉字的频率列表，我可以强迫NLTK搭配模块只检查我列表中的汉字/汉字之间的关

浏览 2提问于2017-04-23得票数 7

2回答

计算列表中的共现次数

、

我有一个由一组字符串列表组成的数组(可以假设每个字符串都是一个单词)。在Python中，我想要一种有效的方法来计算这个数组中的单词对。它不是搭配或双字母组合，因为该对中的每个单词都可以在列表中的任何位置。

浏览 0提问于2013-05-13得票数 0

3回答

带有频率的Ngram的Python列表

、、

我需要从文本中获取最流行的ngram。Ngram长度必须介于1到5个单词之间。但WordNGramAnalyzer现在已被弃用。我的问题是:我如何从我的文本中获得N个最佳的单词搭配，搭配长度从1到5。我还需要获得这个搭配/ngram的

浏览 85提问于2012-08-02得票数 16

回答已采纳

1回答

text2vec单词嵌入:复合一些标记，但不是全部

、、、

我正在使用{text2vec}单词嵌入来构建与某个语义类别相关的相似术语的字典。是否可以在语料库中合成一些标记，但不是全部？例如，我想计算类似于“未来一代”或“正在崛起的一代”的术语，但这些搭配在原始语料库中当然是作为单独的术语出现的。我想知道，如果gsub是“正在崛起的一代”--> "rising_generation"，而没有将所有其他频繁出现<em

浏览 13提问于2020-10-04得票数 1

回答已采纳

1回答

如何在nltk-collocation-finder的单词列表中转换pandas数据帧？

、、、

作为一名语言学家和python初学者，我希望在我自己的(德语)tweet语料库中找到单词搭配。如何将pandas dataframe (只有一列= tweet)中的tweet转换为单词列表，以便能够使用nltk-collocation-finder？我的版本(如下)创建了一个字母列表，而不是单词列表，只给出了字母搭配。任何建议都是很棒的！这就是我到目前为止所知道的：data = pd.read

浏览 2提问于2021-04-04得票数 2

1回答

Apache使用亲和键读取所有键值

、

我是Apache的新手，我计划在我的一个应用程序中使用Ignite。但是，我被困在一个用例(可能是非常基本的)。用例:我有两个实体雇员和组织。使用搭配，我可以在一个节点上存储属于一个Oganisation的员工。但我如何解读所有员工都属于一个组织，使用组织密钥？我不想将查询发送到集群中的所有节点进行读取。

浏览 2提问于2020-02-27得票数 1

回答已采纳

3回答

允许特定字符串的字符之间留出空间的Regex

、、

我想要创建一个正则表达式，以允许特定字符串的字符之间有空格。奥巴马将与“奥巴马”、“奥巴马”等搭配。谢谢。

浏览 11提问于2015-07-03得票数 1

回答已采纳

1回答

如何从大量的文章(维基百科)中训练短语模型？

、、、

我想为法语创建一个很大的gensim字典，尝试在主题检测、文本之间的相似性和其他类似的事情上获得更好的结果。因此，我计划使用维基百科转储，并按以下方式处理：在文章上训练短语模型以检测搭配。在每一篇文章中停止产生的标记。向字典提供新的<

浏览 0提问于2019-01-23得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

RegEx:如何找到一个搭配的所有实例？

从Lucene索引中提取搭配词

在Java中查找单词搭配

R中的文本挖掘搭配包

学习:不要使用一些单词作为一个词的特征，而是在搭配中使用。

如何在MxNet中计算n-克？

Nltk模块找不到正确的英语单词python

如何用jijna2获取for循环的当前索引？

用Python中的NLTK从bigram的listo中应用搭配

现在移除的模块'nltk.model.NGramModel‘有替代模块吗？

为什么在使用Python的wordcloud库时，停止单词不被排除在单词云之外？

如何使用Python识别单个字符之间的搭配？

计算列表中的共现次数

带有频率的Ngram的Python列表

text2vec单词嵌入:复合一些标记，但不是全部

如何在nltk-collocation-finder的单词列表中转换pandas数据帧？

Apache使用亲和键读取所有键值

允许特定字符串的字符之间留出空间的Regex

如何从大量的文章(维基百科)中训练短语模型？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐