Gensim短语找不到一些二元语法_为什么不是所有的二元语法都在gensim的‘`Phrases`’工具中创建？_如何在gensim word2vec模型中寻找二元语法相似度 - 腾讯云开发者社区

、、

我正在尝试用gensim模拟CountVectorizer()中的n_gram参数。我的目标是能够将LDA与Scikit或Gensim一起使用，并找到非常相似的二元语法。例如，我们可以找到以下带有scikit的二元模型："abc computer"，"binary unordered“和gensim "A survey"，"Graph minors”…… 我在下面附上了我的代码，以比较Gensim和Scikit

浏览 1提问于2017-05-11得票数 0

1回答

Gensim短语找不到一些二元语法

、、

我想得到符号(单词的字母)的二元模型。例如，对于单词"done“和"dog”，我希望能够找到二元语法"do“。我试着用gensim.Phrases写，但对我不起作用。下面是我的代码： from gensim.models import Phrases documents_

浏览 24提问于2019-04-29得票数 0

1回答

手动将搭配添加到gensim词组

、

我正在对语言学论文进行主题建模，并使用Gensim短语来识别频繁的搭配。我希望能够将术语标记为“do-support”和“it-cleft”作为一个单词，因为它们是特定的语言术语。然而，如果我在删除停用词之后创建Gensim模型，将找不到这些搭配(因为它们包含停用词)，如果我在删除停用词(或者不包括' it‘或’do‘的停用词)之后创建模型，它会识别出一大堆不相关的搭配。有没有办法手动添加应该被Gensim短语识别为搭配的短语？谢谢!

浏览 0提问于2017-08-22得票数 2

2回答

使用apply方法在pandas列上使用gensim短语

、、、、

我正在尝试在df中的列上使用gensim短语。used for test1"3 "this is the third row" 我已经为二元语法编写了一个方法bigrams) df['col2'].apply(lambda x: bigrams([x])) - so that the text is enclosed in list 但我将

浏览 45提问于2020-06-12得票数 0

1回答

如何在gensim中获得过滤后的二元文法的分数？

、、

，可以使用gensim来获取二元语法，如下所示： bigrams = gensim.models.Phrases(data_words, min_count=1,threshold=1) bigram_model= gensim.models.phrases.Phraser(bigrams) 我想知道如何获得在bigram_model中检测到的每个二元语法的分数？

浏览 18提问于2020-07-22得票数 0

回答已采纳

3回答

在word2vec Gensim中获取二元语法和三元语法

、、、、

sentence is a list of words, return sentences"New York" -> I am currently getting it as "New", "York" 因此，我希望在我的数据集中捕获重要的二元<em

浏览 0提问于2017-09-09得票数 15

回答已采纳

1回答

如何仅生成二元/三元语料库

、、

Gensim有没有办法在单词列表中严格生成二元语法和三元语法？我可以成功地生成一元、二元、三元，但我只想提取二元、三元。'new', 'york', 'was', 'there'],["i","love","new","york"],["new","york","is"

浏览 1提问于2020-01-17得票数 0

1回答

是否有任何预训练的word2vec模型能够检测短语

、

是否有任何预先训练的戏剧模型，其数据既包含单个单词，也包含合并在一起的多个单词，例如‘word2vec’，'drama_film‘或’‘africanamericancommunity’。有没有这样的模型用巨大的数据集训练，比如为gloVE训练的数据集？

浏览 21提问于2019-12-17得票数 0

2回答

如何构建包含二元语法的gensim字典？

、、

为此，我构建了一个gensim字典，然后使用该字典创建我用来构建模型的语料库的词袋表示。构建字典的步骤如下所示：其中token是单字和双字的列表，如下所示： ('diversificationreplaced'), ('put',), ('

浏览 1提问于2018-07-19得票数 7

1回答

未观察到min_count参数的gensim短语

、

我正在尝试用二元语法训练一个gensim Word2Vec模型。为了获得二元语法，我运行以下代码，其中sentences代表使用nltk.sent_tokenize的一长串拆分句子，使用空格进行词形区分，然后小写：这只能包括出现>= 20次的二元语法</e

浏览 0提问于2020-01-11得票数 0

1回答

如何在pandas数据框中以不同的顺序从文本数据框列中提取所有ngram？

、、、、

average movie bad acting4 pathetic avoid我想从短语中常用的单词中提取ngram，即二元语法、三元语法和四个单词语法。让我们将短语标记化为单词，那么即使频繁使用的单词的顺序不同，我们也可以找到ngram，即(频繁使用的单词在第一个短语中互换，如果我们经常使用“好电影”，而在第二个短语中，我们经常使

浏览 8提问于2018-01-19得票数 1

1回答

为什么不是所有的二元语法都在gensim的‘`Phrases`’工具中创建？

、、、、

我使用gensim创建了一个二元模型，并尝试获取二元句子，但它没有选择所有的二元句子，为什么？from gensim.models.phrases import Phrases, Phraser[u'the', u'mayor', u'of', u'new_york', u

浏览 10提问于2020-02-07得票数 1

回答已采纳

2回答

打印使用gensim学习的二元语法

、、、、

我想使用gensim从语料库中学习二元语法，然后只打印学习到的二元语法。我还没有见过这样的例子。感谢您的帮助documents = ["the mayor of new york was there", "human computer

浏览 17提问于2018-12-10得票数 2

1回答

如何找到最常用的词来描述一个类别

、

此外，我还想添加一些单词，包括英语停用词、二元语法和三元语法。也许可以找到排名前20的单词/短语。

浏览 11提问于2019-03-06得票数 0

1回答

从文档中提取单个KeyWord

、、、

问题是他们使用二元语法或三元语法搭配，因此他们只找到多个单词的关键短语。我希望找到一个关键字作为主题。我应该如何修改它们？

浏览 1提问于2013-04-15得票数 1

1回答

如何为tokenizator指定额外的tokens？

、、、、

我想用gensim.utils.tokenize()对文本进行标记化。我想添加一些可以识别为单个标记的短语，例如：'New York', 'Long Island'。是否可以使用gensim？

浏览 19提问于2019-05-24得票数 0

回答已采纳

1回答

句子的负性评分

、、

我正在处理航空公司客户投诉的数据集。既然是“抱怨”，一般的共识是所有的句子都是“负面”的情绪。因此，我正在考虑一种量化负性分数的方法。例如：负面评论较少： "the cabin did not have enough leg space but the food was decent" - Score: 0.3 高度负面评论： "complete service was horrible, I will not recommend them ever" - Score: 0.8 对现有的方法有什么建议吗？附言:我不是在寻找一个确切的答案，任何关于方向或

浏览 23提问于2019-05-25得票数 0

回答已采纳

2回答

用Spacy提取短语

、、、

spacy是否像使用word2phrase或来自gensim的Phrases类时那样使用一些API来进行短语*提取？谢谢。 PS。短语在语言学中的意思是搭配。

浏览 11提问于2021-03-31得票数 2

回答已采纳

2回答

如何使用词嵌入NLP对同时表达一个特定含义的多个词进行分组

、、、

我正在做一个NLP项目，我是这个领域的新手。我正在KERAS中做单词嵌入。我希望将多个单词(它们一起表达特定的含义)作为一个单词嵌入在一起。类似地，机械工程、热水、N维向量空间等

浏览 13提问于2018-02-08得票数 0

2回答

基于spacy的POS模式挖掘

、

exploring text analytics using spacy我正在寻找这样的输出，通过提取具有我提供的特定词性模式的三元语法/二元语法短语的单词。如果一个句子有多个短语，则必须使用新短语复制记录。

浏览 45提问于2019-03-28得票数 6

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

尝试用gensim模仿Scikit ngram

Gensim短语找不到一些二元语法

手动将搭配添加到gensim词组

使用apply方法在pandas列上使用gensim短语

如何在gensim中获得过滤后的二元文法的分数？

在word2vec Gensim中获取二元语法和三元语法

如何仅生成二元/三元语料库

是否有任何预训练的word2vec模型能够检测短语

如何构建包含二元语法的gensim字典？

未观察到min_count参数的gensim短语

如何在pandas数据框中以不同的顺序从文本数据框列中提取所有ngram？

为什么不是所有的二元语法都在gensim的‘`Phrases`’工具中创建？

打印使用gensim学习的二元语法

如何找到最常用的词来描述一个类别

从文档中提取单个KeyWord

如何为tokenizator指定额外的tokens？

句子的负性评分

用Spacy提取短语

如何使用词嵌入NLP对同时表达一个特定含义的多个词进行分组

基于spacy的POS模式挖掘

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐