Python有频率的Ngrams列表_在Python语言中将列表从文本拆分成nGrams_如何从Python列表中返回频率的嵌套列表？ - 腾讯云开发者社区

、、

我正在从python中的文本数据中找到n个gram。pentagrams=ngrams(cleaned_docs,5)此外，我想要绘

浏览 3提问于2015-12-01得票数 2

5回答

如何在“用Python进行Web抓取:从现代Web中收集数据”一书中获得相同的结果第7章数据规范化部分

、、、、

Python版本： 2.7.10# -*- coding: utf-8 -*- from bs4 import BeautifulSoup"2-grams count is: " + str(len(ngrams))因此，我通

浏览 6提问于2015-09-27得票数 1

2回答

我需要加快从文本列表创建二元语法的功能

、

我有一个单词列表，看起来像这样：[2]“曾经”“在”“午夜”“沉闷”我正在尝试做的是基于这个列表创建一组二元语法我的代码如下所示，它可以正常工作。问题是它太慢了。我知道我在bigram_list()中的循环会减慢它的速度，但是我不知道如何在list中使用lapply。任何帮助都会得到哈利路亚的合唱。

浏览 2提问于2015-04-02得票数 1

1回答

从文档中收集所有n-gram(及其频率)

、

我想从一个文本中收集所有的n-gram，并且应该计算它们的频率。这两个挑战可以在一个或两个python文件中解决。这就是我已经拥有的。现在，这应该适用于.txt文件，而不是放入句子中。from nltk import ngrams threegrams = ngrams(sentence.split

浏览 0提问于2021-04-05得票数 0

6回答

从大量的.txt文件及其频率生成Ngram(Unigram、Bigrams等)

、

我需要用NLTK编写一个程序，它将一个语料库(大量的txt文件)分解为unigram、bigram、trigram、fourgrams和fivegrams。我已经编写了代码将我的文件输入到程序中。输入是用英文写的300个.txt文件，我希望输出的形式是纳克，特别是频率计数。但我并没有那么先进，让他们进入我的计划。PlaintextCorpusReader corpus = 'C:/Users&#x

浏览 3提问于2015-09-07得票数 27

回答已采纳

1回答

Python:在文本对话中查找单词列表的最快方法

、、

我在寻找单词列表中的所有单词在一次对话中被发现的次数。不考虑每个单词的个别频率，而只考虑总数。单词列表包括3之前的ngram。from nltk.util import ngramsdata = pd.read_csv('inputdata.csv') def c

浏览 1提问于2017-05-16得票数 1

2回答

合并生成器对象以计算NLTK中的频率

、、、

我试图使用ngrams中的ngram和freqDist函数来计算各种nltk的频率。由于ngram函数输出是一个generator对象，所以在计算频率之前，我希望合并来自每个ngram的输出。import *import retoken = word_tokenize(corpu

浏览 4提问于2017-09-27得票数 3

回答已采纳

1回答

FreqDist在列表上出现错误，错误为“不可接受的类型:列表”

、、、

我有一个名为ngram的列表 print(type(ngrams)) print(type(ngrams)) <class 'list'>``` But I also get the error TypeError

浏览 6提问于2022-02-25得票数 0

1回答

如何在pandas数据框中以不同的顺序从文本数据框列中提取所有ngram？

、、、、

下面是我的输入Dataframe。movie bad acting4 pathetic avoid我想从短语中常用的单词中提取让我们将短语标记化为单词，那么即使频繁使用的单词的顺序不同，我们也可以找到ngram，即(频繁使用的单词在第一个短语中互换，如果我们经常使用“好电影”，而在第二个短语中，我们经常使用单词“电影好”，我们可以提取二元语法作为2 average

浏览 8提问于2018-01-19得票数 1

2回答

累积频率，Ngram

、、

这里的快速问题:如果您运行下面的代码，您将从语料库中获得每个列表中的双词频率列表。然后，我基本上需要从模拟原始语料库的频率生成文本。/usr/bin/env python #Im

浏览 0提问于2012-10-26得票数 0

2回答

如何使用Python创建显示文本中最常见的二元语法的单词云？

、

我的twitter文本中最常用的二元语法和它们各自的频率被检索并存储在列表变量'l‘中，如下所示。textblob import TextBlobfrom nltk.util import ngramsfirst get individual words' 'and get a list

浏览 55提问于2020-06-23得票数 1

2回答

Python nltk统计词频和词频

、、

我正在使用NLTK，并试图使单词短语计数达到特定文档的特定长度以及每个短语的频率。我对字符串进行标记化，以获得数据列表。from nltk.util import ngramsfrom nltk.collocationsis", "real", "not", "a", "test", "this&

浏览 27提问于2016-11-18得票数 6

回答已采纳

1回答

将权重应用于Pandas Dataframe，以识别反复出现的术语

、、、、

我有一个非常大的，其中包含了一个大型文本库中的术语列表。我的目的是对这个文件做N克分析，以确定活动量最大的n克。但我要根据文本正文中n克的活动数量来排序。例如，我更感兴趣的是通常在20000+点击率范围内出现的n-克，而不是那些只出现几个点击率的。考虑到这一点，我认为这里需要进行某种形式的加权分析。他们在Pandas或Sklearn中的某种形式的功能会帮助我完成这

浏览 1提问于2019-06-04得票数 0

1回答

python -在字符串列表中，查找至少在y个条目中出现的至少n个连续令牌的所有模式

、

我试图完成的任务是编写一个函数，当在字符串列表中进行搜索时，该函数将识别至少在y个条目中出现的至少n个标记的所有模式。function(list, n=3, y=3)["my name is", "my favorite food"] 我想在非常大的列表中使用这个函数我打算用多个嵌套循环的暴力方式来做这件事，但这会非常慢。我想知

浏览 6提问于2019-02-21得票数 0

回答已采纳

1回答

python中的"for循环“填充列表的速度随着每次迭代而变得越来越慢。

、、、、

我使用for循环在python中填充了一个很大的列表：for i in tnrange(len(list_ngrams2)): for value in list_ngrams2[i]:if value in features: tdif[i]=storetdif=[value

浏览 9提问于2019-08-06得票数 0

回答已采纳

3回答

按字母顺序对元组排序

、、

我正在尝试使用python按字母顺序对二元语法的元组列表进行排序。我的输出现在看起来像这样：('how', 'are')('you', '?')我希望输出看起来像这样，按字母顺序排序，每个二元语法只出现一次，最好是频率计数： ('are', 'you&

浏览 4提问于2017-04-04得票数 4

1回答

Nltk .most_common()，返回的顺序是什么？

、、、

我发现在某些句子中常用的是：from nltk import ngramsmylist = mydata.split()fd = nltk.FreqDist(mybigrams)在打印出最常见频率的大写，一个发生7倍，因为所有然而，当我把大比例尺和我的句子进行比较时，我看不出所有频率</e

浏览 6提问于2016-04-14得票数 0

1回答

从文档中提取n-gram并统计其频率

、、

我想从一个文件中提取n-gram，然后统计它们的频率。我的问题是，他们的输出不是真实的，它只是说：from nlt

浏览 6提问于2021-04-05得票数 0

1回答

Python3.6:按文档而不是术语积累sklearn

、、、、

我是Python的新手，但我在任何地方都找不到答案(至少在某种形式上对我来说不够简单)。如何通过文档而不是术语积累nGram频率？我正在创建基于描述字段的nGrams，使用sklearn.feature_extraction.text CountVectorizer。(文档)中的一列nGrams和一列它们的频率组成。从逻辑上讲，这将需要以某种方式将频率映射回引入的unique_id。我尝试过将<em

浏览 2提问于2017-03-30得票数 2

回答已采纳

1回答

在python中构造单字、双字和三字

、

如何构造大型语料库中的一元、二元和三元词，并计算它们的出现频率。按照最频繁的到最不频繁的gram来排列结果。from nltk import word_tokenizefrom collections import Counter token = nltk.word_tokeniz

浏览 21提问于2020-05-08得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

将n grams生成器输出另存为cvs文件

如何在“用Python进行Web抓取:从现代Web中收集数据”一书中获得相同的结果第7章数据规范化部分

我需要加快从文本列表创建二元语法的功能

从文档中收集所有n-gram(及其频率)

从大量的.txt文件及其频率生成Ngram(Unigram、Bigrams等)

Python:在文本对话中查找单词列表的最快方法

合并生成器对象以计算NLTK中的频率

FreqDist在列表上出现错误，错误为“不可接受的类型:列表”

如何在pandas数据框中以不同的顺序从文本数据框列中提取所有ngram？

累积频率，Ngram

如何使用Python创建显示文本中最常见的二元语法的单词云？

Python nltk统计词频和词频

将权重应用于Pandas Dataframe，以识别反复出现的术语

python -在字符串列表中，查找至少在y个条目中出现的至少n个连续令牌的所有模式

python中的"for循环“填充列表的速度随着每次迭代而变得越来越慢。

按字母顺序对元组排序

Nltk .most_common()，返回的顺序是什么？

从文档中提取n-gram并统计其频率

Python3.6:按文档而不是术语积累sklearn

在python中构造单字、双字和三字

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐