使用Pandas数据帧的nGram频率

、、

，然后看到一些东西，用我的代码我可以‘做这个’，但它也给了我ngram只有1次的频率，这是我不想要的，因为它们不会被多次使用，所以无用的信息。这样做的重点是为了获得标题中最常见的单词，我认为一个好的ngram范围应该是2-3个单词，因为1个单词是不够的，超过3个单词太具体了。这是我的代码，它正在工作，但我需要一种方法来获得不重复的东西(也许也是实

浏览 15提问于2017-12-12得票数 0

1回答

如何在pandas数据帧中找到列的ngram频率？

、、、、

下面是我拥有的输入pandas数据帧。我想找出单字和双字的频率。下面显示了我所期望的示例如何使用nltk或scikit learn来做到这一点？如何将其扩展到序列/数据帧？nltk.collocations.BigramAssocMeasures()finder.ngram_fd.v

浏览 2提问于2016-04-12得票数 11

回答已采纳

1回答

使用sklearn获取每个ngram项的频率。

、

我正在使用以下方法从熊猫数据中提取出纳克： """Extract NGrams from a listof Strings df -- the pandas dataframe containing the sentences min

浏览 4提问于2016-06-20得票数 1

回答已采纳

1回答

哪一种Pandas dataframe更好:超长dataframe与结构糟糕的有列表的数据

、、

我必须分别用标签A和B来计算每一个n克的发生次数。但是，我必须在将长列表放入列与获取非常长的数据帧之间进行选择，并且我不确定哪种结构优于另一种结构。AFAIK，在数据列表的列中包含列表是一种糟糕的结构，因为使用熊猫操作很难获得任何有用的信息，比如获取多个列表中的项目的频率(发生)。而且，即使有可能，也需要更多的计算才能完成任何任务。但是，我知道数据太长会消耗大量

浏览 0提问于2020-02-25得票数 3

回答已采纳

1回答

Python3.6:按文档而不是术语积累sklearn

、、、、

我是Python的新手，但我在任何地方都找不到答案(至少在某种形式上对我来说不够简单)。如何通过文档而不是术语积累nGram频率？我正在创建基于描述字段的nGrams，使用sklearn.feature_extraction.text CountVectorizer。(文档)中的一列nGrams和一列它们的频率组成。"the quick brown" 4&qu

浏览 2提问于2017-03-30得票数 2

回答已采纳

1回答

在Python中高效地按ID计数ngram

、

我希望在我的dataframe中创建10,000个新列，每个列都包含相关ngram的计数。我当前的解决方案包括使用文本遍历数据帧中的列，使用re.findall计算ngram在每一行中出现的次数，将findall方法的长度放在一个列表中，然后使用该列表在数据帧中创建新列。由于内存限制，我一次只能对6.5M行中的

浏览 0提问于2020-05-20得票数 0

1回答

使用mapply提高字符串比较的速度

我有数据帧，其中包含以下形式的独特的ngram： Term1 Term2 Term3 Term4 Freq 1 the end of the 3457对于每一行，我都试图提取低阶nGram表的频率，该表对应于除最后一列之外的所有列。因此，对于nGram3中的第1行，“其中之一”，我需要为Term1= "one

浏览 5提问于2014-12-06得票数 0

1回答

Python Pandas NLTK:使用BigramCollocationFinder从数据帧中的文本字段显示常用短语(Ngram)的频率

、、、、

我有以下标记化数据帧示例：175 2521 ['coffee', 'maker', 'brewingtable', 'stuck']572 2521 ['stuck', 'coffee'] 我成功地运行了下面的代码来获

浏览 2提问于2018-12-05得票数 1

1回答

如何将Sklearn SVM实现应用于使用SPARK ML计算的特征( Spark ML中缺少多类SVM )

、、、、

我有220 GB的数据。我已经将其作为两列读取到spark dataframe中: JournalID和Text。现在，我的数据帧中缺少27行。使用NGram类，我在dataframe中添加了另外两个列Unigram和Bigram，其中包含文本列中的单字和双字。然后，我使用一元和二元语法列上的pyspark的TF和IDF类计算TFIDF，并将其作为另一列添加到dataframe中。由于多类支持向量机

浏览 1提问于2018-12-17得票数 0

1回答

按日期分列的双克

、、、

我有以下数据集：_ word_vectorizer = CountVectorizer(ngram_r

浏览 0提问于2020-07-20得票数 1

回答已采纳

1回答

从Pandas Dataframe中删除括号

、、、、

我的数据是元组列表： return zip(*[verbatims[i:] for i in range(n)]) ngrams = Counter(bigrams).most_common() FIY我正在对一个大的文本数据进行n-gram分析。对于n元语法信息：我在pandas中有一个很酷的数据帧

浏览 0提问于2016-04-25得票数 0

1回答

最频繁出现的邻居(nltk)

、

我需要编写一个函数(它是类的一部分)，用它可以在古腾堡语料库的书中找到出现频率最高的邻居(左和右)。我有点迷路了..。Return neighbour nltk中有没有内置的函数可以做到这一点？

浏览 1提问于2018-12-19得票数 0

1回答

我如何获得科学工具包和熊猫的Ngram频率的排名列表？

、、、

我正在尝试用scikit来完成这个简单的任务，但是我在处理稀疏矩阵时遇到了麻烦。为此，我不关心文档频率。这就是我到目前为止所知道的：n_grams = vectorizer.fit_transform(df.column_with_text) 在这一点上，我知道我被支持做一些涉及n_grams和inverse_transform的事情，但我不确定是什么。我想要一个n_gram列表，频率按<e

浏览 0提问于2016-03-17得票数 1

1回答

将矢量化的术语映射到原始数据帧

、

我有一个包含域名的数据框列，即newyorktimes.com。我被“.”分开了。并将CountVectorizer应用于"newyorktimes“。newyorkreport usa "newyorktimes“也被添加为名为”split“的新数据框列。我能得到术语频率 vectoriser = CountVectorizer(analyzer='word', ngram_range=(2, 2), stop_words='eng

浏览 11提问于2020-11-23得票数 1

1回答

以编程方式合并用于NLP的大型文件的行

、

我需要使用Google ngram语料库()，它的数据频率n克年年出现在一本书中。文件格式:下面的每个文件都是压缩的、选项卡分隔的数据，行有以下格式：当我试图寻找晚些时候出现的ng

浏览 4提问于2017-11-26得票数 0

回答已采纳

2回答

Pandas数据帧的频率图

、、

1 Name: user_location, Length: 26920, dtype: int64 我想从user_location专栏中了解USA、India等特定国家/地区的出现频率然后，我想将频率绘制为USA、India和Others。Others (sum of all frequencies of the other locations) 似乎我应该合并包含相同国家名称的行的频率，并将其余行合并在一起最有效的</

浏览 15提问于2020-08-30得票数 0

1回答

汇总Postgres表中的重复数据

我有一个名为ngram_sightings的Postgres9.1表。每一行都是在文档中看到一个ngram的记录。一个ngram可以在给定的文档中多次出现。CREATE TABLE ngram_sightings ngram VARCHAR,); doc_

浏览 1提问于2015-07-07得票数 0

回答已采纳

1回答

与列的总和相关的不规则入库

、、、

我想在pandas中根据另一列的总和将一个数据帧放入bin。我有以下数据帧：2 7 74 1311 4 515 17 6我想要将数据放入bi

浏览 2提问于2016-06-27得票数 0

1回答

AttributeError：'FreqDist‘对象没有属性'viewitems’

、、、

我正在根据教程生成基于PMI的大写图。我想得到文本中生成的大写的频率。在这里建议使用 import stringimport nltkfinder.apply_freq_filter(5) scored = finder.sc

浏览 0提问于2018-12-06得票数 1

1回答

pandas中使用概率列的随机抽样行

、、

我正在使用python和pandas从数据帧中随机抽取样本。我的数据帧如下所示：第一列包含时间，第二列是平均速率，第三列是1-sigma，第四列是与该行描述的事件相关的概率。 ? 我知道我可以使用下面的代码来绘制加权样本： random=df.sample(n=100000, replace=True, weights='P>0', axis=0) 但我不确定在这里使用</e

浏览 24提问于2020-04-24得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何在pandas数据帧中找到列的ngram频率？

使用sklearn获取每个ngram项的频率。

哪一种Pandas dataframe更好:超长dataframe与结构糟糕的有列表的数据

Python3.6:按文档而不是术语积累sklearn

在Python中高效地按ID计数ngram

使用mapply提高字符串比较的速度

Python Pandas NLTK:使用BigramCollocationFinder从数据帧中的文本字段显示常用短语(Ngram)的频率

如何将Sklearn SVM实现应用于使用SPARK ML计算的特征( Spark ML中缺少多类SVM )

按日期分列的双克

从Pandas Dataframe中删除括号

最频繁出现的邻居(nltk)

我如何获得科学工具包和熊猫的Ngram频率的排名列表？

将矢量化的术语映射到原始数据帧

以编程方式合并用于NLP的大型文件的行

Pandas数据帧的频率图

汇总Postgres表中的重复数据

与列的总和相关的不规则入库

AttributeError：'FreqDist‘对象没有属性'viewitems’

pandas中使用概率列的随机抽样行

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐