Python -使用TF-IDF汇总dataframe文本列

文章/答案/技术大牛

发布

1回答

、

我有一个dataframe，其中有一列包含文本。我想创建一个新列，其中包含每行中排名前'n‘的TF-IDF评分单词的元组/列表，以此来汇总文本中的内容。一个示例数据帧(具有大量简洁性)是： df = pd.DataFrame({'Ref': [1,2,3,4,5], 'Text': ["the cow jumped off the other cow""the

浏览 47提问于2021-07-21得票数 2

回答已采纳

1回答

如何在使用TF-IDF时保留另一列

、、

我有一个包含两列数据的pandas数据帧。第一列有文本，第二列有浮点值 cleaned_text | interaction_duration us unveils world powerful supercomputer beat chinaTF-IDF向量或单词向量。问题是使用Scikit-learn的TF-IDF API，它将其转换为numpy数组。我还需要将最终数据集中的第二列作为另一个功能。如何确保在将pandas datafra

浏览 16提问于2020-10-27得票数 0

1回答

如何在文本数据中基于冒号分隔符的pandas列上应用TF-IDF

、、

我在pandas dataframe中有一个专栏，在那里我捕获了一个访问者的旅程。我想在这个文本专栏中实现TF-IDF。以下是示例数据- , 'pagename': ['home:cart:checkout:buy:home','home:cart:cart:home','home:account:home']}

浏览 9提问于2021-06-12得票数 0

1回答

熊猫DataFrame上的tf-idf

、、

我正在尝试在不使用sklearn和类似包的情况下实现tf-idf。有人能帮我把DataFrame中的值转换成blob对象的列表吗？我有一个文本，只有一列--“DataFrame”，我想要一个TextBlob(Text1)，TextBlob(Text2)，...

浏览 0提问于2017-04-20得票数 0

1回答

TfidfVectorizer仅处理第一个文档

tfidf_vectorizer = TfidfVectorizer() pd.DataFrame

浏览 0提问于2020-03-20得票数 0

1回答

在pandas数据帧中存储处理过的文本

、、

我在Python中使用gensim进行文本摘要。我希望我的汇总输出存储在同一个dataframe的不同列中。我使用了下面的代码： text=df_data_1['Event Description (SAP)']如何在pandas数据帧中存储处理后的文本

浏览 3提问于2018-06-27得票数 0

1回答

嵌套循环在tf-df中增加python值以及检索和写入文件

、、、

我一直致力于从文件列表中查找每个文件的总tf-IDF值。到目前为止，我已经计算了每个文件(在for w in words中)中所有单词的tf-IDF值。现在，我想将每个单词的tf-IDF值相加，最终得到特定文件f的tf-IDF值，并将文件的tf-IDF值写入文本文件。我是Python的新手，在使用Python的过程中遇到了一些问题。

浏览 2提问于2014-01-29得票数 0

1回答

在熊猫中加入使用栏名

、、、

我在熊猫里有两个数据，一个是开头的：另一种是TF-IDF操作的结果。因此，基本上，Name是按Group分组的，然后应用sklearn TF-IDF就像这样：from sklearn.feature_extraction.textName'].apply(' '.join).reset_index()tfidf = vect.fit_transform(frame) yy=pd.DataFrame(tfi

浏览 1提问于2021-07-11得票数 1

回答已采纳

1回答

需要在python中合并稀疏矩阵和数据帧中的两列

、、、

Sprase matrix Dataframe with column(highlighted) of interest 我的数据帧和稀疏矩阵都有相同的行数，但没有共同的列。稀疏矩阵是我从tf-idf情感分析过程中得到的输出您能指导我是否可以在python中合并这两个对象，在合并时，我认为我应该确保数据帧中的每个条目都与稀疏矩阵的相应条目对齐。

浏览 25提问于2020-06-26得票数 0

1回答

Python为同一列提供不同的dtype。

、

我正试图尽快提供一个最小的例子，但同时:如何可能，列"Home Point“是类型object和int64同步？有什么暗示吗？这是熊猫虫吗？

浏览 9提问于2022-02-24得票数 1

回答已采纳

2回答

摘要命令不生成摘要统计信息

、、、

summary(dataframe1)命令为我提供了该数据帧的汇总统计信息，如max、min和NA的数目。类似地，summary(dataframe1$column1)为数据框架内的特定变量(其列之一)提供了汇总统计信息。在我使用lm和plm运行一些回归之前，以及每当我试图通过dataframe1通过summary(dataframe1$column1)获取数据帧中的列的简要统计信息之前，这是很好的工作。dataframe</

浏览 20提问于2022-02-28得票数 0

回答已采纳

2回答

我可以获得Word2Vec和Doc2Vec矩阵来计算余弦相似度吗？

、、、

我正在处理文本数据，目前我已经将我的数据放入术语文档矩阵中，并计算出TF，术语频率和TF-IDF，术语频率与文档频率相反。从这里看，我的矩阵如下所示：行名=单词我不清楚我是否有像TF和TF-IDF中那样的词嵌入。我希望使用Word2Vec/Doc2Vec，

浏览 3提问于2019-07-11得票数 0

1回答

TF-IDF在pandas数据帧中的应用

我正在尝试使用TF-IDF在pandas中使用数据集内容，两列第一列它包含文本数据，另一列它包含分类数据看起来像blow summary基础设施不明的犯罪者扔了莫洛托夫鸡尾酒...基础设施我想使用tf-idf来转换第一列，然后使用它来构建预测包含攻击类型的第二列的模式

浏览 15提问于2019-10-05得票数 0

1回答

如何在单个文档中查找单词相关性？

、、、、

文档大约有30页，其想法是提取所有文本并确定与此文档的单词相关性。我知道在一组文档中使用TF-IDF，但是是否可以使用TF-IDF来解决这个问题？如果没有，我如何在Python中做到这一点？

浏览 1提问于2019-04-01得票数 0

5回答

如何从文本数据中获取大量的单词？

、、

我正在使用一个大型文本数据集解决预测问题。我正在实现获得词袋的最好方法是什么？现在，我有各种单词的，但单词的数量太大，无法用于进一步的作业。如果我使用tf-idf标准，那么获取词袋的tf-idf阈值应该是多少？或者我应该使用一些其他的算法。我使用的是python。

浏览 1提问于2013-03-20得票数 20

1回答

在Python熊猫中是否有类似于SQL组的汇总？

、、、、

我正在寻找一个整洁的熊猫等价物，最好与渲染DataFrame到python笔记本相结合。按汇总分组的要点是，如果您按多个列分组，您还会看到聚合，就像按这些列的子集分组一样。

浏览 2提问于2015-02-20得票数 2

回答已采纳

3回答

id - python对多个字符串列的汇总

、

我在Python中得到了以下数据： 'col1': ['normal', 'well'well', 'normal'], 'col2': ['bad', 'normal','normal', 'normal',

浏览 0提问于2018-05-07得票数 3

回答已采纳

1回答

使用分类和文本数据作为输入的机器学习分类

、、

我有一个大约400行的数据集，其中有几个分类数据列，还有一个文本形式的描述列作为我的分类模型的输入。我计划使用SVM作为我的分类模型来执行分类。由于模型无法接受非数值数据作为输入，因此我已将输入要素转换为数值数据我已经为我的描述列执行了TF-IDF，它已经将术语转换为矩阵形式。我是否需要使用标签编码转换分类特征，然后将其与TF-IDF合并，然后将其输入到机器学习模型中？

浏览 20提问于2020-12-17得票数 1

回答已采纳

1回答

将Python* Groupby和aggregate转换为Postgres SQL*

、、、

假设我的PostgresSQL数据库中有一个名为cnms_table的表，它等同于我在Python脚本中创建的一个名为cnms_df的熊猫数据帧。在Python dataframe中，我能够使用groupby和agg根据特定的列/字段对数据帧进行汇总和聚合，从而创建一个名为sum_df的新汇总数据帧。

浏览 16提问于2021-10-11得票数 0

回答已采纳

1回答

熊猫聚集在所有栏上

、

Python 3和熊猫0.23data = pd.DataFrame({ 'b': np.random.normal(0, 2, 10np.random.normal(0, 2, 10) \作品： data.aggregate(['

浏览 2提问于2018-07-10得票数 2

回答已采纳

点击加载更多