从CountVectorizer矢量创建的DataFrame的命名列

文章/答案/技术大牛

发布

1回答

、、

我创建是为了创建垃圾邮件/火腿分类器。首先，我把所有的电子邮件都输入到vector中。然后，我使用sklearn的CountVectorizer对所有邮件进行了单词计数，得到了以下矩阵： >> print(vector.shape)>> print这是完整的代码： import os,globfrom sklearn.feature_extraction.text imp

浏览 9提问于2019-06-04得票数 1

回答已采纳

1回答

数字上的火花IDFModel

、

我想在“文档”内容是数字标识符(而不是文本)的数据上执行TF模型。所以我不想对它们进行散列，而是使用数字值。有什么简单的方法来产生org.apache.spark.mllib.linalg.VectorUDT吗？我必须写我自己的非散列HashingTF吗？还是我自己算得更简单？

浏览 2提问于2016-09-29得票数 1

回答已采纳

1回答

我正在尝试为一个单词获取1,2,3个gram后缀，并在我的模型中使用它们作为特征。例如， word = "Apple" 2 gram suffix = 'le' 3 gram suffix = 'ple' 我在sklearn中使用了CountVectorizer此外，我是NLP的新手，不知道如何在我的ML模型中使用这n个gram作为功能。如何将这些“字符串”n-gram特征转换为某种数字表示，以便在

浏览 37提问于2020-10-16得票数 3

回答已采纳

1回答

不能用朴素贝叶斯和多特征对二进制文本分类中的数据预处理

、、、

我选择了一个互补的NB而不是多项式，因为我知道分类的最终数据将是不平衡的。我想在预测中添加更多的特性(列)，尽管我知道条件独立性的假设可能会被违反。创建数据 dummy = {"domain":["a.de","b.de","c.de","d

浏览 0提问于2019-08-07得票数 0

1回答

tf-以色列国防军模型如何处理测试数据中未见过的单词？

、、

---------- from sklearn.feature_extraction.text import TfidfTransformerdoc1 score1 -- -----------这是正确的吗在“滑雪”一书中提到：适合(.)方法来拟合我们的估计量与数据，其次是转换(.)方法将我们的计数矩阵转

浏览 2提问于2019-10-14得票数 6

1回答

PySpark:不能对CountVectorizerModel - TypeError:不能序列化套接字对象(但是为什么要使用套接字库？)

、、、、

我注意到，与Sci-kit学习中不同的是，CountVectorizer的CountVectorizer实现使用套接字库，因此我无法对其进行筛选。我试着查看CountVectorizer源代码，但看不到套接字库的任何明显用途。"

浏览 2提问于2022-03-24得票数 0

回答已采纳

1回答

如何使用标点符号作为边界标记文本(Python)

、、

我正在使用CountVectorizer从sklearn进行文本标记(2克)，并创建一个术语文档矩阵。如何以标点符号作为边界将文本标记为2克？例如，输入的句子是“这是示例，带有标点符号”。下面是我的当前代码：df = pd.DataFrame({'title':['thisis example, with punctuation'

浏览 1提问于2017-09-15得票数 0

2回答

Python: ValueError on CountVectorizer。系列的真值是模糊的。

、、

我有这个数据集，我试图用sklearn从它中提取出大量的单词，但是它抛出了这个错误。Token = df['Token'] count_vector编辑2:添加了我的干净数据集。我尝试将'Preprocess‘传递给CountVectorizer，但是它仍然返回

浏览 0提问于2021-09-14得票数 1

回答已采纳

3回答

Python -从标记列表到词袋

、、、、

我有一个带有文本列的pandas dataframe，我正确地对其进行了标记化、删除停用词和词干。最后，对于每个文档，我都有一个字符串列表。我的最终目标是为本专栏计算词袋，我已经看到scikit-learn有一个函数可以做到这一点，但它适用于字符串，而不是字符串列表。

浏览 0提问于2018-01-27得票数 3

1回答

从dataframe中的“注释”列生成特性

、、、

我有一个有注释的列的数据集。这个注释是用逗号隔开的单词。我希望在dataframe中生成分隔的列，以便一个列表示来自所有单词集的每个单词，然后有1或0到我最初在注释中使用该单词的行

浏览 4提问于2016-10-06得票数 0

回答已采纳

1回答

将一列中的关键字转换为多个虚拟列

、、

我的dataframe有一些名为：{'title', 'description', 'location'}的自由文本字段。我准备了这篇文章的专栏:把所有的内容连成一个新的列，删除数字，删除少于3个字符的单词，等等。作为准备的最后一步，我删除了停止词。所以，在这个时候，列可能只包含相关的关键字。如何将这些关键字语句(每行几个单词，作为空格分隔的单词，仅在一个字符串列中)转换为

浏览 0提问于2019-05-02得票数 0

回答已采纳

1回答

在熊猫数据帧上使用CountVectorizer和category的Sklearn Pipeline

、、、

我有一个包含一列文本、一个category列和一个目标列的pd.DataFrame。我想在矢量化的文本上运行一个分类器模型，这很简单，但我想将类别包含到模型中。我想使用PipeLine，这样我就可以在GridSearchCV中测试不同的向量化器和参数。我无法使用文本和类别的Countvectorizer成功创建Pipeline。下面是一个df示例： df = pd.DataFrame({ 'favorite_color':

浏览 20提问于2020-12-11得票数 1

4回答

如何对大熊猫中的多值范畴变量进行二进制编码？

、

对于某一列，我有以下具有多个值的数据： 1 - ["B", "C", "D"]2 - ["B", "D"] "A" "B" "C&q

浏览 9提问于2019-11-15得票数 2

回答已采纳

2回答

为什么这个CountVectorizer输出与我的字数不同？

、、、

我有一个带有一个名为“短语”的列的数据。我使用了以下代码来查找本专栏中最常见的20个单词：funny 1522life 1484之后，我需要为每个单词创建向量计数我尝试使用以下代码这样做： vector

浏览 1提问于2019-03-27得票数 0

回答已采纳

2回答

如何处理分类功能的未知值？

、、、

我有一只像这样的熊猫数据hellow bye what | 1但是，我不想手动创建这么多特性，每个词汇表中的每个单词都有一个(词汇量并不大，所以我不担心功能集爆炸)。但我只想为tensorflow提供一个单列的单词列表，我希望它为词汇表中

浏览 8提问于2021-05-05得票数 2

回答已采纳

1回答

Python中的令牌化数据的有效数据结构是什么？

、、、、

我有一张熊猫的资料，里面有一篇带有文字的专栏。我希望修改dataframe，使在所有行中出现的每个不同的单词都有一个列，并在我的文本列中指示该单词是否出现在该特定行的值中。我有一些代码可以这样做：b = DataFrameb.index: for j i

浏览 2提问于2015-02-23得票数 2

回答已采纳

1回答

CountVectorizer值在分类器中单独工作，在添加其他特性时无法工作。

、、、、

我有一个CSV的推特个人资料，包括:名称，描述，追随者计数，跟随计数，机器人(类我想预测)CountVecTest = vectorizer.fit_transform(training_data.description.values.astype

浏览 0提问于2019-03-20得票数 0

回答已采纳

1回答

如何创建countVectorizer模型的一个列中包含值数组的火花数据

、、

我正在尝试执行星火的countVectorizer模型。作为这个需求的一部分，我正在读取一个csv文件并从其中创建一个Dataframe (inp_DF)。minnesota| 55405| us|+--------------+--------+-------+|

浏览 1提问于2017-09-05得票数 0

回答已采纳

1回答

文本分类-如何将多个字符串特征转换成机器学习模型？

、、

在我的数据集中有三个输入列(制造商，短文本，供应商)，我希望从其中创建一个矢量化特征列表。然后我希望能把同样的东西融入机器学习模型。最后一列(类别)是标签。数据集中有200万行。Manufacturer", "short text", "supplier"], df['category'],test_size=0.15, random_state=500) train_X = pd.DataFrame(data =

浏览 5提问于2020-03-20得票数 2

1回答

将文本数组转换为向量

、、

我目前正在做一个使用tensorflow和tflearn的情绪分析项目。我有一个社交媒体帖子的数据集，这些帖子是以CSV文件的形式提供给我的，我正在尝试将它们转换为用于训练的向量。这是我第一次尝试手动做这样的事情，我通常会导入已经经过预处理的数据集。1)# with open()posts = pd.<e

浏览 13提问于2017-08-01得票数 0

回答已采纳

点击加载更多