腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

社区首页 >问答首页 >CountVectorizer变换后的意外稀疏矩阵

问CountVectorizer变换后的意外稀疏矩阵
EN

Stack Overflow用户

提问于 2017-12-10 07:04:26

回答 1查看 489关注 0票数 1

我是NLTK的新手，在创建用于评论的分类器时遇到了麻烦。

我不能理解当作为输入传递的数据的形状是(10000,1)时，转换后的数据的形状是1*1稀疏矩阵。我已经对原始审查数据进行了一点处理。像删除停用的单词，词干和删除标点符号。

我需要帮助找出问题所在，如果需要更多详细信息来查找问题，请让我知道。

python

python-3.x

nltk

countvectorizer

云点播特惠1元起

提供制作上传、存储、转码、媒体处理、媒体 AI、加速分发播放、版权保护等一体化的高品质媒体服务

回答 1

Stack Overflow用户

发布于 2017-12-10 08:15:04

根据截图的格式，看起来X_train1实际上是一个熊猫数据框。问题是Description是一列单词列表(可能长度不相等)。如下所示：

X = np.array([['alpha','beta'],['theta','theta','gamma'],['delta','delta']])
X_train1 = pd.DataFrame(X, columns=["Description"])

X_train1
             Description
0          [alpha, beta]
1  [theta, theta, gamma]
2         [delta, delta]

X_train1.shape # (3,1)

因此，您有10,000行单词列表(带有shape (nrow, 1))。

但是CountVectorizer (假设您使用的是sklearn类)接受一个文档数组。从documentation

CountVectorizer：

将文本文档的集合转换为标记计数矩阵

更具体地说，考虑fit()的参数定义

unicode raw_documents：生成字符串、

或文件对象的迭代器。

如果只是尝试传入X_train1，就没有提供预期的输入--传入的是一个数据框，其中包含一个列，该列包含字符串的列表对象。你应该预料到这样做会得到奇怪的输出。

假设X_train1中的每一行都表示一个文档，请尝试连接每一行上的单词列表，然后传递给CountVectorizer

X = X_train1.Description.apply(lambda row: ' '.join(row))
ctvec = CountVectorizer()
ctvec.fit_transform(X) # combine fit(X) and transform(X)

输出：

<3x5 sparse matrix of type '<class 'numpy.int64'>'
    with 5 stored elements in Compressed Sparse Row format>

此输出与预期输入更一致。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/47736659

复制

[随缘一题]平面列表

二叉树编程算法

给定一个列表，该列表中的每个要素要么是个列表，要么是整数。将其变成一个只包含整数的简单列表。

呼延十

2019/07/01

5040

LintCode 平面列表题目分析代码

其他

给定一个列表，该列表中的每个要素要么是个列表，要么是整数。将其变成一个只包含整数的简单列表。 ** 注意事项 ** 如果给定的列表中的要素本身也是一个列表，那么它也可以包含列表。样例给定 [1,2,[1,2]]，返回 [1,2,1,2]。给定 [4,[3,[2,[1]]]]，返回 [4,3,2,1]。

desperate633

2018/08/22

3020

如何在Dart中合并列表

dart 编程算法

在 Dart 编程中，List 数据类型类似于其他编程语言中的数组。列表用于表示对象的集合。它是一组有序的对象。Dart 中的核心库负责 List 类的存在、创建和操作。有 5 种方法可以组合两个或多个列表：

徐建国

2021/12/01

2.1K0

fastadmin如何在列表的操作中添加其他按钮

php

fastadmin默认的列表操作中只有编辑和删除按钮，如果我们需要添加其他按钮，需要先找到对应的js文件。我们需要在初始化表格中添加buutons属性，原来的js代码如下：

高久峰

2023/06/03

4.3K0

如何在列表，字典、集合中筛选数据——进阶学习

python 集合解决方案

我们先生成一个字典，比如生成班上学上的成绩，班上有10个人，我们要进行筛选分数及格的同学

Gorit

2021/12/09

2.2K0

如何在 Python 中以表格格式打印列表？

python

在 Python 中，列表是一种常见的数据结构，用于存储和组织数据。当我们需要将列表的内容以表格形式展示时，可以通过特定的方法和技巧来实现。本文将详细介绍如何在 Python 中以表格格式打印列表，以便更好地展示和呈现数据。

网络技术联盟站

2023/06/01

1.6K0

如何在CSS中自定义鼠标样式

css cdn 缓存

想着美化下自己的个人部落格，那就先从鼠标样式开始美化吧，默认的鼠标样式有点单调，那应该如何美化呢？

用户1094633

2022/02/14

2.3K0

【说站】Python如何在列表中添加新值

sql python

1、append()将元素添加到集合，insert()将元素插入指定的下标应用程序，返回值为None。

很酷的站长

2022/11/24

4.1K0

如何在Vscode中安装Python库

python ide numpy

检查是否正确配置好运行环境，按Windows+R组合键在运行窗口输入cmd，打开命令提示符窗口输入python确定即可

程序员鑫港

2022/01/11

2.5K0

如何在Vscode中安装Python库

python ide numpy

检查是否正确配置好运行环境，按Windows+R组合键在运行窗口输入cmd，打开命令提示符窗口输入python确定即可

程序员鑫港

2021/12/23

7.1K0

如何在SwiftUI中实现interactiveDismissDisabled

https swift ios 网络安全

由于健康笔记[2]中数据录入都是在Sheet中进行的，为了防止用户在录入过程中由于误操作（使用手势取消Sheet）丢失数据，因此，从最初的版本开始，我就一直使用各种手段加强对Sheet的控制。

东坡肘子

2022/07/28

3.9K0

如何在 MongoDB 中实现事务

mongodb

在 MongoDB 中，事务可以用于在一个或多个集合上执行多个操作。事务可以帮助确保数据的一致性和可靠性。

玖叁叁

2023/04/14

2.6K0

【HTML】HTML 列表 ( 无序列表 | 有序列表 | 自定义列表 )

html 容器表格布局图表

列表由于其整齐 , 整洁 , 有序的特征 , 类似于表格 , 但是其组合的自由程度高于表格 , 经常用来进行布局 ;

韩曙亮

2023/03/30

3K0

如何在 Python 中计算列表中的唯一值？

python list unique 函数集合

Python 提供了各种方法来操作列表，这是最常用的数据结构之一。使用列表时的一项常见任务是计算其中唯一值的出现次数，这在数据分析、处理和筛选任务中通常是必需的。在本文中，我们将探讨四种不同的方法来计算 Python 列表中的唯一值。

很酷的站长

2023/08/11

3890

html 有序列表、无序列表、自定义列表

html

HTML有一个特殊元素，用于创建ordered lists（有序列表）, 或数字编号列表。有序列表以<ol>元素开始，并包含一个或多个<li>元素。例如：

Devops海洋的渔夫

2019/05/31

4.1K0

在iview中实现列表远程排序

iview 分页排序事件数据

iview中可以通过给列表中每个字段设置sortable: true可以实现字段排序，但是当列表中的数据量比较多时，列表中会有分页，此时只能对当前页进行排序，针对这个问题,iview中有一个远程排序功能，可以通过远程排序实现多页数据的排序

用户3880999

2023/04/13

1.9K0

列表(List)中数组实现(ArrayList类)

hashmap java 编程算法

同样基于数组实现，会在内存中开辟一块连续的空间来存储。ArrayList是非线程安全的，效率高；Vector是基于线程安全的，但效率低，并且是方法级别的同步，不是绝对的线程安全。　　初始容量10，每次数组扩展到原来容量的2倍（每次扩充的容量大小是可以设置的，而ArrayList类不支持设定）。

用户7999227

2021/10/07

9400

点击加载更多

相似问题

如何在自定义类中实现映射/平面映射

如何在列表上实现此筛选

如何在ExtJS中实现此自定义网格？

如何在Django中实现此数据库模型？

如何在tensorflow中实现此自定义损失函数？

活动推荐

提供大模型在企业的应用构建、高效便捷

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

问CountVectorizer变换后的意外稀疏矩阵
EN

云点播特惠1元起

回答 1

Stack Overflow用户

如何在自定义类中实现映射/平面映射

如何在列表上实现此筛选

如何在ExtJS中实现此自定义网格？

如何在Django中实现此数据库模型？

如何在tensorflow中实现此自定义损失函数？

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问CountVectorizer变换后的意外稀疏矩阵EN

云点播特惠1元起

回答 1

Stack Overflow用户

如何在自定义类中实现映射/平面映射

如何在列表上实现此筛选

如何在ExtJS中实现此自定义网格？

如何在Django中实现此数据库模型？

如何在tensorflow中实现此自定义损失函数？

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问CountVectorizer变换后的意外稀疏矩阵
EN