我正在尝试减少数据集的列数。_spark如何设置数据集的列数_我正在尝试识别数据集行中缺少值的模式。 - 腾讯云开发者社区

、、

我试图减少具有形状(20000,8000)的向量X的列数，但减少了数据集的行数，使其成为新的数据集X_5000，其形状为(5000,8000)。请让我知道我哪里出了错。当前我有形状(20000,8000)的-X向量所需的- X_5000 -形状(5000,8000)向量<em

浏览 20提问于2019-06-24得票数 0

2回答

如何通过创建新列来降低数据集的维数

我正在寻找一种方法，通过创建一个新列来降低数据集的维度。Gene ID1 ID2 ID3 ...但是，如您所知，数据集的维数太高，我无法将该表导入SQL数据库。这就是为什么我要将数据集转换为以下形式的原因

浏览 1提问于2021-02-23得票数 0

1回答

如何减少一次热编码后的列数

、、、、

我正在处理一个数据集，该数据集需要将一个分类列转换为一个数字等价物，因为dataset需要几种ML技术才能实现。我使用一种热编码技术将分类列(即国籍)转换为适合机器学习模型的数字列。然而，这种技术往往返回总共227列。只是想知道是否有一种方法可以减少实现OHE后获得的列数。谢谢。图像附在上。

浏览 4提问于2022-03-05得票数 0

1回答

在大型数据集上使用rpart包

、、、

我有一个将近10000行和10列的大型数据集。我想使用rpart包对此数据集进行分类。但每列都有许多(超过50个)类。所以R就挂起来了。我有哪些选项来限制数据的范围或减少每列中的类数？

浏览 2提问于2016-03-22得票数 0

1回答

For循环打印出两个数据帧中都不存在的列

、、、

我有两个数据集，一个称为训练集，另一个称为测试集，它们都是熊猫数据框架。训练的数据集的列数多于数据集测试的列数。我仍然是python的新手，我正在尝试编写一个for循环，它比较两个数据帧

浏览 11提问于2019-12-11得票数 0

回答已采纳

3回答

Mariadb专栏商店的最大限度是什么？

、、

我想在mariadb专栏商店中创建数千行的宽表。我没有找到存储引擎允许的最大列数的任何文档。我还想知道1000个整数列的列存储性能如何？

浏览 2提问于2018-05-15得票数 1

回答已采纳

1回答

如何加快Pandas中大型数据集上相关矩阵的计算？

、、、

我使用的数据集大约有460,000行和1,300列。我想通过使用熊猫的.corr()函数看到对分数影响最大的栏数来减少列数。然而，在如此大的数据集上，计算相关矩阵大约需要20分钟。

浏览 0提问于2022-11-21得票数 1

回答已采纳

1回答

保留百分比方差的PCA降维方法

、、、

我试图使用PCA减少MNIST数据集的维度。诀窍是，我必须保留一定百分比的方差(例如80%)，同时减少维数。我在用Scikit学习。我正在做pca.get_variance比率，但它给我相同的值，不同的点位置，如9.7，或.97或.097。我也尝试过pca.get_variance()，但我认为这不是答案。<e

浏览 2提问于2016-05-20得票数 2

回答已采纳

1回答

CUDA_OUT_OF_MEMORY in PyTorch head2head模型

、、、

我正在执行Github 中提出的head2head模型。当我使用以下命令运行代码时：将train_on_target.sh文件的内容设置为：我<

浏览 1提问于2021-03-05得票数 0

回答已采纳

1回答

加快用于变行和read_csv列的大型csv的read_csv

、、

我正在尝试读取包含可变列数和行的CSV文件，以便计算(Min，Max，Mean,75/95分位数)每列的值。我对数据集的了解：除了第一列之外，所

浏览 3提问于2020-03-10得票数 0

1回答

SciKit-Learn:基本的PCA混淆

、

我正在尝试使用SciKit-Learn在我的数据集上执行PCA。我目前有2,208行和53,741列(特性)。因此，我想使用PCA来降低这个数据集的维数。我在关注Hands-On Machine Learning with SciKit-Learn and TensorFlow from sklearn.decompositio

浏览 7提问于2017-07-06得票数 2

回答已采纳

1回答

最大一个数据点

、、、、

我对数据科学完全陌生，我希望缩小搜索范围，减少解决以下问题所需的学习曲线。我有一个7列的数据集，A列(全部为正十进制)是我想要最大化的数据点。B列和C列是布尔值，其余列是正数和负十进制数的组合。我想从所有的专栏中找到一些关系和见解，这样<

浏览 0提问于2020-01-06得票数 2

回答已采纳

3回答

为固定长度的输入创建快速哈希函数

、

目前我正在做一个项目，其中一些信息必须进行哈希处理。由于数据集很大(每天创建数百万条记录)，因此数据转换的算法必须很快。必须散列的数据片段是固定长度的(11个十进制数-示例: 05018144298)。所以我想知道的是，为了显著减少处理时间，是否值得创建自己的散列函数而不是使用一些现有的散列函数(例如MD5)，

浏览 2提问于2010-09-05得票数 3

回答已采纳

1回答

范畴数据集的一种热编码:如何处理分类数据中的不同值(减数)

、、、、

训练数据集总分类栏: 27OH_encoder = OneHotEncoder(handle_unknown='ignore', sparse=False)在编码后，在准备测试数据用于预测时，来自测试数据的列

浏览 2提问于2019-11-28得票数 2

回答已采纳

1回答

如何使用Office脚本删除表中的列

我有一个表，我希望删除特定的列，以便通过Office Scripts进行进一步处理。我也看过API参考，但我找不到这样做的方法。我总共有大约30列，但希望删除几个包含空行数据的列，之后计划使用getId()或getIndex()对减少的列集执行进一步的操作。我担心的是，每个E

浏览 41提问于2021-04-21得票数 0

回答已采纳

3回答

如何在java中逐行分割文本文件

、

我正在用Java读取一个文本文件，如下所示，Q2。在PCA中是否需要旋转？如果是，为什么？如果不旋转组件，会发生什么情况？

浏览 1提问于2017-12-08得票数 0

回答已采纳

3回答

在Android上使用模式单例

、

我正在开发一个从服务器检索数据的应用程序。我有两个选择：什么是最好的选择？

浏览 5提问于2011-08-31得票数 0

回答已采纳

1回答

设置AMCharts ScrollBar的初始范围

、

我已经使用实现了一个序列图，但是它的列数比窗口中实际显示的列数还要多。为了减少提取的数据量，我添加了一个ChartsScrollBar，它可以完成这个任务，但最初它会选择所有数据。有人知道如何设置滚动条的初始缩放吗？我正在尝试让“缩放栏”在

浏览 0提问于2012-09-25得票数 5

回答已采纳

2回答

面向大数据集的多标签分类

、、、、

我正在解决一个多标签分类问题。我有大约600万行要处理，这些行是巨大的文本块。它们在单独的列中使用多个标记进行标记。任何关于哪些scikit库可以帮助我扩展代码的建议。我在其中使用了One-vs-Rest和SVM。但是它们不能扩展到超过90-100k行。

浏览 3提问于2013-11-29得票数 6

1回答

如何将PCA应用于数据集并打印相关特征

、

我有一个有23行48列的数据集。我正在应用PCA来减少列维数。我使用了以下代码示例，并且我看到只有23个是必需的特性：import numpy as nppca = PCAseconddf_pca =

浏览 1提问于2021-05-02得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云