在Spark ML中，为什么在一列上拟合具有数百万个分界值的StringIndexer会产生面向对象模型错误？

在Spark ML中，当在一列上拟合具有数百万个分界值的StringIndexer时，可能会产生面向对象模型错误。这是因为StringIndexer是一种用于将字符串类型的特征转换为数值类型的编码器。它将每个不同的字符串值映射到一个唯一的数值标识符，以便在机器学习算法中使用。

然而，当在一列上拟合具有数百万个分界值的StringIndexer时，可能会导致模型的维度爆炸。维度爆炸是指特征空间的维度变得非常大，超过了机器学习算法所能处理的范围。这会导致模型训练时间长、内存消耗大，并且可能导致模型无法收敛或产生错误的预测结果。

为了解决这个问题，可以考虑以下几种方法：

特征选择：在进行StringIndexer之前，可以对数据进行特征选择，只选择对目标变量有较大影响的特征进行编码。这样可以减少特征空间的维度，提高模型的训练效率和预测准确性。
特征降维：可以使用降维技术，如主成分分析（PCA）或线性判别分析（LDA），将高维特征空间降低到较低的维度。这样可以减少特征空间的维度，同时保留了大部分的信息。
分类器选择：可以考虑使用适用于高维数据的分类器，如支持向量机（SVM）或随机森林（Random Forest）。这些分类器在处理高维数据时具有较好的性能，并且不容易受到维度爆炸的影响。
数据分区：可以将数据进行分区处理，将数据分成多个小的子集进行处理。这样可以减少每个子集的特征空间维度，提高模型的训练效率。

总之，在Spark ML中，当在一列上拟合具有数百万个分界值的StringIndexer时，需要注意维度爆炸的问题，并采取相应的方法来解决。具体的解决方法可以根据实际情况进行选择和调整。

腾讯云相关产品和产品介绍链接地址：

腾讯云机器学习平台（https://cloud.tencent.com/product/tiia）
腾讯云人工智能开发平台（https://cloud.tencent.com/product/tiia）
腾讯云大数据分析平台（https://cloud.tencent.com/product/emr）
腾讯云数据仓库（https://cloud.tencent.com/product/dws）
腾讯云分布式数据库TDSQL（https://cloud.tencent.com/product/tdsql）
腾讯云容器服务（https://cloud.tencent.com/product/tke）
腾讯云区块链服务（https://cloud.tencent.com/product/bcs）
腾讯云物联网平台（https://cloud.tencent.com/product/iotexplorer）
腾讯云移动开发平台（https://cloud.tencent.com/product/mpe）
腾讯云对象存储COS（https://cloud.tencent.com/product/cos）
腾讯云云原生应用引擎TKE（https://cloud.tencent.com/product/tke）
腾讯云音视频处理（https://cloud.tencent.com/product/mps）

页面内容是否对你有帮助？

有帮助

没帮助

在分类降维时，我是否使用训练集中的均值向量来对测试集进行中心化？

machine-learning、classification、machine-learning-model、pca、dimensionality-reduction

请告诉我这是问这个问题的合适地点(或者我的标签是否错了)，或者我是否需要用不同的方式写这个。在分类降维时，我是否使用训练集中的均值向量来对测试集进行中心化？我正在使用主成分分析程序来减少训练集的维度。我制造分类器。然后，在对测试集的特征向量进行分类之前，在降维的中心部分，我是使用训练集的相同均值向量，还是取测试集的均值向量并减去测试集，还是取训练和测试集合并的均值向量，从测试集减去？如果第三种选择，这是否意味着我也应该使用训练和测试集的结合来集中训练集？不，(为了推广到其他测试集)对吗？另外，即使我很确定答案和上面一样，你能不能告诉我，如果使用训练集的协方差矩阵得到一个特征向量矩阵，并

浏览 0提问于2020-03-23得票数 1

回答已采纳

2回答

如何将ELMo嵌入表示为一维数组？

machine-learning、nlp、classification、text-classification、word-embedding

我使用语言模型ELMo - 将文本数据表示为数字向量。此向量将用作简单情感分析任务的训练数据。在这种情况下，数据不是英文的，所以我从- 下载了一个自定义的ELMo模型(我假设这与官方的allennlp repo类似) 要将文本文档转换为嵌入函数sents2elmo的ELMo。如果我对文档的理解正确的话，这个参数是一个标记化的句子列表。因此，我的训练数据中可以嵌入一个样本，如下所示： from elmoformanylangs import Embedder embedder = Embedder('custom_language') embeddings = embedd

浏览 3提问于2018-10-30得票数 4

3回答

推理时的单幅图像特征约简

python、scikit-learn、pca、feature-extraction

我试着用scikit学习来训练一个SVM分类器。在训练时，我要减少特征向量维数。我使用PCA来减少维数。 pp = PCA(n_components=400).fit(features) features = pp.transform(features) 主成分分析需要m x n数据集来确定方差。但在推理时，我只有一幅图像和相应的一维特征向量。我想知道如何在推理时减少特征向量以匹配训练维数。

浏览 5提问于2020-07-30得票数 1

回答已采纳

3回答

在Python中使用scikit learn进行线性判别分析

python、python-3.x、machine-learning、scikit-learn、linear-discriminant

我正在学习机器学习，最近我研究了使用线性判别分析对线性可分数据进行分类。为此，我使用了scikit-learn包和函数 .discriminant_analysis.LinearDiscriminantAnalysis 关于MNIST手写数字数据库中的数据。我已经使用数据库来拟合模型并对测试数据进行预测，方法如下： LDA(n_components=2) LDA_fit(data,labels) LDA_predict(testdata) 它工作得很好。我得到了95%的不错的准确率。但是，预测函数使用来自所有784个维度的数据(对应于28x28像素的图像)。我不明白为什么所有的维度都用于预测？

浏览 3提问于2018-12-21得票数 1

2回答

当使用特征选择/维数约简来选择特征子集时，我能期望获得更高的精度吗？

feature-selection

特征选择/降维是为了消除不相关或冗余的特征，从而提高计算效率(降低计算成本)。我的问题是，当使用有效的特征进行分类时，我们能期望预测的准确性发生变化吗？

浏览 0提问于2020-07-11得票数 2

2回答

面向大量人群的人脸识别

python、tensorflow、machine-learning、deep-learning、computer-vision

我正在为大量的人建立一个人脸识别，当我添加更多的数据来训练模型时，我会发现越来越多的人。我目前的管道是：用Yolov4 4-微体检测人脸用KNN分类器识别人脸(我用大约80个类训练它，每个类包含大约5幅图片) 目前，它可以在CPU上以10 CPU的速度实时运行.我担心的是，通过一些研究，我发现如果我增加数据集(维数的诅咒)，KNN就会有问题。所以我想知道是否可以用KNN来解决这个问题？如果没有，是否有办法解决这个或另一个方法来解决这个问题？

浏览 4提问于2020-12-23得票数 0

回答已采纳

1回答

什么是“空间特征编码”？有人能举出一个具体的例子吗？

machine-learning、deep-learning、computer-vision

这个书“医学图像计算的深度学习和卷积神经网络”提到了一个术语空间特征编码。另一方面，与以往主流的图像识别方法(如HAAR、SIFT、HOG图像特征和spatial feature encoding、随机森林或支持向量分类器)相比，CNN模型具有更高的建模能力。考虑到在模型训练过程中需要适应的数百万个参数(比以前的管道多得多)，CNN的表示增强了计算机图像识别模型的能力，使其能够很好地处理更具有挑战性的成像问题。主要的风险是过度拟合，因为模型的能力通常很高，深入学习，但数据集往往非常有限(这些数据集具有良好的标签质量，便于监督培训)。本书的核心主题是关于如何解决这一任务的例子--通过深度学习模

浏览 0提问于2019-07-16得票数 2

回答已采纳

2回答

Libsvm总是预测同一类

machine-learning、classification、svm、libsvm

我正在使用Libsvm来解决一个二进制分类问题。我的数据集有大约50K个属性和18个样本。我正在使用leave one out验证(对17个样本进行训练，并对剩余的样本进行测试)。我使用以下命令对数据进行标准化： svm-scale -s scaling_parameters Train$i > TrainScaled$i svm-scale -r scaling_parameters Test$i > TestScaled$i 训练和预测如下所示： svm-train -s 0 -c 5 -t 2 -g 0.5 -e 0.1 TrainScaled$i model svm-pre

浏览 0提问于2014-04-17得票数 1

3回答

基于PCA的神经网络降维方法？

machine-learning、neural-network、dimensionality-reduction、pca

从数据库中提取的数据集由50多个列组成，我将这些列称为_dimension_s，可以称之为_dimension_s吗？显然，我必须对它们进行降维。但是，由于PCA算法和其他算法一样，通常采用轴旋转来生成一些新的轴。我认为我不会在降维中使用PCA算法。因此，我计算了这些列(参数)之间的相关性，并过滤了那些具有高值和其他一些规则的人。所以我还能称它为降维吗？因为我只做了一些参数过滤我之所以不使用PCA算法，是因为我想实现神经网络分类，而且我需要实际的参数。请评论一下，任何批评都是受欢迎的。

浏览 0提问于2017-03-21得票数 1

2回答

如何将核主成分分析与神经网络结合使用

machine-learning、pca、pattern-recognition

我的数据集有一个1000个输入的训练集，有6个特征。(数据集大小为1000*6)。我将KPCA应用于数据集，并将特征数量减少到3。这意味着特征向量矩阵的维数现在是1000*3。我使用减少的数据集来训练神经网络。在训练完网络之后，现在，让我们想象一下，我想要对一个新数据(大小为1*6 )进行分类。显然，我必须将其转换为1*3的数据，然后将其呈现给网络，但我不知道该怎么做？

浏览 1提问于2016-02-02得票数 0

4回答

降维是否有助于为分类问题选择特征？

machine-learning、classification、data-mining、pca、dimensionality-reduction

假设我有一个数据集，但我不知道哪些特性与解决分类/回归问题有关。在这种情况下，是否值得使用降维算法，然后应用分类算法？或者，我是否可以使用我的常识随机选择我的特性，然后尝试下一步调整我的算法？另外，如果有人对“在现实生活中使用真实用例”对维约简有某种解释，那将是很棒的，因为我觉得我对维约简的理解是错误的！

浏览 0提问于2019-02-20得票数 2

2回答

关于PCA降维的几个问题

math、machine-learning、pca

在机器学习中，PCA被用来降低训练数据的维数。然而，从上面的图片来看，我不能理解减少在哪里？输入数据x_i有D个维度：输出数据x仍然有D个维度：

浏览 0提问于2017-08-19得票数 0

5回答

如何处理高维输入空间的机器学习问题？

machine-learning、classification、svm

当我尝试在一些高维输入上应用一些ML算法(更具体地说是分类，特别是SVM )，而我得到的结果并不是很令人满意时，我应该如何处理这种情况？可以可视化一维、二维或三维数据，以及算法的结果，因此您可以掌握发生了什么，并对如何解决问题有一些想法。一旦数据超过3维，除了直观地玩弄参数之外，我不确定如何攻击它？

浏览 2提问于2010-02-13得票数 16

回答已采纳

2回答

用主成分分析法展开维数

pca、dimensionality-reduction

我试图使用the算法进行降维，我知道这不是这个算法的主要用途，也不推荐。我看到了一个在t上实现的这里。，我不相信这个实现。该算法的工作方式如下：给定训练数据集和测试数据集，将2合并成一个完整的数据集。在完整数据集上运行the (不包括目标变量) 将the的输出作为K个新列添加到完整的数据集中，K是the的映射维数。将整个数据集重新分割为培训和测试。将训练数据集分割成N个折叠在N个折叠上训练机器学习模型并做N个交叉验证。在测试数据集中评估机器学习模型我的主要问题不是关于the但是；在数据转换之前，我可以将数据集分割成训练集和测试集，用于其他降维算法(如PCA )吗？这会有效吗

浏览 0提问于2022-03-14得票数 1

回答已采纳

1回答

t高维数据可视化

python、machine-learning、nlp、scikit-learn、data-analysis

我有一个推特语料库，我用它来建立情感分析应用程序。该语料库有5k条推文，被手工标记为阴性、中性或阳性。为了表示文本，我使用gensim word2vec预训练向量。每个单词被映射到300个维度。对于一条推文，我将所有的单词向量相加，得到一个单一的300个模糊向量。因此，每个tweet被映射到一个300维的向量上。我正在使用tsne (tsne python包)可视化我的数据。见所附图片 -红点=负tweets，蓝点=中性tweets和绿点=正tweets 问题：在图中没有明确的数据点之间的分离(边界)。我是否可以假设，300维中的原始点也是如此？也就是说，如果点在then图中重叠，

浏览 0提问于2016-01-21得票数 4

1回答

sklearn维数问题“发现带有dim 3的数组.估计器期望<= 2”

python、numpy、machine-learning、scikit-learn、signal-processing

我试图使用KNN将.wav文件正确地分类为两组，第0组和第1组。我提取了数据，创建了模型，拟合了模型，但是当我尝试使用.predict()方法时，我得到了以下错误： Traceback (most recent call last): File "/..../....../KNN.py", line 20, in <module> classifier.fit(X_train, y_train) File "/Library/Frameworks/Python.framework/Versions/3.6/lib/python3.6/s

浏览 2提问于2017-12-28得票数 4

回答已采纳

2回答

当使用带有散列向量的TruncatedSVD时，精度大大降低。

classification、scikit-learn、dimensionality-reduction、text

我有大约80万的产品描述与分类。大约有280个类别。我想用给定的数据集来训练一个模型，以便将来我可以预测给定产品描述的类别。由于数据集很大，所以我无法对其抛出MemoryError的数据进行TF。我发现当处理大数据时，Hashingvector是可取的。但是当应用Hashingvector时，我发现它产生了1048576个特征的数据。训练和SGD模型花费了1小时左右，准确率达78%。代码： import pandas as pd from sklearn.feature_extraction.text import HashingVectorizer from sklearn.model_

浏览 0提问于2018-05-30得票数 2

回答已采纳

1回答

机器学习--特征选择还是降维？

machine-learning、artificial-intelligence、feature-selection、dimensionality-reduction

我仍然在探索机器学习的这一领域，尽管我知道特征选择和降维之间的区别，但我发现在掌握何时进行特征选择或降维(或两者兼而有之)的概念上存在一些困难。假设我有一个包含大约40个特征的数据集，那么单独执行降维还是单独进行特征选择是一种好的做法？或者应该有两种方法的混合(即先进行特征选择，然后进行降维-或者反之亦然)？

浏览 1提问于2017-12-16得票数 0

2回答

SVM -训练样本数与特征数的关系

matlab、machine-learning、svm、libsvm

训练样本的数量与训练数据的维数之间应该有什么关系？例如，我有一个有20000个训练样本和16000个特征的案例。我正在考虑使用PCA来获得一些降维，但我不知道我应该减少多少维数我的训练数据。这两者之间有关系吗？我使用的支持向量机分类器与两个类和一个线性核。

浏览 0提问于2013-11-06得票数 5

回答已采纳

2回答

基于主成分分析的FastICA降维

matlab、image-processing、pca

我正在尝试开发一个图像分类系统。我使用以下文章： Dia Abu Al Nadi博士和Ayman M. Mansour博士用于纹理分类的独立成分分析(ICA) 它在一段中说：针对上述纹理图像，采用上述方法对独立分量进行学习。图2分别显示了上述纹理的(8x8) ICA基函数。主成分分析减少了维数，总共产生了40个函数。注意，来自不同窗口大小的独立组件是不同的。上面的“方法”是FastICA，纹理来自，每个纹理图像都有640x640像素。我的问题是：作者所说的“用PCA减少维数，总共有40个函数”，我怎么用matlab得到这个函数呢？

浏览 6提问于2013-03-18得票数 0

回答已采纳

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在Spark ML中，为什么在一列上拟合具有数百万个分界值的StringIndexer会产生面向对象模型错误？

相关·内容

在分类降维时，我是否使用训练集中的均值向量来对测试集进行中心化？

如何将ELMo嵌入表示为一维数组？

推理时的单幅图像特征约简

在Python中使用scikit learn进行线性判别分析

当使用特征选择/维数约简来选择特征子集时，我能期望获得更高的精度吗？

面向大量人群的人脸识别

什么是“空间特征编码”？有人能举出一个具体的例子吗？

Libsvm总是预测同一类

基于PCA的神经网络降维方法？

如何将核主成分分析与神经网络结合使用

降维是否有助于为分类问题选择特征？

关于PCA降维的几个问题

如何处理高维输入空间的机器学习问题？

用主成分分析法展开维数

t高维数据可视化

sklearn维数问题“发现带有dim 3的数组.估计器期望<= 2”

当使用带有散列向量的TruncatedSVD时，精度大大降低。

机器学习--特征选择还是降维？

SVM -训练样本数与特征数的关系

基于主成分分析的FastICA降维

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐