Pyspark更新特征向量中的值

Pyspark是一个基于Python的Spark API，用于在大数据处理中进行分布式计算。它提供了丰富的功能和工具，可以用于数据处理、机器学习、图计算等各种任务。

在Pyspark中更新特征向量中的值可以通过以下步骤实现：

创建一个特征向量：特征向量是一个包含多个特征值的向量，可以使用Pyspark的VectorAssembler类将多个特征列合并为一个特征向量列。
加载数据集：使用Pyspark的DataFrame API加载包含特征向量的数据集。
更新特征向量中的值：可以使用DataFrame API提供的函数和方法来更新特征向量中的值。例如，可以使用withColumn函数创建一个新的列，并使用when和otherwise函数来根据条件更新特定的值。

以下是一个示例代码，演示如何使用Pyspark更新特征向量中的值：

from pyspark.sql import SparkSession
from pyspark.ml.feature import VectorAssembler
from pyspark.sql.functions import when

# 创建SparkSession
spark = SparkSession.builder.getOrCreate()

# 创建示例数据集
data = [(1, 2, 3), (4, 5, 6), (7, 8, 9)]
df = spark.createDataFrame(data, ["feature1", "feature2", "feature3"])

# 创建特征向量列
assembler = VectorAssembler(inputCols=["feature1", "feature2", "feature3"], outputCol="features")
df = assembler.transform(df)

# 更新特征向量中的值
df = df.withColumn("features", when(df.feature1 > 5, df.features * 2).otherwise(df.features))

# 显示更新后的结果
df.show()

在上述示例中，我们首先创建了一个包含三个特征列的数据集。然后，使用VectorAssembler将这三个特征列合并为一个特征向量列。接下来，使用withColumn函数根据条件更新特征向量中的值，如果feature1大于5，则将特征向量的值乘以2，否则保持不变。最后，显示更新后的结果。

对于Pyspark中更新特征向量中的值，腾讯云提供了一系列与大数据处理相关的产品和服务，例如腾讯云的云数据仓库CDW、弹性MapReduce EMR等。您可以通过访问腾讯云官方网站了解更多关于这些产品的详细信息和使用方法。

参考链接：

页面内容是否对你有帮助？

有帮助

没帮助

需要通过类似于scipy.linalg.eig的特征值分解在非对称方阵的pyspark中找到特征向量

、、、、

我是初学者，如果我哪里出了问题，请纠正我。我有一个一百万乘以一百万的方阵。我想在pyspark中找到它的特征向量。我知道computeSVD给了我特征向量，但这些是通过奇异值分解得到的，结果是一个密集的矩阵，这是一个本地数据结构。我想要scipy.linalg.eig给出的结果。我看到java中有一个使用ARPACK的函数EigenValueDecomposition，spark的scala api。它会给出与scipy中的eig相同的特征向量吗？如果是，有什么方法可以在pyspark中使用它吗？或者，对于同样的问题，是否有其他解决方案。我可以以某种方式直接在我的代码中使用ARPACK吗?

浏览 0提问于2017-09-21得票数 2

2回答

大量列的性能下降。火花缭乱

、、、、

我遇到了处理火花宽数据(大约9000列，有时更多)的问题。任务：通过groupBy和支点创建宽DF。将列转换为向量，从pyspark.ml将处理转换为pyspark.ml。因此，我制作了广泛的框架，尝试用VectorAssembler创建向量，缓存它，并在它上进行KMeans训练。在我的pc机上，在独立模式下组装大约11分钟，KMeans用2分钟计算7种不同的集群，而框架为500x9000。另一方面，这种处理在熊猫(枢轴df，和迭代7簇)花了不到一分钟。显然，我理解独立模式和缓存等方面的开销和性能下降，但这确实让我感到沮丧。有人能解释一下我怎样才能避免这种开销吗？

浏览 1提问于2018-02-20得票数 11

回答已采纳

1回答

寻找最有可能的项目的最佳方法

、、

我正在处理大量的论文和作者数据集。我正在努力寻找最有可能引用关于未见数据集(https://www.aminer.org/aminernetwork)的一篇新论文的top-k作者。我的设置是用于并行处理的Pyspark。以下是数据集的概述： 📷 纸张数据集，中间是事实表，然后是作者表。我的想法是从这两个数据集中创建特征，并找到特征向量之间的相似之处。我不知道如何定义机器学习中的任何一个模型。因为我需要纸张和作者in以及特性向量，所以我在考虑推荐系统的方向。在这种情况下，Pyspark支持ALS，但不使用特性向量，而是将评级作为数字值。欢迎任何提示和提示！

浏览 0提问于2022-01-21得票数 0

1回答

pyspark SVD特征向量与PCA特征向量之间的区别是什么？

、、

我正在使用(pyspark) mllib (Spark 2.2.0)中的奇异值分解和主成分分析函数，如以下链接所述：假设我们得到了以下数据对象： [(2, 2), (3, 1), (2, 2), (1, 3), (1.0, 1.0), (3.0, 3.0)] 应用computeSVD()函数会产生以下结果：对于U：[DenseVector([-0.3922, -0.0]), DenseVector([-0.3922, -0.7071]), DenseVector([-0.3922, -0.0]), DenseVector([-0.3922, 0.7071]), DenseVector([-

浏览 1提问于2019-05-07得票数 2

1回答

从交替最小二乘(，ALS)算法中获取用户群

、、、

我们正在使用ALS (交替最小二乘)方法，在我们的谷歌云火花环境下，向我们的用户推荐一些公司。为了进行推荐，我们使用这个元组(userId、companyId、rating)，评级值由用户兴趣的组合组成，例如单击“公司”页面、将公司添加到最喜欢的列表、从公司订货等(我们的方法非常类似于此)。结果非常好，对我们的商业案例有效，然而，我们遗漏了一件对我们来说很重要的事情。我们需要了解哪些用户是作为相似兴趣分组的(也就是邻居)，您知道有什么方法可以从pyspark的ALS算法中获得分组用户吗？因此，我们可以根据这个分组标记用户。编辑：我在下面尝试过答案的代码，但是结果很奇怪，我的数据是这样配对

浏览 0提问于2018-05-12得票数 0

回答已采纳

2回答

C和Python中特征向量例程的不同结果

、、、、

所以我注意到，对于所有1s的4x4矩阵，我得到了不同的答案。在Python中使用：numpy.linalg.eig: matrix = numpy.ones((M,M), dtype=float); values, vectors = numpy.linalg.eig(matrix); Python结果： V1: [-0.866025 +0.288675 +0.288675 +0.288675] V2: [+0.500000 +0.500000 +0.500000 +0.500000] V3: [+0.391955 +0.597433 -0.494694 -0.494694] V4: [+0

浏览 2提问于2016-12-28得票数 4

1回答

有适当征兆的Numpy eigh函数

、、

我想计算python中二阶导数矩阵的特征向量。根据数学，第一个向量应该等于0到pi之间的sin-函数，第二个等于0到2*pi之间的sin函数。因此，我的代码看起来就像 import numpy as np from matplotlib import pyplot as plt from scipy import sparse import scipy.integrate as integrate import scipy.special as special import scipy def create_second_deriv(size, h): delta_matrix_2_

浏览 2提问于2017-03-27得票数 1

回答已采纳

1回答

极大值中带有dgeev的特征向量

、、

我在maxima中找到带有函数dgeev的特征向量，并将它们与我在相同矩阵中找到的特征向量进行比较，但使用的是mathematica。在奇数列中，maxima中的右特征向量与mathematica中的相同，但不是偶数。在mathematica中，偶数列的左特征向量是相同的，但不是奇数列。如果我取奇数列右特征向量和偶数列特征向量，我会得到mathematica打印出来的结果。我不完全明白这是怎么回事，有谁能解释一下吗？谢谢，本

浏览 1提问于2013-05-29得票数 0

1回答

最大特征值与特征向量的匹配

、、、

在Python中，我通过eig()计算了数据矩阵eig()的特征向量和特征值。我希望找到数据的前2位主组件 (U = u1 u2)。我知道前两个分量是对应于两个最大特征值的两个特征向量，但我不知道如何用手头的数据(特征值、特征向量和X)来计算这些信息。计算的特征向量和特征值： Eigenvectors = [[-0.68065502 -0.72805308 -0.08153196] [-0.71680551 0.68482721 -0.13115467] [-0.15132287 0.03082853 0.98800

浏览 0提问于2018-10-07得票数 0

1回答

R中奇异值分解的再现

、、、

我有一个逐个文件矩阵的例子(来自Landauer和Dumais，1997年)： wxd <- matrix(c(1,1,1,0,0,0,0,0,0,0,0,0, 0,0,1,1,1,1,1,0,1,0,0,0, 0,1,0,1,1,0,0,1,0,0,0,0, 1,0,0,0,2,0,0,1,0,0,0,0, 0,0,0,1,0,1,1,0,0,0,0,0, 0,0,0,0,0,0,0,0,0,1,0,0, 0,0,0,0,0,0,0,0,0,1

浏览 3提问于2016-09-09得票数 0

回答已采纳

2回答

在MATLAB中求矩阵特征向量的问题

、、

我有一个对称矩阵，它的元素是，我用MATLAB中的eig(A)函数，给出了特征值和特征向量： eigvect = 0.1736 0 0.9848 0 -1.0000 0 -0.9848 0 0.1736 eigval = 3.0000 0 0 0 3.0000 0 0 0 9.0000 特征值是正确的，但特征向量不是我所期望的，因为我认为它们中的两个应该相等。MATLAB能正确计算特征向量吗？

浏览 0提问于2011-08-16得票数 0

1回答

我们只能计算一个非常大的稀疏矩阵的第n个特征值和特征向量吗？

、、、、

我有一个非常大的稀疏矩阵A=7Mi乘以7Mi矩阵。我使用的是Matlab的eigs(A,k)函数，它可以计算第一个k特征值和向量。我需要它所有的特征向量和值。但我不能存储所有的特征向量，因为它需要大量的内存。有没有办法(用Matlab或Python)在for循环中一个接一个地获取特征向量？也就是说，在ith迭代中，我得到了ith特征向量和值。

浏览 1提问于2019-04-25得票数 4

1回答

给本征向量排序是什么意思？

、、、、

我在做一个需要我计算的任务。为了计算特征面，需要计算。利用函数计算特征值和特征向量。我想我明白什么是特征向量。当图像从一个几何/平面转换到另一个几何/平面时，它们是不改变位置的矢量。因为它们能够唯一地识别图像。特征值对应于每个特征向量，这些特征向量表示特征向量所经历的标量变化。我不明白的是，的一条声明说：该函数按升序返回特征值，每个特征值根据其多重性重复。点菜是怎么回事？文件所指的顺序是什么？例如： arr = np.random.uniform(size=(3,3,3)) eigen_val, eigen_vec = np.linalg.eigh(arr) 从我的上述运行返

浏览 0提问于2019-03-22得票数 0

1回答

eig在python中到底输出了什么？

、

我正在尝试检索所有(常规)特征向量以及足够多的广义特征向量，以便从我的方形NxN矩阵中完成一个基。我的问题是，输出的特征向量到底是什么？ evals, levecs = eig(Mnp, left=True,right=False) 我能找到的关于这方面的文档只说“解决一个方阵的普通或广义特征值问题，求出一个一般矩阵的特征值w和右或左特征向量”。谁能告诉我这是否意味着我的左特征向量既是正则的又是广义的？如果能提供任何信息，我将不胜感激。

浏览 0提问于2018-07-24得票数 0

1回答

亲和矩阵的谱聚类

、、、

我正在尝试进行光谱聚类。我有对称亲和矩阵的特征向量，我必须找到 (摘自一篇论文)，其中x‘’Mx是簇间得分。 X‘’Mx是否与簇向量相同，因此argmax意味着特征向量的主向量(即具有最高特征值的特征向量)？如果是这样的话，应该为每个集群计算x*吗？(因为一个向量如何描述所有的簇.) 在代码中(使用OpenCV库) //a symmetric affinity matrix calculated prior CvScalar scal; CvMat* evec = cvCreateMat(src->height,src->heigh

浏览 0提问于2015-06-29得票数 1

1回答

pca -哪个特征向量对应于哪个特征值

、

我要做的事情如下:我有一组向量v1-vn用于这些，我需要协方差矩阵(我在做pca时得到的)。我还需要协方差矩阵的特征值和特征向量。特征值按降序排序，然后根据相应的特征值对特征向量进行排序。之后，我用第一个特征向量乘以v1，用第二个特征向量乘v2，依此类推。我用这种方式返回我得到的skalar。在R中有没有什么简单的方法来查看哪个特征值对应于哪个特征向量？

浏览 3提问于2012-12-08得票数 2

回答已采纳

1回答

如何在matlab中计算矩阵的特征值和向量

、、

我有一个方阵C，我必须找到它的特征值和特征向量。 C = 2 -1 -1 0 -1 3 -1 -1 -1 -1 3 -1 0 -1 -1 2 当我使用函数eig()，V，D=eig(C，'nobalance')，这是我得到的V和D的输出： V = -0.5000 0.7071 0.4914 -0.0924 -0.5000 -0.0000 -0.3607 0.7874 -0.5000 -0.0000 -0.

浏览 3提问于2014-02-04得票数 2

1回答

在matlab或DevC中查找所有特征向量

、

现在我在Matlab上处理特征向量和特征值。我使用了[V,D] =eigs(A)，但它只生成6个最大的特征值和相应的特征向量！你知道有什么库支持查找矩阵的所有特征向量或多个特征向量吗？我也在与DevC合作，也欢迎与devC合作的任何建议！我的英语不好，很抱歉！谢谢!

浏览 0提问于2012-01-12得票数 0

回答已采纳

1回答

OpenCV中的HOG，用于对整个图像进行分类

、、、

我知道OpenCV中的梯度直方图通常用在图像补丁上，以便检测和分类图像中的对象。但是，我想使用HOG来构建一个可用于对整个图像进行分类的特征向量。使用以下内容： std::vector<float> temp_FV_out; cv::HOGDescriptor hog; hog.compute(img_in, temp_FV_out); 由于图像的大小不同，给出了非常长的特征向量，每个特征向量具有不同的长度--较大的图像具有更多的64 x 128窗口，并且每个窗口都对特征向量的长度有贡献。如何让OpenCV从每个图像中给出一个短的特征向量(大约5-20个柱子)，其中无论图像的大

浏览 0提问于2012-01-27得票数 1

回答已采纳

1回答

如何确保行元素或列元素是对应的特征向量？

正如问题所述，如何确定哪一行或哪一列是特征值的对应特征向量？以下是代码： import numpy as np A = [45,37,42,35,39] B = [38,31,26,28,33] C = [10,15,17,21,12] arrays= np.array([A,B,C]) covMatrix = np.cov(arrays,bias=True) print (covMatrix) 特征值和特征向量的求法 eigval, eigvec = np.linalg.eig(covMatrix) eigval = eigval.real print(eigval,"\n"

浏览 6提问于2022-10-12得票数 0

回答已采纳

1回答

设置spark上下文中的文件写入尝试次数

、、

我在aws glue作业中运行pyspark。作为我的pyspark脚本的一部分，我将pyspark dataframe作为parquet文件写入到一个目录中。我想修改我的spark上下文，以便在整个数据帧写入尝试失败之前，它将尝试将每个拼图文件至少写入目录20次。我启动代码的原始版本如下所示。我已经更新了下面的“更新”版本，因为我认为我应该这样做，以便修改spark上下文并将其与glue上下文一起使用。有没有人能告诉我我做得是否正确，或者让我知道如何修复它？谢谢原件： import sys from awsglue.transforms import * from awsglue.util

浏览 0提问于2020-04-04得票数 0

2回答

如何找出矩阵的特征值对应的特征向量？

、、、、

如何找出对应于特定特征值的特征向量？我有一个随机矩阵(P)，其中一个特征值是1。我需要找到对应于特征值1的特征向量。枕函数返回特征值和特征向量的数组。 D, V = scipy.linalg.eig(P) 这里，D(值数组)和V(向量数组)都是向量。一种方法是在D中进行搜索，并在V中提取相应的特征向量。

浏览 4提问于2012-08-14得票数 7

回答已采纳

1回答

Pyspark更新特征向量中的值

、、、

我正在构建文本分类器，并使用spark countVectorizer创建特征向量。现在，为了在BIDGL库中使用这个Vector，我需要将特征向量中的所有0转换为1。这是我的特征向量，它是一个稀疏向量： vectorizer_df.select('features').show(2) +--------------------+ | features| +--------------------+ |(1000,[4,6,11,13,...| |(1000,[0,1,2,3,4,...| +--------------------+ only sh

浏览 22提问于2019-02-09得票数 2

回答已采纳

1回答

使用ZHEEVD时重新排列特征向量矩阵的顺序

、、、

我注意到，当使用lapack子例程ZHEEVD (或ZHEEV)时，特征向量矩阵排列与特征值排序不对应。举个例子，我的意思是： E = [E_1,E_2,E_3] V = [v_3,v_2,v_1] 如果需要，我可以提供一个示例，但问题很简单:是否有某种方法可以重新排列特征向量矩阵，以便 H*v_i = E_i*v_i (其中H是对称实数矩阵，v_i是与特征值E_i相关的特征向量)特征值-特征向量在Lapack子例程中是否对应？

浏览 4提问于2014-08-07得票数 1

2回答

最小特征值对应的c++特征值和特征向量

、

我试着找出最小特征值对应的特征值和特征向量。我有一个矩阵A (nx2)，并且我已经计算了B = transpose(A) * a。当我使用c++特征函数compute()并打印矩阵B的特征值时，它显示如下所示： (4.4, 0) (72.1, 0) 打印其输出的特征向量： (-0.97, 0) (0.209, 0) (-0.209, 0) (-0.97, 0) 我很困惑。我猜特征向量不能为零。那么，对于最小的特征值4.4，对应的特征向量是(-0.97, -0.209)吗？附言-当我打印时 mysolution.eigenvalues()[0] 它打印(4.4, 0)。当我打印的时候

浏览 4提问于2014-06-08得票数 2

1回答

如何求Stan中非对称矩阵的特征向量？

、

Stan提供了函数 vector eigenvalues_sym(matrix A) matrix eigenvectors_sym(matrix A) 来得到对称矩阵A的特征值和特征向量，但是如果你的矩阵是非对称的呢？你还能得到特征值和特征向量吗？另外，有没有一种方法可以测试我是否得到了正确的特征向量？如何测试Stan程序的各个部分？

浏览 0提问于2015-06-24得票数 0

1回答

求极大极稀疏矩阵的特征值

、、

我有以下问题。有一个大小为NxN的矩阵A，其中N = 200 000。它非常稀疏，每一行都有M元素，其中M={6, 18, 40, 68, 102} (我有5个不同的场景)，其余的都是零。现在我想得到矩阵A的所有特征值和特征向量。问题是，我无法将矩阵A放入内存中，因为它大约有160 GB的数据。我正在寻找的是一个软件，可以很好地存储稀疏矩阵(没有零，我的矩阵只有几个MB)，然后把这个没有零的存储矩阵到计算特征值和向量的算法中。你们中有谁能推荐一个软件给我用吗？编辑:我发现我可以重新配置我的矩阵A，这样它就变成了一个带矩阵。然后，我可以使用LAPACK获得特征值和特征向量(具体地说：)。

浏览 0提问于2014-03-21得票数 0

3回答

如何用SymPy求矩阵的特征值和特征向量？

、、、

我想从系统A中计算出特征向量x，方法是:a x =λx 问题是我不知道如何用SymPy来求解特征值。这是我的密码。我想从矩阵x1和x2中得到一些值 from sympy import * x1, x2, Lambda = symbols('x1 x2 Lambda') I = eye(2) A = Matrix([[0, 2], [1, -3]]) equation = Eq(det(Lambda*I-A), 0) D = solve(equation) print([N(element, 4) for element in D]) # Eigenvalus in decima

浏览 5提问于2017-04-28得票数 9

回答已采纳

2回答

在Python中计算Fiedler向量

、、

如何在Python中找到拉普拉斯(L)的域向量？我可以得到特征值和特征向量:特征值，特征向量= linalg.eig(L) 我假设python不会按顺序返回特征值。我要取第二大特征值，然后将它与相应的特征向量匹配(在索引中匹配)？当对特征值进行排序时，如何处理负值？是按绝对大小排序吗？谢谢你的帮忙

浏览 4提问于2012-06-07得票数 5

回答已采纳

4回答

如何处理不总是可用的特性？

、、

我的特征向量中有一个特性，有时并不总是可用的(对于某些样本)，使用它是没有意义的。我用这个特征向量给一个sklearn提供信息。当特征有意义时，神经网络自己学习吗?还是我必须在特征向量中添加一个标志，例如，“1”表示有意义，或者“0”表示没有意义。

浏览 0提问于2019-02-12得票数 8

2回答

Julia中的左和右特征向量

、

我有一个一般的实矩阵(即不对称或Hermitian等)，我想在Julia中找到它的右特征向量和相应的左特征向量。 Julia的eigen函数只返回右特征向量。我可以通过执行以下操作找到左特征向量 eigen(copy(M')) 但这需要复制整个矩阵并再次执行特征分解，并且不能保证特征向量将处于相同的顺序。( copy是必需的，因为对于Adjoint类型的矩阵没有eigen方法。) 在Python语言中，我们有scipy.linalg.eigs，它可以在一次遍历中同时计算左和右特征向量，这更高效，并保证它们的顺序相同。朱莉娅身上也有类似的东西吗？

浏览 60提问于2019-05-20得票数 3

1回答

numPy中的非预期特征向量

、、、

我见过问题，这与我试图用numPy计算numPy中的主要特征向量有关。我试图计算一个n×n矩阵的占优特征向量，而不必进入太多的重线性代数。我对行列式、特征值、特征向量和特征多项式做了粗略的研究，但我更愿意依靠numPy实现来找到特征值，因为我认为它比我自己的更有效。我遇到的问题是我使用了以下代码： markov = array([[0.8,0.2],[.1,.9]]) print eig(markov) ...as进行了测试，并获得了以下输出： (array([ 0.7, 1. ]), array([[-0.89442719, -0.70710678],

浏览 4提问于2013-09-09得票数 4

回答已采纳

2回答

替代numpy的linalg.eig？

、、、

我编写了一个简单的PCA代码，它计算协方差矩阵，然后在该协方差矩阵上使用linalg.eig查找主成分。当我使用scikit的PCA对三个主成分时，我得到了几乎相同的结果。我的PCA函数输出带有翻转符号的第三列转换后的数据，以了解scikit的PCA函数所做的工作。现在我认为，与假定我的代码是正确的相比，scikit内置的PCA正确的概率更高。我注意到第三主成分/特征向量在我的例子中已经翻转了符号。如果scikit的第三个特征向量是(a,-b,-c,-d)，那么我的特征向量就是(-a,b,c,d)。我的线性代数可能有点破旧，但我假设它们是不同的结果。我到达特征向量的方法是使用linalg.ei

浏览 8提问于2015-12-16得票数 0

回答已采纳

2回答

Python中的线性代数:计算3x3矩阵的特征向量

、、、

我正在使用Python导出与3x3矩阵中的特征值相关联的特征向量。我的代码返回正确的特征值，但返回错误的特征向量。 A = np.array([[-2, -4, 2], [-2, 1, 2], [4, 2, 5]]) print (A) print ('-------------------------------------------------------') eigenvalues, eigenvectors = np.linalg.eig(A) # must use this line of cod

浏览 4提问于2021-01-02得票数 2

1回答

no特征值from scipy...eigs ArpackNoConvergence错误？

我使用的是scipy.sparse.linalg.eigs。在文档中，它说“当前收敛的特征值和特征向量可以作为异常对象的特征值和特征向量属性找到。”，但当我查看这些属性时，它们是空数组。这是什么意思？为什么那里什么都没有？文档：

浏览 1提问于2015-04-24得票数 0

1回答

PCA特征向量背后的直觉

对于懂得特征向量和特征值定义的本科生来说， A v = \lambda v \;, 为什么协方差(或相关)矩阵的特征向量对应于最大拉伸轴，背后的直觉是什么？为什么这个矩阵会导致(例如)数据中最大扩展方向对应的最大特征向量？

浏览 0提问于2019-10-22得票数 5

回答已采纳

1回答

PointCloud的典型位姿

、、、

我做了一个奇怪的观察，我在问自己是否有人有解释。假设我们有PointCloud，例如一个完美的圆柱体。这个圆柱体不知何故被放置在太空中旋转。对于这个圆柱体，我们用主成分分析来计算它的质心和特征向量。现在我可以把它描述为形式的仿射变换： Eigen::Affine3d pose; pose.translation << centroid[0], centroid[1], centroid[2]; pose.linear() = evecs; 现在让我们假设我想要将对象转换成明确、规范的姿态，然后我将执行以下操作： obj.transform(obj.getPose().inver

浏览 4提问于2016-01-13得票数 0

回答已采纳

1回答

PySpark中的深层决策树

我使用PySpark进行机器学习，我想训练决策树分类器、随机林和梯度增强树。我想尝试不同的最大深度值，并选择最好的通过网格搜索和交叉验证。然而，火花告诉我，DecisionTree目前只支持maxDepth <= 30。限制在30的原因是什么？有办法增加吗？我使用它与文本数据，我的特征向量是TF-IDFs，所以我想尝试更高的值，以达到最大深度。星火网站的代码示例，并作了一些修改： from pyspark.ml import Pipeline from pyspark.ml.classification import RandomForestClassifier from pyspark

浏览 0提问于2018-04-11得票数 1

回答已采纳

1回答

Matlab符号特征向量

、、

我试图计算这种形式的矩阵的符号特征值和向量。 [ a, c, 0] [ c, b, e] [ 0, e, f] 在matlab中(用包含x、y、z的表达式替换a、b、c等)。当我有4个对角线项0，那么程序是成功的。但是，当矩阵只有两个离对角元为零时(如示例中所示)，程序无法找到特征向量，而是可以找到特征向量(这是预期的，因为它是三次多项式)。特征值的表达式当然是相当繁忙的。当我试图计算特征向量时，它给出了误差 Warning: basis of eigenspace for eigenvalue - 1/2*((c^2*d^2*e^2 -... Error: Unable to find ei

浏览 3提问于2012-11-29得票数 2

1回答

用Java计算大型数据集的主轴/特征值和-vectors

、、、、

我有一个大型数据集(>500.000元素)，其中包含有限元-单元的应力值(σ_xx、σ_yy、σ_zz、τ_xy、τ_yz、τ_xz)。这些应力值是在模型的全局xyz坐标空间中给出的.我想要计算主轴的应力值和方向。如果你不太熟悉它背后的物理，这意味着取对称矩阵 | σ_xx τ_xy τ_xz | | τ_xy σ_yy τ_yz | | τ_xz τ_yz σ_zz | 并计算其特征值和特征向量。单独计算每一组特征值和-vectors太慢了。我正在寻找Java中的库、算法或其他东西，它们允许我将其作为数组计算来完成。举个例子，在python/numpy中，我可以把所有的3x3-矩阵，沿

浏览 7提问于2022-04-05得票数 1

1回答

大型稀疏矩阵的所有特征向量均为零。

、、、、

我有50,000乘50,000稠密矩阵或更大。如果我使用的是numpy或scipy包，那么我所有特征向量的条目都是0。如果我用scipy.sparse来计算1000-8000个特征向量，我就得到了正确的特征向量。但我需要他们所有人。这可能是记忆问题吗？或者，为什么会出现这样的问题？，我可以用LAPACK或者ARPACK来计算右特征向量吗？请注意，我的矩阵是网络图的表示，因此是稀疏矩阵。我将它们转换为使用numpy.linalg的密集矩阵，否则就使用scipy.sparse.linalg。

浏览 9提问于2019-12-29得票数 2

回答已采纳

2回答

SVM分类器中特征长度与预测的关系

、、、

目前，我正在使用opencv中的SVM分类器进行英语字母分类。我对做以上的事有疑问。特征向量的长度如何取决于分类？(如果特征长度增加(我当前的特征长度为125)，会发生什么？预测所需的时间是否取决于用于培训的数据的数量？为什么我们需要对特征向量进行归一化(这会提高预测的准确性和预测类所需的时间吗)？如何确定特征向量归一化的最佳方法？

浏览 5提问于2015-01-06得票数 1

回答已采纳

1回答

两个矩阵中相似特征谱的匹配

、、、、

我有两个矩阵，其中一个矩阵的特征谱部分非常类似于另一个矩阵的特征谱，但我(目前)唯一能够证实这一点的方法是非常不雅观的。我对任何解决方案都是开放的，但在这里我发现使用MATLAB语法是最容易的:在第一个例子中，我将定义矩阵A和B，这样B的两个特征值也可以在A中找到，而B的对应的两个特征向量也是具有相同特征值的A的特征向量，但如果不使用与A共享特征值的B的特征向量，并“搜索”这些特征向量是否在A中具有相同的特征值，这一点就不明显了。下面是两个这样的矩阵的示例：A和B A = diag([1 1 -1 -1 -1 -1 1 1 -1 -1 1 1 1 1 -1 -1]); B

浏览 5提问于2021-02-01得票数 7

1回答

图像特征向量

、、、、

我已经从亚马逊下载了一个数据集。http://jmcauley.ucsd.edu/data/amazon/数据集涉及图像的特征向量。特征向量约为1.5M。 Dataset由10个字符(产品ID)组成，后面是4096个浮点数(每个产品重复)。每个产品图像都包含(4096x1)大小的特征向量。特征向量涉及浮点数。这些浮点数是什么意思？我所理解的是，总共有4096个特征，每个特征向量索引都表示一个特定的特征。特征向量中的值表示在所有特定图像中对特征的关注频率。是这样吗？或者，如果不是，什么可能是正确的解释？谢谢,

浏览 0提问于2017-07-22得票数 0

回答已采纳

2回答

特征()和正确的特征向量

、、、

我的问题是：我试着用R来计算问题。所以我已经在我的控制台中正确地设置了这个问题，然后我试图计算特征向量。但是，我希望与lambda =1相关联的特征向量是(1,2,1)，而不是我在这里得到的。因此，缩放是正确的(0.4082483实际上是0.8164966的一半)，但我想得到一个一致的结果。我最初的问题是用R来寻找马尔可夫链的平稳分布，而不是在纸上这样做。所以从概率的角度来看，我的平稳分布是一个向量，其分量之和等于1。为此，我试图改变标度，以得到我定义的“一致结果”。我怎么能这么做？

浏览 3提问于2020-11-25得票数 1

回答已采纳

2回答

在MATLAB中，如何提取对应于p个最大特征值的p特征向量？

、、

我目前使用的命令是: V，D= eig(X) 其中V是特征向量，D是对角矩阵中的特征值。知道如何创建Y，一个对应于p个最大特征值的特征向量矩阵吗？

浏览 0提问于2014-09-30得票数 1

回答已采纳

1回答

特征向量变换的差异: Mathematica与SciPy

、、、

以前也曾问过类似的问题，但似乎没有人回答我的例子。我使用Mathematica和SciPy计算矩阵A的特征值和特征向量；特征值是一致的，但对于特征向量则不是这样： (1)最小(特征值)特征向量一致。 (2)数学和SciPy的其余特征向量与乘法因子无关。 (3)利用外积计算变换矩阵T将SciPy的特征向量发送给Mathematica的相应特征向量。 T = numpy.outer(MathematicaEigenvector, SciPyEigenvector) 这样的话 MathematicaEigenvector = numpy.dot(T, SciPyEigenvector) 对于所有的S

浏览 0提问于2014-09-08得票数 2

回答已采纳

2回答

在人脸识别中，特征值代表什么？

、、、

我有一组训练脸部图像(40张图像)。从那里，我可以使用Matlab中的princomp函数得到eigenVector，Score，Latent。我得到了952个潜伏期(协方差矩阵中的特征值)，它们的降序形式是: 4.2785到0。特征值是从k=40开始的零。我可以知道这些特征值表示什么吗？(比方说值越大，方差越大？)我如何确定最佳的k值(主成分)？非常感谢你的帮助！

浏览 1提问于2014-03-25得票数 0

2回答

超级简单示例中不正确的Python Numpy特征向量值

、、

在一个简单的例子中，我试图学习如何使用numpy来确定特征向量和值，但是结果看起来不正确。这是我的代码： import numpy as np import numpy.linalg as la # create the matrix matrix = np.array([[-2, 1, 0], [1, -2, 1], [0, 1, -2]]) print("Matrix:\n", matrix) # calculate the eigenvalues and vectors vals, vecs = np.linalg.eigh(matrix) # print the

浏览 0提问于2018-01-28得票数 1

回答已采纳

3回答

Java中的特征值及其对应的EigenVector

、、、

给定一个矩阵，我感兴趣的是特征值和相应的特征向量。利用Jama，我可以得到特征值和特征向量，但两者之间的相关性还没有定义:我想将每个特征向量映射到相应的特征值。你能给我推荐一下这样做的方法吗？我试着自己去实施，但结果变得很糟糕。谢谢:) 我正试图寻找一个被认可的答案，但现在，根据我所做的实验和观察，特征向量和evigenValues似乎是对应的。

浏览 0提问于2012-12-20得票数 1

回答已采纳