我使用了
我的错误是:
Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
17/02/03 20:39:24 INFO SparkContext: Running Spark version 2.1.0
17/02/03 20:39:25 WARN NativeCodeLoader: Unable to load native-hadoop
library for your platform... using builtin-java classes where appl
我正在尝试运行来自的示例pyspark PCA代码
我在DataFrame上加载了5,000,000条记录,23,000个特征。运行PCA代码后,我得到了以下错误
Py4JJavaError: An error occurred while calling o908.fit.
: java.lang.OutOfMemoryError
at java.io.ByteArrayOutputStream.hugeCapacity(ByteArrayOutputStream.java:123)
at java.io.ByteArrayOutputStream.grow(ByteArra
我有一个包含id和features列的拼花文件,我想应用pca算法。
val dataset = spark.read.parquet("/usr/local/spark/dataset/data/user")
val features = new VectorAssembler()
.setInputCols(Array("id", "features" ))
.setOutputCol("features")
val pca = new PCA()
.setInputCol("feature
from sklearn import datasets
from sklearn.decomposition import PCA
from sklearn.decomposition import TruncatedSVD
digits = datasets.load_digits()
X = digits.data
X = X - X.mean() # centering the data
#### svd
svd = TruncatedSVD(n_components=5)
svd.fit(X)
print(svd.explained_variance_ration)
####
我正在尝试降低我的维度(我有120列),因此我想应用PCA方法:
val data = sc.textFile("data")
val header = data.first
val rows = data.filter(l => l != header)
import org.apache.spark.mllib.feature.PCA
import org.apache.spark.mllib.linalg.Vectors
import org.apache.spark.mllib.regression.{LabeledPoint, LinearRegressi
我已经在BiqQuery上创建了一个PCA模型,但是我很难弄清楚如何使用它来解决我的分类问题。我可以使用ML.EVALUATE,但仅此而已。如何使用我的PCA模型来训练一个分类模型?
我尝试了不同的ML函数,如预测、混淆矩阵和ROC,但是最后的2种方法不起作用,因为我还不能使用PCA数据来训练分类模型。下面是我的代码
CREATE MODEL
`mydataset.mymodel`
OPTIONS
( MODEL_TYPE='PCA',
PCA_EXPLAINED_VARIANCE_RATIO=0.8 ) AS
SELECT
*
FROM
`mydata
我正在实现度量学习算法,我想要降低数据的维度。我使用Java和库(Jama)来实现,并使用PCA来降低维度。当我使用Jama库中的eig来获取特征值时,即使对于大小为300 x 20的矩阵,也需要花费大量时间。我需要获取特征值和特征向量的java实现。作为参考,我还尝试了其他库,如Jblas,它具有PCA,但在特征值和特征向量方面的性能非常差。
我正在用和进行PCA分析。我注意到两个库返回的输出不匹配。
请参阅下面的示例代码片段-
import numpy as np
from gpflow.models import PCA_reduce
from sklearn.decomposition import PCA
X = np.random.random((100, 10))
for n in range(1, 6):
X1 = PCA(n_components=n).fit_transform(X)
X2 = PCA_reduce(X, n)
print('[n=%d] allclose=%s&
我有以下数据可用的在链接中作为一个csv,它传递有关恒星的信息。
更具体地说,列ID表示示例的任意ID。列z表示我的目标变量(响应)。其他列表示每个示例可用的属性(预测器)及其相应的测量误差。
我使用以下代码将11D数据缩减为3个主成分,并绘制了数据在主空间中的散度图(用颜色表示目标变量Z)。
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
#first we remove the target z and ID from the dataset and standr
在指南的基础上,我从零开始构建主成分分析算法,以达到我的研究目的。类的定义是:
import numpy as np
class PCA(object):
"""Dimension Reduction using Principal Component Analysis (PCA)
It is the procces of computing principal components which explains the
maximum variation of the dataset using fewer components.