我正在使用AWS云中的Pyspark来提取图像特征:
ImageSchema.imageFields
img2vec = F.udf(lambda x: DenseVector(ImageSchema.toNDArray(x).flatten()),
VectorUDT())
df_vec = df_cat.withColumn('original_vectors', img2vec("image"))
df_vec.show()
数据标准化后:
standardizer = MinMaxScaler(inputCol="original_vectors",
outputCol="scaledFeatures",
min=-1.0,
max=1.0)
#withStd=True, withMean=True)
model_std = standardizer.fit(df_vec)
df_std = model_std.transform(df_vec)
df_std.show()
..。当我将PCA应用于降维时,我会收到一个错误,在几周内无法调试:(
你能帮我解决这个问题吗?
我用火花放电-3.0.3bin-hadoop2.7
https://stackoverflow.com/questions/73654149
复制相似问题