与excel的求解器或R的optim函数等效的Apache Spark是什么？

Apache Spark是一个开源的大数据处理框架，它提供了高效的数据处理和分析能力。与Excel的求解器或R的optim函数相比，Apache Spark具有以下特点和优势：

分布式计算：Apache Spark采用分布式计算模型，可以在集群中并行处理大规模数据集。它通过将数据划分为多个分区，并在集群中的多个节点上进行并行计算，从而加快数据处理速度。
内存计算：Spark使用内存计算技术，将数据存储在内存中进行计算，大大提高了计算速度。相比之下，Excel的求解器和R的optim函数通常是基于磁盘存储的，速度较慢。
多种数据处理功能：Spark提供了丰富的数据处理功能，包括数据清洗、转换、聚合、机器学习等。它支持多种数据源，如Hadoop HDFS、关系型数据库、NoSQL数据库等，可以处理结构化数据、半结构化数据和非结构化数据。
强大的扩展性：Spark具有良好的扩展性，可以与其他大数据生态系统工具无缝集成，如Hadoop、Hive、HBase等。它还支持多种编程语言，如Java、Scala、Python和R，方便开发人员使用自己熟悉的语言进行开发。
广泛的应用场景：Spark广泛应用于大数据处理、机器学习、实时流处理等领域。它可以用于数据挖掘、推荐系统、风险分析、日志分析、图计算等各种场景。

腾讯云提供了基于Apache Spark的云服务产品，如腾讯云Spark集群（https://cloud.tencent.com/product/spark），用户可以在腾讯云上快速搭建和管理Spark集群，进行大数据处理和分析。

与excel的求解器或R的optim函数等效的Apache Spark是什么？

我可以使用求解器在excel中找到复杂非线性函数的近似最小值。我可以使用optim函数在R中执行相同的操作。我编写了我的函数，并在apache spark中工作。我搜索了apache spark machine learning documentation，找到了用于回归和分类的模型，但没有找到像R的optim或Excel的求解器这样的工具。我错过了什么吗？什么是与R的optim函数或excel的求解器等效的apache spark？

浏览 15提问于2020-11-24得票数 1

回答已采纳

3回答

pyspark如何使用log作为权重和为零的链接函数来拟合GLM

、、

我正在尝试对我的回归模型使用不同的GLM链接函数进行实验。当我尝试使用log或inverse的链接函数时，我得到以下错误：有没有一种方法可以使用伽玛或高斯来指定对权重和为零的glm的拟合？ An error occurred while calling o1677.fit. : java.lang.AssertionError: assertion failed: Sum of weights cannot be zero. at scala.Predef$.assert(Predef.scala:170) at org.apache.spark.ml.optim.Weigh

浏览 1提问于2018-03-30得票数 1

3回答

具有任意约束的R中的优化

、、、、

我已经在Excel中完成了，但需要在R中运行一个适当的模拟。我需要最小化函数F(x) (x是向量)，同时具有sum(x)=1的约束，x中的所有值都是[0,1]和另一个函数G(x) > G_0。我已经和optim和constrOptim试过了。他们都没有给你这个选择。

浏览 3提问于2014-02-06得票数 1

回答已采纳

1回答

优化box变换，函数不能在初始参数处求值。

、、

我正在尝试进行一个自动的box变换(这对于规范数据的人来说通常是有用的)，但是在用R的optim可以用的方式来表达我的优化时遇到了困难。它通常是有效的，但我不清楚是什么导致它在极端倾斜的变量上失败的。其思想是在box变换中选择Lambda的参数，以最小化数据集偏斜度的绝对值。 library(car) library(moments) xskew <- function(data,par){ abs(skewness(bcPower(data,lambda=par[1]),na.rm=T)) # minimize abs(skew) } boxit <- functi

浏览 8提问于2014-03-11得票数 0

回答已采纳

1回答

spark线性回归模型迁移到1.6.1后的训练失败

、

我用火花-毫升来训练线性回归模型。它非常适用于spark版本1.5.2，但现在对于1.6.1，我得到了以下错误： java.lang.AssertionError: assertion failed: lapack.dppsv returned 228. 它似乎与一些低水平的线性代数库有关，但它在火花版本更新之前工作得很好。在这两个版本中，我在培训开始前都会收到相同的警告，表示它不能加载BLAS和LAPACK。 [Executor task launch worker-6] com.github.fommil.netlib.BLAS - Failed to load implementati

浏览 3提问于2016-06-03得票数 0

回答已采纳

2回答

用apache读取excel文件

、、、

(阿帕奇星火公司的新产品) 我试图创建一个小型Spark应用程序，它可以读取excel文件并将数据插入数据库，但由于库版本不同，出现了一些错误(我认为)。 Scala v2.12 Spark v3.0 Spark-Excel v0.13.1 Maven配置是： <dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.

浏览 8提问于2020-07-08得票数 0

回答已采纳

1回答

星火LinearRegressionSummary“正常”总结

根据，p-值仅适用于“正常”求解器。此值仅在使用“正常”求解器时才可用。 “正常”的解算者到底是什么？我要这么做： import org.apache.spark.ml.{Pipeline, PipelineModel} import org.apache.spark.ml.evaluation.RegressionEvaluator import org.apache.spark.ml.feature.VectorAssembler import org.apache.spark.ml.regression.LinearRegressionModel import org

浏览 4提问于2017-10-11得票数 13

回答已采纳

2回答

LinearRegressionWithSGD()返回NaN

、

我尝试在百万歌曲数据集上使用LinearRegressionWithSGD，我的模型返回NaN的权重和0.0作为截距。该错误的问题可能是什么？我在独立模式下使用Spark 1.40。示例数据：下面是我的完整代码： //导入依赖关系 import org.apache.spark.mllib.linalg.Vectors import org.apache.spark.mllib.regression.LabeledPoint import org.apache.spark.rdd.RDD import org.apache.spark.mllib.util.MLUtils import o

浏览 1提问于2015-07-21得票数 3

1回答

如何在R中进行数学优化(TSP)，可能是使用optim()

、、

我正致力于在R中创建一个基本的旅行商问题(TSP)，但我还没有找到合适的资源来帮助我将optim()与导入的数据一起使用。或者也许optim()并不是我真正想要的。我将分享我的示例，并希望您能为我指明正确的方向，或者帮助解决特定的问题。有一组地点，我正在努力寻找最短的路线。路线上的每个位置需要访问一次，且只需访问一次。路线需要在原点开始和结束。可能的解决方案是：从原点>到Location1 >到Location2 >并返回到原点或从原点>到Location2 >到Location1 >并返回到原点我已经将以下数据导入R： distances <

浏览 0提问于2016-12-18得票数 0

1回答

如何在R中复制excel求解器

、、

我用excel solver解决了一个优化问题，我正试着用R来复制它。我发现了很多包，比如optim，ROI等等，但它们似乎都只以一个向量作为优化的对象，并允许变量取任何连续的值。在我的例子中，我有一个也需要满足的约束矩阵，并且我的变量只能接受二进制值。下面是我想要解决的问题： A-D是机器，1-3是任务，第一个矩阵中的数字是使用X机器执行Y任务所产生的值。约束是: A-D可以并且只能完成一个任务(不能拆分)；每个任务可以工作并且只能由一台机器工作。下面是我使用的代码： par = rep(c(0,1),6) mat <- matrix(c(9,10,11,4,5,10,1,3,

浏览 0提问于2015-05-14得票数 16

回答已采纳

1回答

Spark Excel :类org.apache.commons.compress.archivers.zip.ZipArchiveInputStream未实现InputStreamStatistics

、

我正在尝试运行spark应用程序，它使用spark crealytics包读取excel文件到dataframe。然而，我得到了下面的错误。 Exception in thread "main" java.lang.IllegalArgumentException: InputStream of class class org.apache.commons.compress.archivers.zip.ZipArchiveInputStream is not implementing InputStreamStatistics. at org.apache.poi.o

浏览 299提问于2021-01-07得票数 0

回答已采纳

1回答

无法从azure blob存储容器中读取xlsx文件到pyspark数据帧

、、、、

我正在尝试将数据从Azure存储容器加载到Azure Databricks中的Pyspark数据框架。当我读取txt或CSV文件时，它正在工作。但是，当我试图读取.xlsx文件时，我会得到以下问题。 ApacheSpark3.2.0，Scala2.12 下面是我正在执行的步骤 spark.conf.set("fs.azure.account.key.teststorage.blob.core.windows.net", "**********************") 它起作用了 df = spark.read.format("csv").op

浏览 11提问于2022-05-12得票数 0

1回答

线程"main“java.lang.NoSuchMethodError中的异常：'void scala.util.matching.Regex.<init>(java.lang.String，scala.collection.Seq)‘

、、

当我尝试以csv格式将.xlsx文件作为DataFrame读取时，会发生此错误。有谁能帮我一下，这里有什么问题，怎么解决？下面是我使用的代码， package Sample import org.apache.spark.sql{SparkSession, SparkContext} import org.apache.spark.SparkConf Object Read extends App { val conf = new SparkConf() .setAppName("Excel to DataFrame") .setMaster("local[*]&

浏览 6提问于2020-02-07得票数 0

1回答

使用com.crealytics检测到的fs.azure.account.key配置值无效:spark

、、、、

我已经设置了我的数据库笔记本使用服务主体访问ADLS使用以下配置。 service_credential = dbutils.secrets.get(scope="<scope>",key="<service-credential-key>") spark.conf.set("fs.azure.account.auth.type.<storage-account>.dfs.core.windows.net", "OAuth") spark.conf.set("fs.azure.acco

浏览 16提问于2022-09-27得票数 1

回答已采纳

1回答

由于依赖问题，无法使用spark-excel导出数据帧

、、、、

我想使用spark-excel库将数据框导出到Excel文件。我可以运行Spark作业，指定要与参数一起使用的依赖项，但我希望它只使用sbt文件来打包应用程序(我知道它应该是几乎相同的东西)。在build.sbt中，这一行指定了依赖项，以及一些已经存在的依赖项： libraryDependencies += "com.crealytics" % "spark-excel_2.11" % "0.12.0" 这主要是基于这个页面：下面是用来运行它的命令： spark-submit --master spark://spark:7077 --cla

浏览 0提问于2019-08-27得票数 2

1回答

是否可以使用航速、biglm和glm包自定义logit模型的似然函数？

、

我试图使用R中的optim/maxBFGS函数来拟合一个定制的logistic回归/生存分析函数，并通过手工定义这些函数。我一直有这样的印象:对于包speedglm、biglm和glm，logit模型或其他发行版的可能性函数都是硬锁的。但是，我想知道我是否弄错了，或者是否可以指定我自己的可能性函数。原因是optim/maxBFGS的运行速度比speedglm慢得多。

浏览 4提问于2014-08-17得票数 1

回答已采纳

2回答

示例Mlib程序中的AbstractMethodError

、、、

我正在尝试从Java中的Apache示例mlib推荐器构建一个示例推荐程序，但是当我构建它时(在IDEA intellij中)，输出日志显示线程"main“java.lang.AbstractMethodError中的异常 at org.apache.spark.Logging$class.log(Logging.scala:52) at org.apache.spark.mllib.recommendation.ALS.log(ALS.scala:94) at org.apache.spark.Logging$class.logInfo(Logging.scala:59) at

浏览 2提问于2015-04-01得票数 0

回答已采纳

2回答

使用PySpark:未能找到数据源: com.crealytics.spark.excel读取Excel文件

、、、

我试图使用vscode中的jupyter、1.8.0_311 ()的java版本和2.12.15版本的scala版本读取一个excel文件。以下代码如下： # import necessary library import pandas as pd from pyspark.sql.types import StructType # entry point for spark's functionality from pyspark import SparkContext, SparkConf, SQLContext configure = SparkConf()

浏览 12提问于2021-12-23得票数 2

回答已采纳

1回答

Apache的perl？

、

我是一个长期的perl开发人员，有人告诉我“去学习Apache”。因此，我的计划是: 1)找出什么是，2)想出如何与perl对话。我们很早就在这里..。我看到很多像这样的网页说：“虽然Spark、Python和R都有API，但常用的语言是前两种。” 我在任何地方都没有找到任何关于Spark的perl的东西--搜索CPAN发现了一些名字中有“Spark”的东西，但实际上没有任何相关的东西。这真是令人费解..。为什么最流行的Spark API之一是面向Python的，而对于perl，却什么都没有呢？我很难接受“您只能通过Python (而不是perl)与Spark交谈”，但这正是我目前所处的位

浏览 2提问于2018-12-16得票数 1

2回答

在Spark 1.X中将Excel文件转换为csv

、、、、

有没有工具可以使用Spark 1.X将Excel文件转换为csv？在执行此tuto 时遇到此问题 Exception in thread "main" java.lang.NoClassDefFoundError: org/zuinnote/hadoop/office/format/mapreduce/ExcelFileInputFormat at org.zuinnote.spark.office.example.excel.SparkScalaExcelIn$.convertToCSV(SparkScalaExcelIn.scala:63)

浏览 9提问于2017-12-13得票数 1

2回答

使用从excel文件中加载数据

、、、、

我希望使用Session 2.2从HDFS中的Excel文件中加载数据。下面是我的Java代码和我得到的异常。 Dataset<Row> df = session.read(). format("com.crealytics.spark.excel"). option("location", pathFile). option("sheetName", "Feuil1"). option("

浏览 4提问于2018-05-02得票数 0

回答已采纳

1回答

有没有办法使用Crealytics spark-excel包将包含ArrayType列的Spark数据帧写入Excel？

、、、、

我想从Spark Dataframe创建一个XLSX文件。我正在使用Crealytics的spark-excel包(https://github.com/crealytics/spark-excel)来实现同样的目的。下面是我创建spark数据帧的方法： my_row = Row([1,2,3,4,5] ,True, decimal.Decimal(5.66) , float(10.111) , 5 , "some string" , datetime(2019, 10, 23, 8, 36, 49, tzinfo=tzlocal())) my_schema = Stru

浏览 21提问于2020-04-08得票数 0

1回答

如何计算R中近似奇异矩阵的求逆？

、、、

我想最小化函数FlogV (使用多正态分布，Z是数据矩阵NxC；SIGMA是数据协方差的方阵CxC，R是长度为C的向量) FLogV <- function(P){ (here I define parameters, P, within R and SIGMA) logC <- (C/2)*N*log(2*pi)+(1/2)*N*log(det(SIGMA)) SOMA.t <- 0 for (j in 1:N){ SOMA.t <- SOMA.t+sum(t(Z[j,]-R)%*%solve(SIGMA)%*%(Z[j,]-R)) } MlogV <

浏览 6提问于2013-11-20得票数 0

2回答

如何使用pyspark读取Excel文件？

、、、、

我正在尝试使用AWS EMR的Pyspark来读取它驻留在s3中的Excel文件，为此，我下载了spark-excel jars spark-excel_2.11-0.12.4.jar和spark-excel_2.12-0.13.5.jar，并将其放入s3存储桶中 scenario 1: =========== df = spark.read.format("com.crealytics.spark.excel").option("useHeader", "true").option("inferschema", "tru

浏览 109提问于2021-02-13得票数 0

2回答

星星之火-excel数据问题

、、、、

我正在使用包处理ms文件使用火花2.2。除了下面的例外情况外，有些文件无法作为火花数据文件加载。如果有人遇到这个问题，你能帮我解决这些数据类型问题吗？在分析之后，我发现如果列名不是字符串，它最终会给出下面的异常，如果我手动将列名从整数更改为字符串，它就会工作得很好。代码： val excelDF = spark.read. format("com.crealytics.spark.excel"). option("useHeader", "true"). option("treatEmptyValuesAs

浏览 3提问于2018-01-17得票数 2

1回答

SparkR错误: HDFS上的根划痕dir: /tmp/hive应该是可写的

、、、、

我正在尝试初始化SparkR，但是我得到了一个权限错误。我的火花版本是火花-2.2.1-bin-hadoop2.6。我已经搜索了这个错误和如何解决它，我已经找到了几个相关的主题。但是，我无法使用与在这些主题中给出的解决方案(以及我尝试过的解决方案)相同的方法来解决这个问题，而是使用以下命令对/tmp/hive目录进行处理： sudo -u hdfs hadoop fs -chmod -R 777 /tmp/hive 有足够知识的人能给我另一个可能的解决方案吗？错误堆栈跟踪如下： $ sudo ./bin/sparkR R version 3.4.2 (2017-09-28) -- "

浏览 3提问于2017-12-19得票数 1

回答已采纳

1回答

Scala Spark dataframe :任务不可序列化异常，即使使用广播变量也是如此

、、

这是可行的(df : dataframe) val filteredRdd = df.rdd.zipWithIndex.collect { case (r, i) if i >= 10 => r } 这不是 val start=10 val filteredRdd = df.rdd.zipWithIndex.collect { case (r, i) if i >= start => r } 我尝试使用广播变量，但即使这样也不起作用 val start=sc.broadcast(1) val filteredRdd = df.rdd.zipWithIndex.col

浏览 2提问于2016-05-09得票数 2

1回答

通过pyspark和pycharm实现SQLite JDBC连接的jar文件

、

我在pycharm上运行以下代码，如果我通过命令提示符提供--jars，则此代码工作正常 from pyspark.sql import SparkSession spark = SparkSession.builder.appName("pySparksqLite_test").\ config('spark.jars.packages', "C:/jars/DataVisualization/sqlite-jdbc-3.20.0.jar").getOrCreate() spark.conf.set("spark.sql.shuff

浏览 9提问于2019-08-17得票数 0

2回答

java.lang.IllegalArgumentException:需求失败:列特性必须是org.apache.spark.ml.linalg.VectorUDT类型

、、、

我是星火机器学习的新手(两天前)，我正在执行下面的代码，在Spark中，我试图预测一些值，我在Stackoverflow中看到了这个错误帖子，但是我无法用正确的解决方案修复我的代码，所以再次为同样的问题道歉输入数据： 1.00,1.00,9.00 1.00,2.00,10.00 1.00,3.00,9.00 1.00,4.00,9.00 1.00,5.00,9.00 1.00,6.00,9.45 1.00,7.00,9.45 1.00,8.00,9.45 1.00,9.00,9.45 代码： val df = spark.read.csv("/root/Predictiondata.

浏览 5提问于2017-06-14得票数 0

回答已采纳

1回答

SparkR dapply不工作

我正尝试在一个应用于spark data frame的函数中调用lapply。根据文档，从Spark 2.0开始这是可能的。 wrapper = function(df){ out = df out$len <- unlist(lapply(df$value, function(y) length(y))) return(out) } # dd is Spark Data Frame with one column (value) of type raw dapplyCollect(dd, wrapper) 它返回错误： Error in invokeJav

浏览 0提问于2016-08-14得票数 0

1回答

如何在返回dataFrame列值的dataFrame列上映射函数？

、、

我有一个spark，df1，它包含几个列，其中一个列是带有患者ID的。我想要接受这个专栏，并执行一个函数，发送http请求有关每个ID的信息，比如医学测试。然后从json解析此信息，并由函数作为多个测试的DataFrame返回。我希望对所有的in都这样做，这样我就有了第二个DataFrame，df2，以及df1中in的所有医疗测试信息。我尝试了下面的代码，我认为这不是最优的，特别是对大量的病人。我的问题是我不能以Arrayorg.apache.spark.sql.DataFrame的形式处理结果。注意，这是一个示例代码，在现实生活中，我可能会对一个ID进行100个测试，而对于另一个ID只有3

浏览 2提问于2018-05-22得票数 1

回答已采纳

1回答

delta与excel的结合

、、

当使用com.crealytics:spark_2.12:0.14.0而没有增量： spark = SparkSession.builder.appName("Word Count") .config("spark.jars.packages", "com.crealytics:spark-excel_2.12:0.14.0") .getOrCreate() df = spark.read.format("com.crealytics.spark.excel") .option("header", "tr

浏览 3提问于2021-09-30得票数 0

2回答

有没有可能使用pyspark来加速对一个非常大的数组的每一列的回归分析？

、

我有一个非常大的数组。我想对数组的每一列进行线性回归。为了加快计算速度，我创建了一个列表，将数组的每一列作为其元素。然后，我使用pyspark创建了一个RDD，并在其上进一步应用了一个已定义的函数。我在创建RDD (即并行化)时遇到了内存问题。我试图通过设置spark.driver.memory -defaults.conf将spark改进为50g，但程序似乎仍然死了。 import numpy as np from sklearn.linear_model import LinearRegression from sklearn.metrics import r2_score, mean_

浏览 4提问于2019-06-18得票数 1

1回答

火花:输入流的意外结束

、、

在Scala/Spark应用程序中，我有两个不同的DataFrames。我的任务是为每个xlsx创建一个带有两个工作表的DataFrame文件。对于这个任务，我决定使用库。 df1.coalesce(1).write .format("com.crealytics.spark.excel") .option("dataAddress", "'Sheet1'!A1:Z100000") .option("useHeader", "true") .option("d

浏览 0提问于2019-09-05得票数 1

1回答

哪种头签名是0x74736571655220？

、、

我正在尝试用apache读取excel文件。但是，在运行时，我会得到一个NotOLE2FileException。，这是类似的，但是这里的错误很明显，根本没有文件。我实际上有一个文件，也有一个签名，但我不知道是什么样的签名，也不知道如何读取该文件。谷歌没有结果。我的守则： File file = new File("mypath/myfile.xls"); if(!file.exists()){ throw new IllegalArgumentException("File does not exist"); } try { Workb

浏览 20提问于2017-01-16得票数 3

回答已采纳

1回答

在java中使用apache commons optimize()时出现的问题

、、

我目前正在尝试使用apache库在java中实现一个非导数的多变量优化。但是，我在向optimize()方法提供所需的"OptimizationData“时遇到了问题。下面是我到目前为止运行我的优化的所有信息。 public static double[] Optimize(double[][] contractDataMatrix, double[] modelData,String modelType,String weightType){ ObjectiveFunction objective = new ObjectiveFunction(contractD

浏览 0提问于2014-12-02得票数 0

1回答

当我对Dataframe执行操作时发生了错误，这是我手动创建的。

、、、、

我有一个字符串的python列表。我用下面的代码用一个列创建了一个dataframe： skills_df = spark.createDataFrame(temp, StringType()) 其中，temp是字符串的列表。此步骤已成功执行。当我试图在skills_df上做任何像skills_df.count()这样的操作时，它会给我一个错误。这种情况发生在数据处理上。但是，不是通过导入csv文件(即csv_df = spark.read.csv('/user/turing/Profiles_final.csv', header=True) )创建的数据文件。我使用spar

浏览 1提问于2018-04-26得票数 0

回答已采纳

1回答

如何将Spark添加到PySpark中

、

我试图将xlsx读取到PySpark，并尝试以多种方式导入Spark库，但在读取xlsx文件时仍然会出现错误。我在我的Mac上使用了Spark的独立模式。我的代码： # spark configuration spark_path = "/spark/spark-3.0.1-bin-hadoop2.7" findspark.init(spark_path) spark = SparkSession.builder.master("local").appName("Word Count").config("--packages com.c

浏览 6提问于2021-03-04得票数 0

回答已采纳

1回答

optim()的高维优化方案

、、

我为optim实现了一个包装函数，使用了一个非标准(分段线性)成本函数，并对此成本函数进行了优化。(想想lm，但是用自定义函数替换成本函数最小二乘。) 此过程对于低维模拟数据非常有效。然而，我的数据(不幸的是我无法共享)是相对高维度的(大约100列，没有常量列)。使用这些高维数据，优化参数与其初始值相差0.001(或多或少取决于所使用的方法)，甚至使用参数control = list(maxit = 5000)并尝试所有已实现的优化method： optim(par = c(mean(b), rep(0, ncol(A) - 1)), fn = costFn, A = A, b = b, m

浏览 3提问于2020-11-11得票数 0

回答已采纳

1回答

fail显示火花放电

、、、、

!pip install Pyspark import pandas as pd from pyspark.sql import SparkSession spark = SparkSession.builder.getOrCreate() pdf = pd.read_excel("xxxx.xlsx", sheet_name='Input (I)') df = spark.createDataFrame(pdf) df.show() 但是得到一个错误： Py4JJavaError:调用o41.显示calling时出错。：org.apache.spark.Sp

浏览 1提问于2021-11-04得票数 0

2回答

创建dataframe时scala火花转换错误

、、、

我是斯卡拉的新手。请耐心等待。我有这个密码。 import org.apache.spark.sql.{DataFrame, Dataset, SparkSession} import org.apache.spark.ml.clustering.KMeans import org.apache.spark.ml.evaluation._ import org.apache.spark.ml.linalg.Vectors import org.apache.spark.ml.evaluation.ClusteringEvaluator // create spark session imp

浏览 0提问于2018-09-24得票数 0

1回答

ML流水线上的火花驱动程序内存问题

、、

我正在运行逻辑回归管道，在这一行上： model = pipeline.fit(train_data) 在RDDLossFunction阶段，我反复得到以下错误：文件"/usr/spark-2.3.0/python/lib/pyspark.zip/pyspark/ml/base.py"，第132行，fit文件"/usr/spark-2.3.0/python/lib/pyspark.zip/pyspark/ml/pipeline.py"，第109行，_fit文件"/usr/spark-2.3.0/python/lib/pyspark.zip/pyspa

浏览 0提问于2018-06-07得票数 0

2回答

sparkMLlib MinHashLSH必须至少有一个非零条目执行？

我想用Spark MLlib提供的MinHash模型找到重复的文章，然后我遇到了一个异常：“必须至少有1个非零条目。” 我相信它是由val featurizedData = mh.transform(tmp).cache()触发的。但我真的不明白哪里出了问题。代码： val data = spark.read.format("jdbc"). option("url", "jdbc:mysql://localhost/test"). option("dbtable", "article"). opt

浏览 0提问于2018-09-14得票数 1

3回答

Apache星火窗口函数，FIRST_VALUE不工作。

、、、

我有一个窗口函数火花API的问题：我的问题类似于这个问题：我有一个数据集： +---+----------+---------+ | ID| VALUEE| OTHER| +---+----------+---------+ | 1| null|something| | 1|[1.0, 0.0]|something| | 1|[1.0, 0.0]|something| | 1|[0.0, 2.0]|something| | 1|[3.0, 5.0]|something| | 2|[3.0, 5.0]|something| | 1|[3.0, 5.0]|s

浏览 1提问于2018-05-15得票数 0

回答已采纳

1回答

Apache Commons优化问题

、、、

我正在尝试使用Apache Commons提供的java优化库来解决一个有约束的非线性267维优化问题。经过3天的破译，我得到的是： public class optimize2 { public static void main(String []args){ double[] point = {1.,2.}; double[] cost = {3., 2.}; MultivariateFunction function = new MultivariateFunction() { public double value(double[]

浏览 1提问于2013-06-06得票数 5

回答已采纳

1回答

为什么朴素的贝叶斯不能像Logistic回归那样在星火MLlib管道中工作？

、、、

我正在研究使用Scala的tweet情绪分析中的一个问题。我有一个使用逻辑回归模型的工作版本，具体如下： import org.apache.spark.mllib.regression.LabeledPoint import org.apache.spark.mllib.feature.HashingTF import org.apache.spark.mllib.classification.LogisticRegressionWithSGD import org.apache.spark.sql.SQLContext import org.apache.spark.sql.types.{

浏览 5提问于2016-12-23得票数 2

回答已采纳

1回答

如何读取大容量excel文件数据并加载到数据库中的spark数据中

、、、

我想阅读大容量excel数据，其中包含800 k记录和230列。我已经用火花和熊猫的数据读取数据，但当我使用火花数据框架读取数据时，我得到以下信息。消息:火花驱动程序意外停止并正在重新启动。您的笔记本将自动重新连接。我使用了下面的代码使用火花。 df=spark.read.format("com.crealytics.spark.excel").option("useheader","true").option("treatEmptyValuesAsNulls","true").option("

浏览 1提问于2019-06-04得票数 0

1回答

从C调用R函数"optim“

、

我是C的新手。我试图使用C中的optim。根据“编写R扩展”第5.8节，Nelder方法需要16个参数： void nmmin(int n, double *xin, double *x, double *Fmin, optimfn fn, int *fail, double abstol, double intol, void *ex, double alpha, double beta, double gamma, int trace, int *fncount, int maxit); 据我理解，与接受函数参数中默认值的

浏览 3提问于2012-10-07得票数 0

回答已采纳

1回答

使用Apache Spark的Time类/类型

、、

注意:我使用的是Spark 2.2.0。尝试从Zeppelin笔记本运行Scala代码时出现错误 %spark import org.apache.spark.SparkConf import org.apache.spark.SparkContext import org.apache.spark.streaming.{Time, Seconds, StreamingContext} ... ... case class Record(time: Time, topic: String, count: Integer) ... ... import org.apache.spark.stre

浏览 1提问于2017-12-07得票数 1

1回答

线程"main“java.lang.NoSuchMethodError异常: scala.Product.$init$(Lscala/Product;)

、、、

出现这个错误的原因是什么？最初，Scala的IDE插件是2.12.3。但由于我使用的是Spark 2.2.0，所以我手动将其更改为Scala 2.11.11。 Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties 17/09/19 12:08:19 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where appl

浏览 1提问于2017-09-19得票数 14

回答已采纳