spark培训_再培训或继续培训_phpmysql培训 - 腾讯云开发者社区

、、

我将星火从2.3.1升级到2.4.5。我正在使用Dataproc映像1.4.27-debian 9在Google平台的Dataproc上重新使用Spark2.4.5重新培训一个模型。当我在本地机器上加载Dataproc生成的模型时，使用Spark2.4.5验证模型。不幸的是，我得到了以下例外： 20/05/27 08:36:35 INFO HadoopRDD: Input split: file:/Users/.../target/classes/model.ml/stages/1_gbtc_961a6ef213b2/metadata/part-00000:0+657 20/05/27 08:

浏览 7提问于2020-05-27得票数 1

回答已采纳

1回答

错误: org.apache.spark.SparkException:没有为以下任务配置指定执行器资源配置: gpu

、、

我正在尝试在仅使用CPU的GCP dataproc spark集群上使用tensorflow多工作者策略，使用以下链接：https://cloud.google.com/blog/products/data-analytics/faster-machine-learning-dataproc-new-initialization-action 但是在启动集群后，每当我尝试创建spark会话时，都会收到错误: org.apache.spark.SparkException:没有为以下任务配置指定执行器资源配置: gpu spark会话代码： from pyspark.sql import Sp

浏览 15提问于2021-05-07得票数 2

1回答

MLlib MatrixFactorizationModel recommendProducts(用户，num)在某些用户上失败

、、、

我使用训练了一个模型，现在使用获得了最推荐的产品，但是代码在一些用户上失败了，有以下错误： user_products = model.call("recommendProducts", user, prodNum) File "/usr/lib/spark/python/pyspark/mllib/common.py", line 136, in call return callJavaFunc(self._sc, getattr(self._java_model, name), *a) File "/usr/lib/spark/p

浏览 0提问于2015-09-09得票数 4

1回答

从决策树回归器中拟合训练数据会导致崩溃

、、

尝试在一些训练数据上实现决策树回归算法，但是当我调用fit()时，会得到一个错误。 (trainingData, testData) = data.randomSplit([0.7, 0.3]) vecAssembler = VectorAssembler(inputCols=["_1", "_2", "_3", "_4", "_5", "_6", "_7", "_8", "_9", "_10"], outputCol

浏览 2提问于2019-10-04得票数 0

回答已采纳

3回答

星星之火-mllib再培训保存的模型

、、

我正在尝试使用spark进行分类，特别是使用RandomForestModel。我看了一下spark (RandomForestClassificationExample.scala)的这个例子，但是我需要一种稍微扩展的方法。我需要能够训练一个模型，为将来的使用保留模型，但也能够加载它和进一步的训练。比如，扩展数据集，然后再进行训练。

浏览 7提问于2017-01-03得票数 0

回答已采纳

1回答

从dockerfile生成Azure机器学习环境(tensorflow)失败

、、、、

我正在尝试用opencv创建一个新的基于TF 2.4的环境。对opencv的支持是唯一的区别。我修改了dockerfile以包含opencv，如下所示： FROM mcr.microsoft.com/azureml/openmpi4.1.0-cuda11.0.3-cudnn8-ubuntu18.04:20211005.v1 ENV AZUREML_CONDA_ENVIRONMENT_PATH /azureml-envs/tensorflow-2.4 # Create conda environment RUN conda create -p $AZUREML_C

浏览 32提问于2021-10-12得票数 1

1回答

随机状态对精度的贡献

、、、

好吧，这很有趣..。我执行了几次相同的代码，每次得到不同的accuracy_score。我认为我在使用random_state时没有使用任何train_test splitting值。所以我使用了random_state=0，得到了82%的一致Accuracy_score。但是..。然后我想用不同的random_state数试一试，我设置了random_state=128，Accuracy_score变成了84%。现在，我需要了解为什么是这样，以及random_state如何影响模型的准确性。输出如下：1>不带random_state: runfile('C:/Users/spa

浏览 3提问于2020-08-25得票数 0

回答已采纳

1回答

如何分类新的培训例子后，模型培训的apache火花？

、

阅读的src： import org.apache.spark.ml.classification.MultilayerPerceptronClassifier import org.apache.spark.ml.evaluation.MulticlassClassificationEvaluator import org.apache.spark.mllib.util.MLUtils import org.apache.spark.sql.Row // Load training data val data = MLUtils.loadLibSVMFile(sc, "data/m

浏览 4提问于2016-03-14得票数 2

回答已采纳

1回答

ValueError: as_list()不是在未知的TensorShape上定义的

、、、、

我在这个中做了这个例子，下面是我得到的 jobs_train, jobs_test = jobs_df.randomSplit([0.6, 0.4]) >>> zuckerberg_train, zuckerberg_test = zuckerberg_df.randomSplit([0.6, 0.4]) >>> train_df = jobs_train.unionAll(zuckerberg_train) >>> test_df = jobs_test.unionAll(zuckerberg_test) >>>

浏览 0提问于2018-06-08得票数 0

回答已采纳

1回答

火花(1.6) ML线性回归-如何预测w/ a模型

、、

我有一个可行的线性回归模型： lrModel org.apache.spark.ml.regression.LinearRegressionModel 我在数据中有数据： data org.apache.spark.sql.DataFrame = [label: double, features: vector] 我如何使用模型来预测呢？就我而言，我想做的事情是： lrModel.predict(data) // which doesn't work 然后将预期值(标签)与预测值进行比较。

浏览 6提问于2016-02-05得票数 3

回答已采纳

1回答

如何在Intellij IDEA中调试flink流作业

、、、、

我想创建一个带有一些逻辑(Scala)的Flink Job，并在文档中找到了几种启动Flink的方法。例如，独立模式： ./bin/flink run ./examples/streaming/TopSpeedWindowing.jar 它可能是从Intellij Idea启动和调试Flink作业，就像使用主类启动和调试简单的Spark job一样吗？ val spark = SparkSession.builder() .appName("Agg") .master("local") .getOrCreate() def s

浏览 42提问于2021-01-30得票数 0

1回答

如何与CSV文件中的数据集一起使用决策树？

、、、、

我想像下面的代码一样使用Spark的org.apache.spark.mllib.tree.DecisionTree，但是编译失败。 import org.apache.spark.ml.Pipeline import org.apache.spark.ml.classification.DecisionTreeClassifier import org.apache.spark.ml.classification.DecisionTreeClassificationModel import org.apache.spark.ml.feature.{StringIndexer, IndexTo

浏览 4提问于2017-05-22得票数 0

1回答

ExecutorLostFailure (执行程序4由于一个正在运行的任务而退出)原因:丢失的驱动程序堆栈跟踪：

、、

我正试图在我的上运行ALS模型，而且我总是遇到同样的错误：这里是我的星火配置： spark_config["spark.executor.memory"] = "32G" spark_config["spark.executor.memoryOverhead"] = "20G" spark_config["spark.executor.cores"] = "32" spark_config["spark.driver.memory"] = "32G" # spark

浏览 15提问于2022-08-25得票数 0

1回答

将机器学习模型保存/覆盖为单个文件

、、、

我有使用LinearRegression的机器学习模型。我有5 vm的星系团。在对模型进行培训之后，我想保存模型，以便以后只需将其加载到内存中即可使用。我试过用 model.save("/tmp/model.pkl"). 这样保存时，它在集群的所有节点中创建名为model.pkl的目录，该目录的文件为data/, metadata/, _SUCCESS, ._SUCCESS.crc, _temporary, .. and some more。有没有一种方法可以将模型保存为像model.pkl这样的单个文件？此外，当我使用新的可用数据对模型进行重新培训时，我使用model.

浏览 4提问于2017-10-03得票数 2

1回答

用DataFrame实现火花状态流

、、

是否可以将DataFrame用作星火流的状态/ StateSpec？当前的StateSpec实现似乎只允许键值对数据结构(mapWithState等)。我的目标是保持一个固定大小的FIFO缓冲区作为一个StateSpec，每次新的数据流都会被更新。为了与Spark兼容，我想在Spark中实现缓冲区。

浏览 2提问于2018-02-22得票数 1

回答已采纳

1回答

Spark推荐算法返回已监视的项

、

建议的备用最小二乘算法的Spark实现，生成一个模型，该模型可应用于已观看电影的项目(training.itemCol，(在下面的示例中)，以便建议新项(示例中为movieRecs)。该方法如何返回已监视的(非新的)项作为结果的一部分(userRecs)？ als = ALS(maxIter=5, regParam=0.01, userCol="userId", itemCol="movieId", ratingCol="rating", coldStartStrategy="drop") model = a

浏览 1提问于2020-03-09得票数 0

回答已采纳

1回答

从dbfs (> 2gb )复制和读取文件的databricks错误

、、

我有6GB大小的csv。到目前为止，我使用的是下面一行，在使用java之后在dbfs上检查它的大小时，它仍然显示为6GB，所以我假设它是正确的。但是，当我做一个spark.read.csv(samplePath)时，它只读取1800万行，而不是6600万行。 Files.copy(Paths.get(_outputFile), Paths.get("/dbfs" + _outputFile)) 所以我试着复制dbutils，如下所示，但是它会产生错误。我更新了maven dbutil依赖项，并在我调用该行的对象中导入了相同的依赖项。还有其他地方可以让我在scala代码中使用db

浏览 1提问于2019-07-19得票数 1

回答已采纳

1回答

如何在星火数据上训练神经网络自动编码器(Keras)

、、、、

我在集群上创建了一个非常大的Spark ，它太大了，无法放入内存中。我还有一个带有Keras的自动编码器模型，它接受Pandas (内存中的对象)。把这两个世界结合在一起的最好方法是什么？我发现了一些在星火上提供深度学习的库，但似乎只适用于，或者不支持像这样的自动编码器我肯定不是第一个在星火大道上训练神经网络的人。我这里有一个概念上的空白，请帮帮忙！

浏览 1提问于2018-11-02得票数 4

3回答

设置星火NoSuchMethodError图时获取GraphX

、、

我得到一个类似的错误遇到的 -我可以运行GraphX使用火花外壳，但我得到一个NoSuchMethodError时，我试图使用火花提交的jar文件。这是它抱怨的一句话： val myGraph: Graph[(String, Long, String), Int] = Graph.apply(userRecords, userConnectionEdges) 这给了我以下错误： Exception in thread "main" java.lang.NoSuchMethodError: org.apache.spark.graphx. Graph$.apply$default

浏览 5提问于2015-02-18得票数 2

回答已采纳

1回答

Apache光束上的Spark.ml

是否可以在束管道中使用星火库(如Spark.ml )？根据我的理解，您将用“Beam语法”编写管道，并让Beam使用spark作为流道在火花上执行它。因此，我看不出如何在beam中使用spark.ml。但也许我在这里出了什么问题？是否有人已经尝试使用它，如果没有，是否存在其他ML库，以便在Beam中本地使用(除了Tensorflow Transform)？非常感谢，乔纳森

浏览 1提问于2018-11-27得票数 1

回答已采纳

1回答

使用CrossValidator和ParamGridBuilder找到最佳管道模型

、、、、

我有一个可以接受的模型，但我想通过调整它的参数在CrossValidator和ParamGridBuilder的Spark管道中进行改进。作为一名估计者，我将把现有的管道。在ParamMaps中，我不知道该放什么，我不明白。作为评估器，我将使用前面已经创建的RegressionEvaluator。我要做5倍，在树中列出10个不同的深度值。如何为最低的RMSE选择和显示最佳模型？实际例子： from pyspark.ml import Pipeline from pyspark.ml.regression import DecisionTreeRegressor

浏览 0提问于2018-05-23得票数 0

回答已采纳

1回答

<星火Dataframe>.write.parquet(<directory>)和<火花Dataframe>.write.parquet(<file name>.parquet)的区别

、

我终于被介绍给大家了，我正试着更好地理解它。我意识到，在运行spark时，最好有至少与内核一样多的地板文件(分区)，以便尽可能充分地利用spark。但是，制作一个大的拼花文件和几个较小的拼花文件来存储数据有什么好处/缺点？作为一个测试，我使用这个数据集：这是我正在测试的代码： import pyspark from pyspark.sql import SparkSession spark = SparkSession.builder \ .master("local[*]") \ .appName('test') \ .getO

浏览 7提问于2022-06-03得票数 0

回答已采纳

1回答

基于起泡水的H2O多节点集群与H2O星系团之间的ML训练是否存在性能差异？

、、

我对H2O的ML培训性能方面的集群配置环境感到好奇。如果有三个节点，那么配置一个通用的H2O多节点集群与配置一个基于Spark的H2O星盘集群之间是否存在性能差异？通过实验，我们得出结论:两者之间没有明显的性能差异。然而，许多H2O文档告诉我，H2O闪闪发光的水在ML培训中更有效。参考 H2O多节点集群：

浏览 1提问于2018-02-09得票数 1

1回答

星星之火mllib LinearRegression奇怪的结果

、、、、

从一个例子开始，我试图做LinearRegression。问题是我得到了错误的结果。作为拦截器，我应该拥有: 2.2。我尝试在另一篇文章中添加.optimizer.setStepSize(0.1)，但仍然得到了一个奇怪的结果。建议？这是一组数据 1,2 2,4 3,5 4,4 5,5 代码： import org.apache.spark.SparkConf import org.apache.spark.SparkContext import org.apache.spark.mllib.regression.LabeledPoint import org.apache.spark.ml

浏览 3提问于2015-11-18得票数 2

回答已采纳

1回答

单个节点上的火花:速度提高

在单个节点上使用Spark (特别是MLlib)是否有意义(除了学习这项技术的目的之外)？速度有进步吗？

浏览 7提问于2015-11-25得票数 0

回答已采纳

1回答

是否可以在一台Linux机器上的Docker上安装Hortonworks Cluster

、

我们希望在基于docker容器的Linux机器上构建测试Hadoop集群 hortonworks ( cloudera )是否支持这一点？例如，HDP版本- 2.6.5 例如，我们需要以下服务 HDFS ( include at least 3 data-nodes , ) YARN MAPreduce2 HIVE Zookeeper Ambari metrics KAFKA SPARK2 所有这些服务都应该在一台Linux机器上 ?

浏览 9提问于2020-05-01得票数 0

1回答

为什么星火-毫升ALS模型返回NaN和负数预测？

、、

实际上，我正在尝试使用来自ALS的spark-ml和隐式评分。我注意到我训练过的模型给出的一些预测是negative或NaN，为什么会这样呢？

浏览 4提问于2017-07-04得票数 6

回答已采纳

1回答

有火花的机器学习，数据准备性能问题，MLeap

、、、、

我发现了许多关于Mleap的很好的回答--一个库，允许快速得分。它在一个模型的基础上工作，转换成MLeap包。但是，在得分之前，数据准备阶段是什么呢？是否有有效的方法将“spark数据准备管道”(它在培训期间工作，但在spark框架中)转换为健壮的、性能有效的、优化的字节码？

浏览 0提问于2019-07-03得票数 1

回答已采纳

1回答

毫升调优-火花交叉验证

、、

我正在查看在中找到的交叉验证代码示例上面写着： CrossValidator首先将数据集分割成一组折叠，这些褶皱用作单独的训练和测试数据集。例如，使用k=3折叠，CrossValidator将生成3个(训练，测试)数据集对，每个使用2/3的数据进行培训，1/3用于测试。因此，我不明白为什么代码中的数据在培训和测试中是分开的： // Run cross-validation, and choose the best set of parameters. val cvModel = cv.fit(training) // Prepare test documents, which a

浏览 4提问于2021-11-10得票数 0

回答已采纳

3回答

在本地执行java.lang.UnsupportedOperationException:empty.maxBy时获取错误“PySpark : empty.maxBy”

、、

我正在使用RandomForestCLassifier构建一个模型。这是我的密码 conf = SparkConf() conf.setAppName('spark-nltk') sc = SparkContext(conf=conf) sqlContext = SQLContext(sc) m=sc.textFile("Question_Type_Classification_testing_purpose/data/TREC_10.txt").map(lambda s: s.split(" ",1)) df= m.toDF() 创建的data

浏览 6提问于2017-04-01得票数 3

回答已采纳

1回答

org.apache.spark.SparkException:带有TrainValidationSplit的未见标签

、、、

我在搜索这个错误，但没有找到任何与TrainValidationSplit相关的信息。因此，我想要进行参数调优，并且使用TrainValidationSplit进行参数调整会产生以下错误：org.apache.spark.SparkException: Unseen label。我理解为什么会发生这种情况，增加trainRatio可以缓解问题，但并没有完全解决问题。就这一点而言，这是守则的一部分： stages = [] for categoricalCol in categoricalCols: stringIndexer = StringIndexer(inputCol=cate

浏览 0提问于2017-04-27得票数 0

1回答

如何在星火流中仅在新批次上重新训练模型(不使用以前的训练数据集)？

、、、

我正在尝试写我的第一个推荐模型(Spark2.0.2)，我想知道是否可能，在最初的火车之后，当模型详细说明我的所有rdd时，只为未来的火车使用一个增量。让我通过一个例子来解释：当系统启动时，第一批使用所有rdd (200000元素)执行第一次培训。在列车的最后，模型被保存下来。第二批应用程序(火花流)加载先前保存的模型，并侦听动态队列。当一个新元素到达时，第二批应该执行培训(在增量模式下？！)没有加载所有的200000元素之前，但只是与模型和一个新的元素。在列车的最后，更新的模型被保存。问题是，是否有可能以某种方式执行步骤4？

浏览 6提问于2016-11-25得票数 1

回答已采纳

3回答

我可以将传入的数据流转换为数组吗？

、、

我正在尝试学习流数据，并使用提供的电信数据集对其进行操作。我已经编写了一种批量计算此值的方法： import org.apache.spark.SparkContext import org.apache.spark.SparkContext._ import org.apache.spark.SparkConf import org.apache.spark.streaming._ import org.apache.spark.streaming.StreamingContext._ import org.apache.spark.mllib.classification.{SVMMode

浏览 4提问于2016-01-07得票数 1

回答已采纳

1回答

为什么Apache Spark ML on Dataproc仅在单个节点上训练？

、、、

我是分布式ML的新手，目前正在做我的个人项目我在Cloud Dataproc上使用PySpark训练我的模型，并构建管道，如下所示 spark = SparkSession.builder.appName('sparkify-train').getOrCreate() df = spark.read.parquet(path) gbt = GBTClassifier() paramGrid = ParamGridBuilder() \ .addGrid(gbt.maxDepth, [4,8,12]) \ .addGrid(gbt.maxIter, [5,1

浏览 3提问于2021-03-14得票数 2

1回答

将经过训练的机器学习模型部署到生产中的步骤

、

我对ML世界很陌生，当我阅读有关用训练数据建立模型并最终测试数据以满足需求的时候，直到这一点我才能理解，我的问题一旦被测试，模型就已经准备好了。我是否需要在生产部署后对模型进行培训/再培训？如果是的话，那是什么做法呢？是否有方法来坚持这一假设，从而使模型能够使用持久的结果来预测？每一天、每周或每个月重新训练模特是一种好的做法吗？假设使用spark来建立模型让我补充更多细节。在对模型进行训练时，为了在预生产环境下生成基于分数的训练数据，可以将数据存储在分布式存储中，以供以后的预测，而不需要对模型进行再训练。我想了解第一步)当我把经过良好测试的模型从生产前到生产环

浏览 4提问于2017-04-03得票数 1

1回答

如何将星火流与Tensorflow集成？

、、、、

目标：不断地将嗅探的网络包提供给卡夫卡生产商，将其与星火流连接起来，以便能够处理包数据，然后使用Tensorflow或Keras中的预处理数据。我正在处理来自卡夫卡的火花流(PySpark)中的连续数据，现在我想将处理过的数据发送到Tensorflow。如何用Python在Tensorflow中使用这些转换后的DStreams？谢谢。目前没有任何处理应用于星火流，但将在以后添加。以下是py代码： import sys from pyspark import SparkContext from pyspark.streaming import StreamingContext from py

浏览 0提问于2018-12-18得票数 3

1回答

无法下载火花-nlp库提供的管道。

、、

我无法使用火花-nlp库提供的预定义管道"recognize_entities_dl“。我试着安装了不同版本的火花放电和火花-nlp库。 import sparknlp from sparknlp.pretrained import PretrainedPipeline #create or get Spark Session spark = sparknlp.start() sparknlp.version() spark.version #download, load, and annotate a text by pre-trained pipeline pipeli

浏览 7提问于2019-10-23得票数 7

1回答

Spark & Python:并行/映射状态模型sarimax的策略

、、、、

我为sarimax (和一般的时间序列)网格搜索构建了一个Python解决方案。这是蟒蛇类。在准备培训和测试集之后，类将它们存储为对象属性。稍后，类构建一个列表，在每个项中包含状态模型sarimax的一组参数。然后，将这些项中的每一项传递给类sarimax方法，以拟合模型。每个模型存储在列表中，以便根据用户选择的评分方法进行以后的选择。在类中构建的sarimax方法通过对象属性(self.df_train)访问训练集。为了并行地训练每一组参数，我调用spark如下所示： spark = SparkSession.builder.getOrCreate() sca = spark.s

浏览 1提问于2019-11-25得票数 1

1回答

为什么在Spark中报告LDA模型的日志困惑如此缓慢？

、、

我正在使用OnlineLDAOptimizer来拟合Spark中的LDA模型。在9M个文档(Tweet)上安装10个主题只需200秒钟。 val numTopics=10 val lda = new LDA() .setOptimizer(new OnlineLDAOptimizer().setMiniBatchFraction(math.min(1.0, mbf))) .setK(numTopics) .setMaxIterations(2) .setDocConcentration(-1) // use default symmetric document-topic pr

浏览 1提问于2015-12-08得票数 1

2回答

Spark中的尺寸失配误差

、、、、

我对ML和Spark都很陌生，我试图用神经网络和Spark建立一个预测模型，但是当我在我的学习模型上调用.transform方法时，我会得到这个错误。这个问题是由OneHotEncoder的使用引起的，因为没有它，一切都很好。我已经试着把OneHotEncoder从管道里拿出来了。我的问题是:如何使用OneHotEncoder而不获取此错误？ java.lang.IllegalArgumentException: requirement failed: A & B Dimension mismatch! at scala.Predef$.require(Predef.scala

浏览 3提问于2017-02-17得票数 5

回答已采纳

1回答

为什么Spark输出标签与培训数据不同？

、、、、

我在 (1.5.1版)中使用分类器来预测某些文本类别。但是，分类器输出的标签与我的培训集中的标签不同。我做错了吗？下面是一个可以粘贴到Zeppelin笔记本中的小例子： import org.apache.spark.ml.Pipeline import org.apache.spark.ml.classification.NaiveBayes import org.apache.spark.ml.feature.{HashingTF, Tokenizer} import org.apache.spark.mllib.linalg.Vector import org.apache.spark

浏览 4提问于2015-11-14得票数 5

回答已采纳

1回答

用于实时分析的Apache火花(MLLib)

、、

我有几个与使用Java进行实时分析的Apache有关的问题。当Spark应用程序提交时，存储在Cassandra数据库中的数据将通过机器学习算法(支持向量机)加载和处理。当新的数据到达时，在Spark的流扩展过程中，它们被持久化在数据库中，对现有的数据集进行重新训练，并执行支持向量机算法。此进程的输出也存储在数据库中。 Apache的MLLib提供了线性支持向量机的实现。如果我想要一个非线性支持向量机实现，我应该实现自己的算法还是可以使用现有的库，如libsvm或jkernelmachines？这些实现不是基于Spark的RDD，是否有一种不使用RDD集合从头实现该算法的方法？如果不是，这

浏览 0提问于2014-06-24得票数 7

1回答

减少Apache spark作业/应用程序的运行时间

、、

我们试图实现一个简单的spark作业，它读取CSV文件(1行数据)，并使用预先构建的随机森林模型对象进行预测。此工作不包括任何数据预处理或数据操作。我们以独立模式运行spark，应用程序在本地运行。配置如下: RAM: 8GB内存:40 40GB。内核:2 Spark版本: 1.5.2 Scala版本: 2.10.5输入文件大小: 1KB (1行数据)模型文件大小: 1,595 KB (400棵树随机林) 目前，火花提交的实现大约需要13秒。但是，运行时对此应用程序来说是一个非常重要的问题。是否有一种方法来优化代码，使运行时缩短到1或2秒？(高度优先) 我们注意到，在启动和设置上下

浏览 5提问于2016-02-26得票数 3

1回答

例外：“字段”标签不存在火花

、

我想应用KNN算法。我有两个专栏：id和features > KNN.printSchema root |-- id: int (nullable = true) |-- features: double (nullable = true) 把我的数据分成训练和测试 val training = spark.read.parquet("/usr/local/spark/dataset/data/user") val df = training.map(r => (Vectors.dense(r.getAs[Seq[Double]]("features

浏览 0提问于2020-01-24得票数 0

2回答

如何将非常大的火花放电数据转换成熊猫？

、、、、

我想转换一个非常大的火花放电数据为熊猫，以便能够将它分成火车/测试熊猫框架的滑雪随机森林回归器。我在星火3.1.2的数据库里工作。数据集的形状为(782019,4242)。在运行以下命令时，根据堆栈跟踪，内存不足。 dataset_name = "dataset_path" dataset = spark.read.table(dataset_name) dataset_pd = dataset.toPandas() 22/01/31 08:06:32 WARN TaskSetManager: Lost task 2.2 in stage 16.0 (TID 85

浏览 14提问于2022-01-31得票数 1

1回答

如何在databricks集群上高效地运行非spark模型训练任务(使用fasttext)？

、、、、

我想使用fasttext训练一些模型，因为它不使用spark，所以它将在我的驱动程序上运行。将同时运行的训练作业的数量非常大，数据的大小也是如此。有没有办法让它在不同的工作者上运行，或者在不同的工作者之间分发？这是最好的方法，还是使用大型单节点集群更好？仅供参考，我正在使用Databricks。因此，特定于此的解决方案也是可以的。

浏览 28提问于2021-11-12得票数 2

1回答

用于“`TFNerDLGraphBuilder()”的libraryDependencies用于Scala星火

、、、、

有谁能说出libraryDependencies对于TFNerDLGraphBuilder()和Scala来说是什么？这给了我错误，Cannot resolve symbol TFNerDLGraphBuilder 我认为它适用于笔记本电脑，如下所示 https://github.com/JohnSnowLabs/spark-nlp-workshop/blob/master/tutorials/Certification_Trainings/Public/4.NERDL_Training.ipynb

浏览 5提问于2022-11-22得票数 0

回答已采纳

1回答

H2O起泡水建筑

、

我有一个木星笔记本连接到一个闪闪发光的水实例，运行在一个Hadoop星系团。这是我对处理方式的假设：将笔记本中的用户代码提交给运行中的“闪闪发光水”实例。 “闪闪发光的水”将其翻译成使用Spark命令。它作为星火作业提交到群集。 Spark像执行其他作业一样执行它。我说的对吗？它是这样工作的吗？我想要解释的更大的主题是，distributed是否以分布式的方式运行H2O算法并利用可用的集群资源。

浏览 1提问于2018-04-06得票数 0

回答已采纳

1回答

使用Apache，如何转换(用于预测)没有标签的数据集？

、、

我确信我已经在理解Spark的管道方面出现了一个空白。我有一个对一组数据进行训练的管道，其中有一个模式为“标签”、“注释”(两个字符串)。我的管道转换" label "，添加"indexedLabel"，然后通过标记将“注释”矢量化，然后用"vectorizedComment“结束管道(以”vectorizedComment“结尾)该管道以LogisticRegression、标签列"indexedLabel”和功能列“vectorizedComment”结束。而且效果很好！我可以适应我的管道，并得到一个管道模型，转换数据集与“标签”，“评论

浏览 0提问于2018-08-07得票数 3

回答已采纳

2回答

Apache火花梯度增强树训练运行的缓慢性能

、、、

我正在从Spark1.4的ML库中试验学习算法。我正在解决一个二元分类问题，我的输入是大约50,000个样本和50万个特征。我的目标是以人类可读的格式输出GBT集成的定义。到目前为止，我的经验是，对于我的问题大小，向集群添加更多的资源似乎对运行的长度没有影响。10次迭代训练大概需要13小时。这是不可接受的，因为我想要运行100到300次迭代，而且执行时间似乎会随着迭代次数的增加而爆炸。我的星火申请这不是确切的代码，但可以简化为： SparkConf sc = new SparkConf().setAppName("GBT Trainer") // u

浏览 5提问于2015-09-21得票数 17