BlockManager进程的Spark连接被拒绝_运行多个进程时MySQL连接被拒绝_Spark EC2连接被拒绝 - 腾讯云开发者社区

mysql、apache-spark、jdbc、mysql-connector、tidb

在使用TIDB通过Spark连接到mysql-connector-java 5.1.6 connector时获取以下错误。请注意，我使用并行连接选项创建了jdbc连接，其中我们指定了列名、下限、上限和分区数。 Spark然后将其分解为(分区数目)查询，将列名的下限和上界划分为相同的大小。 java.sql.SQLException: other error: request outdated. at com.mysql.jdbc.SQLError.createSQLException(SQLError.java:1055) at com.mysql.jdbc.SQLError.createS

浏览 2提问于2018-10-05得票数 0

回答已采纳

1回答

NettyBlockTransferService不尊重spark.blockManager.port配置

apache-spark、hadoop、hadoop-yarn

我在运行星火2.4.4。在纱线上。NodeManagers上的火花配置如下所示： spark-defaults.conf: spark.driver.port=38429 spark.blockManager.port=35430 spark.driver.blockManager.port=44349 当创建火花驱动程序和执行器时，它们会选择驱动端口(38429)配置，而不是blockManager (35430) / driver.blockManager (44349)配置。blockManager端口被随机分配司机： 14:23:40 INFO spark.SparkContext:

浏览 4提问于2020-03-26得票数 2

1回答

错误:调用fit()函数时，“Python未能连接”

apache-spark、pyspark

我正在尝试为文本分类训练一个ANN： mlp = MultilayerPerceptronClassifier(maxIter=10, layers=[5,3], blockSize=128, seed=123) model_stacking = mlp.fit(input_vector.select(['features', 'label'])) preditions_foo = model_stacking.transform(validation) predition = evaluator.evaluate(preditions_foo) 当应用fit(

浏览 2提问于2019-06-27得票数 1

1回答

org.apache.spark.util.SerializableConfiguration提供java.lang.ClassCastException:在从检查点恢复时不能强制转换java.lang.ClassCastException

apache-spark、serialization、spark-streaming、broadcast、checkpointing

我正面临一个火花流工作的问题，我试图使用广播，mapWithState和检查点在火花。以下为用法：由于我必须将某些连接对象(不是可序列化的)传递给执行程序，所以我使用的是org.apache.spark.broadcast.Broadcast 由于我们必须维护一些缓存信息，所以我使用的是有状态流和mapWithState。此外，我还使用流上下文的检查点。我还需要将广播连接对象传递到mapWithState，以便从外部源获取一些数据。当新创建上下文时，流运行得很好。但是，当我使应用程序崩溃并试图从检查点恢复时，我会得到一个ClassCastException。我已

浏览 5提问于2017-08-01得票数 3

1回答

火花2.0:星星之火-信息理论-特性选择java.lang.NoSuchMethodError: breeze.linalg.DenseMatrix

apache-spark、hadoop、hadoop-yarn、feature-selection、spark-packages

我试图使用InfoGain第三方()软件包的MRMR功能.但是我的集群是2.0，我得到了这个异常。即使我添加了所有必需的Jar文件来激发类路径。但它仍然不起作用。虽然它在本地机器上正常工作，但不在集群上工作。例外： 18/03/29 01:16:43 WARN TaskSetManager: Lost task 3.0 in stage 14.0 (TID 47, EUREDWORKER3): java.lang.NoSuchMethodError: breeze.linalg.DenseMatrix$.canMapValues(Lscala/reflect/ClassTag;)Lbreez

浏览 0提问于2018-03-28得票数 0

回答已采纳

1回答

我如何配置纱线地址的纱线-客户模式在火花？

scala、apache-spark

从远程scala程序中，使用Spark1.3，如何初始化sparkContext，以便能够连接到运行在纱线上的Spark？也就是说，我应该把纱线节点的地址放在哪里？目前，我的程序包括： val conf = new SparkConf().setMaster("yarn-client").setAppName("MyApp") val sc = new SparkContext(conf) 它会产生 [error] (run-main-0) java.lang.ExceptionInInitializerError java.lang.Exceptio

浏览 3提问于2015-05-18得票数 0

回答已采纳

1回答

pyspark，在大型RDD中寻找最大值？

apache-spark、pyspark

我想出了四种方法来解决这个问题，但没有一种方法对大型RDD有效，我希望有人能帮我解决。我有一个格式为((x，y)，( sim，sim'))的Spark RDD，其中x和y是两个索引，sim和sim‘是x和y的两个不同的相似性度量。我有兴趣寻找具有最大sim’值的元组。我想出了几种方法来做到这一点，但每种方法都有自己的问题，最终这些方法都不能应用于大型RDD，例如10亿个元组的RDD。假设res_dict是((x，y)，(sim，sim'))元组的RDD，当在pyspark中调用res_dict.collect()时，它返回[((0, 4), (0.8448286521635

浏览 0提问于2016-10-14得票数 2

1回答

阿帕奇火花-卡桑德拉番石榴不相容

apache-spark、cassandra、spark-cassandra-connector

我正在使用Apache 2.1.0、Apache连接器2.0.0-M3和Cassandra驱动程序核心3.0.0，当我试图执行该程序时，我得到了以下错误： 17/01/19 10:38:27 WARN TaskSetManager: Lost task 1.0 in stage 1.0 (TID 5, 10.10.10.51, executor 1): java.lang.NoClassDefFoundError: Could not initialize class com.datastax.driver.core.Cluster at com.datastax.spark.conn

浏览 0提问于2017-01-19得票数 1

回答已采纳

1回答

找偏移量后，群主题分区记录有误

apache-kafka、spark-streaming

我正在使用Spark Streaming，当它试图流式传输一个主题时，我突然收到了这条消息。如何跳过此错误？ Caused by: java.lang.AssertionError: assertion failed: Got wrong record for GROUP TOPIC 109 even after seeking to offset 754809 at scala.Predef$.assert(Predef.scala:170) at org.apache.spark.streaming.kafka010.CachedKafkaConsumer.get(CachedKafkaC

浏览 0提问于2018-06-25得票数 1

1回答

阻塞推流线程出错: Kafka Spark streaming

apache-spark、apache-kafka、spark-streaming

运行kafka consumer时出现以下错误： ERROR receiver.BlockGenerator: Error in block pushing thread java.io.NotSerializableException: org.jnetpcap.packet.PcapPacket at java.io.ObjectOutputStream.writeObject0(ObjectOutputStream.java:1183) at java.io.ObjectOutputStream.defaultWriteFields(ObjectOutputStream.

浏览 1提问于2014-12-28得票数 2

1回答

火花广播失败了

apache-spark

我是很新的火花，并试图过滤一个RDD的基础上，另一个，如描述的。我的过滤器数据在S3中的CSV文件中。这个CSV文件是1.7GB，有100 m行。每一行都有一个独特的10个字符长的id。我的计划是将这些is从这个CSV文件中提取到内存集中，然后广播这个集合并使用它过滤另一个RDD。我的代码如下所示： val sparkContext: SparkContext = new SparkContext() val filterSet = sparkContext .textFile("s3://.../filter.csv") // this is the 1.7GB c

浏览 0提问于2018-09-11得票数 2

1回答

从文件中读取图形

scala、apache-spark、spark-graphx、sparklyr

希望在我的Windows机器上运行一个GraphX示例，使用SparklyR安装Hadoop/Spark的SparklyR。首先可以从安装目录启动shell： start C:\\Users\\eyeOfTheStorm\\AppData\\Local\\rstudio\\spark\\Cache\\spark-2.0.0-bin-hadoop2.7\\bin\\spark-shell 输出： 17/01/02 12:21:04 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... u

浏览 3提问于2017-01-02得票数 0

回答已采纳

1回答

org.apache.parquet.column.values.dictionary.PlainValuesDictionary$PlainDoubleDictionary GCP UnsupportedOperationException：

apache-spark、pyspark、parquet、unsupportedoperation、google-bucket

我是新来的火种，所以希望有人能帮忙。我试图读取存储在GCP桶上的拼板文件。该文件按日期进行分区，因此，例如bucket-name/year={}/month={}/day={} 对于给定的文件，我们有以下模式描述：直到3月份，我们以前在浮动数据类型中使用x和y列。 3月份以来，这2列现在都是双数据类型的。从我所看到的来看，吡火花在评估浮点数方面没有任何问题，而双数据类型是兼容的数据类型。(我在网上发现的类似的错误示例与数据类型不兼容有关，例如字符串和浮点数)，但是，如果我们试图读取该文件的所有可用数据，就会遇到这个奇怪的问题： #i.e. read all the data

浏览 4提问于2021-06-09得票数 0

1回答

Apache Spark Java设置内存大小

java、apache-spark、intellij-idea、apache-spark-sql

我已经在网上寻找了很长一段时间的解决方案，但一无所获。我正在尝试在客户端节点中运行Spark Job (通过Intellj构建和运行)。由于某些原因，我无法在Spark会话中设置目录内存(似乎在客户端模式下，内存是在JVM启动之前分配的)。我的虚拟机有20G的RAM，但当内存达到5G时，Spark作业就被终止了，这大致是分配给驱动程序的默认内存大小。有一些解决方案建议通过spark-submit运行作业。但是出于Java版本相似性的原因，我不能这样做。也有关于尝试修改spark\conf\spark-defaults.conf下的配置文件的建议，但它对我也不起作用。有没有人有同样的情况，并能够

浏览 28提问于2020-05-09得票数 0

1回答

org.elasticsearch.hadoop.rest.EsHadoopRemoteException: search_context_missing_exception:没有找到id的搜索上下文

scala、apache-spark、elasticsearch、elasticsearch-spark

由于“没有找到id的搜索上下文”，星火任务正在失败。我试了几个选择，比如 spark.es.input.max.docs.per.partition 250 spark.es.scroll.size 100 spark.es.batch.size.bytes 32 但任务仍在失败。我们使用的是：Spark版本: 2.3.1，Elasticsearh集群版本: 6.5.4，elasticsearch版本: 6.5.4 org.elasticsearch.hadoop.rest.EsHadoopInvalidRequest: org.elasticsearch.hadoop.rest.Es

浏览 2提问于2019-01-06得票数 3

2回答

星星之火-sql读取单元表失败

apache-spark、hadoop、hive

我希望通过hive连接将整个hive表加载到火花内存中。并且已经在我的项目中添加了hive-site.xml，hdfs-site.xml。由于成功获得列名(eg.role_id)，已连接的星星之火。但是spark似乎将列名加载为数据，并抛出异常。这是我的代码： val df = spark.read.format("jdbc") .option("driver", CommonUtils.HIVE_DIRVER) .option("url", CommonUtils.HIVE_URL) .option("dbtable"

浏览 0提问于2018-08-09得票数 0

1回答

火花流作业在运行约1小时后死亡

java、apache-spark、apache-kafka、spark-streaming

我有一个火花流的工作，从gnip读取推特流，并将它写到Kafak。星火和卡夫卡是在同一个集群上运行的。我的集群由5个节点组成。卡夫卡-B01.卡夫卡-B05 星火大师正在卡法克-B05上运行。下面是我们提交火花作业的方法 nohup sh $SPZRK_HOME/bin/spark提交--总计-执行器-核心5-级com.test.java.gnipStreaming.GnipSparkStreamer -主火花:// kafka-b05 :7077 GnipStreamContainer.jar powertrack kafka-b01，kafka-b02，kafka-b03，kafka

浏览 0提问于2016-04-24得票数 3

回答已采纳

1回答

缓存Rdd时从另一个火花节点获取块时出错

apache-spark、cassandra、cassandra-3.0、spark-cassandra-connector

我正在尝试使用Cassandra 3.9从中获取数据。我有多个使用相同数据的火花(1.6)作业。因此，我使用以下代码缓存它。火花代码: sc.parallelize(partitions, 2*sc.defaultParallelism).map(x => new Partition(x)).joinWithCassandraTable("KEYSPACE","COLUMNFAMILY").on(SomeColumns("partitionkey")).select("partitionkey", "cook

浏览 4提问于2016-12-13得票数 1

回答已采纳

1回答

SnappyData : java.lang.OutOfMemoryError:超过GC开销限制

apache-spark、caching、garbage-collection、gemfire、snappydata

我在S3上有1.2GB的orc数据，并且我试图用相同的方法执行以下操作： 1)缓存snappy集群snappydata 0.9上的数据 2)在缓存的数据集上执行groupby查询 3)与Spark2.0.0的性能比较。我使用的是64 GB/8核心计算机，Snappy集群的配置如下所示： $ cat locators localhost $cat leads localhost -heap-size=4096m -spark.executor.cores=1 $cat servers localhost -heap-size=6144m localhost -heap-size=6144m

浏览 3提问于2017-10-04得票数 1

回答已采纳

1回答

在快活的工作中随机获得java.lang.ClassCastException

apache-spark-sql、snappydata

用Scala编写的快速作业异常中止: java.lang.ClassCastException: com.$Class1不能强制转换为com.$Class1。 Class1是存储在RDD中的自定义类。有趣的是，这个错误是在强制转换同一个类时抛出的。到目前为止，还没有发现任何模式。在工作中，我们从hbase获取数据，使用Dataframe使用分析元数据丰富数据，并将其推送到SnappyData中的表中。我们使用的是Snappydata 1.2.0.1。不确定为什么会发生这种情况。下面是堆栈跟踪:由于阶段故障而中止的作业:阶段42.0中的任务76失败了4次，最近一次失败:阶段42.0中丢失

浏览 14提问于2019-01-18得票数 0

回答已采纳

1回答

当调用我的函数时，pyspark会失败

python-3.x、pyspark、spark-streaming、stateful、dstream

我只是试着运行statefu的示例代码，但是它失败了。无法了解为什么会发生这种情况。在cloudera vm 5.13.3上使用3.6 python火花2.3 运行选项： --master local[*] --queue PyCharmSpark pyspark-shell 我的代码是： from pyspark import SparkConf, SQLContext from pyspark.sql import SparkSession from pyspark.streaming import StreamingContext from pyspark.sql.functions

浏览 2提问于2018-08-27得票数 0

1回答

如何从objectFile加载spark graphx

apache-spark、spark-graphx

在spark-shell中，我像这样运行我的代码： import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.graphx.{Edge, Graph, GraphLoader, VertexId} import org.apache.spark.rdd.RDD import org.apache.spark.streaming.{Seconds, StreamingContext} val users: RDD[(VertexId, Map[String, String])] = sc.pa

浏览 17提问于2017-06-23得票数 1

1回答

作业始终失败，错误信息隐晦："org.xerial.snappy.SnappyIOException：[EMPTY_INPUT]不能解压空流“--如何调试？

python、apache-spark、pyspark

我使用的是pyspark 2.4.0，一个大型作业一直在使用以下错误消息(无论是保存到拼板时还是试图收集结果时)： py4j.protocol.Py4JJavaError:调用o2495.collectToPython时发生了错误。：：org.apache.spark.SparkException:由于阶段失败而中止作业: 290.0阶段的任务184失败4次，最近的失败: 290.0阶段的任务184.3失败(TID 17345，53.62.154.250，执行者5)：org.xerial.snappy.SnappyInputStream.readHeader(SnappyInputStrea

浏览 0提问于2019-03-04得票数 4

2回答

星火BlockManager在本地主机上运行

apache-spark

我有一个简单的脚本文件，我试图在模拟教程的星火壳中执行。 import org.apache.spark.SparkConf import org.apache.spark.SparkContext sc.stop(); val conf = new SparkConf().setAppName("MyApp").setMaster("mesos://zk://172.24.51.171:2181/mesos").set("spark.executor.uri", "hdfs://172.24.51.171:8020/spark-1.

浏览 6提问于2015-04-08得票数 4

回答已采纳

1回答

在包含join的Sparkjob中超出了GC开销限制

scala、apache-spark、apache-spark-2.0

我正在写一份spark工作，根据学生日期过滤最新的学生记录。但当我尝试使用数十万条记录时，它工作得很好。但是，当我使用大量记录运行它时，我的sparkjob返回下面的错误。我猜这个错误是因为我从表中加载了所有数据并将int放入了RDD中。因为我的表包含大约420万条记录。如果是这样的话，有没有更好的方法来有效地加载这些数据并成功地继续我的操作？请任何人帮我解决这个问题 WARN TaskSetManager: Lost task 0.0 in stage 1.0 (TID 1, 10.10.10.10): java.lang.OutOfMemoryError: GC overhead li

浏览 22提问于2017-03-10得票数 1

2回答

从EMR写入DSE图形

apache-spark、amazon-emr、datastax-enterprise-graph

我们正在尝试从EMR写入DSE图(cassandra)，并不断收到这些错误。我的JAR是一个带有byos依赖项的阴影jar。任何帮助都将不胜感激。 java.lang.UnsatisfiedLinkError: org.apache.cassandra.utils.NativeLibraryLinux.getpid()J at org.apache.cassandra.utils.NativeLibraryLinux.getpid(Native Method) at org.apache.cassandra.utils.NativeLibraryLinux.callGetpi

浏览 20提问于2019-04-26得票数 0

1回答

如何以编程方式获得正在运行的星火任务的火花作业ID？

apache-spark、pyspark、apache-spark-sql、databricks

在Spark中，我们可以使用以下方法以编程方式获取任务中的Spark应用程序ID： SparkEnv.get.blockManager.conf.getAppId 我们可以使用以下方法获得正在运行的任务的阶段ID和任务尝试ID： TaskContext.get.stageId TaskContext.get.taskAttemptId 是否有任何方法获取与正在运行的任务相关联的火花作业Id (最好使用TaskContext或SparkEnv)？

浏览 4提问于2022-01-31得票数 1

3回答

为什么Spark分区对HDFS有2GB的限制？

scala、apache-spark、rdd

在使用mllib RandomForest训练数据时，我得到了一个错误。因为我的数据集很大，并且默认分区相对较小。因此抛出的异常指示“大小超过Integer.MAX_VALUE”，原始堆栈跟踪如下所示， 15/04/16 14:13:03警告scheduler.TaskSetManager:阶段6.0中丢失的任务19.0 (TID 120，10.215.149.47)：java.lang.IllegalArgumentException:大小超过Integer.MAX_VALUE 在sun.nio.ch.FileChannelImpl.map(FileChannelImpl.java:828

浏览 5提问于2015-04-17得票数 16

回答已采纳

1回答

火花流: java.lang.OutOfMemoryError: Java堆空间

python、apache-spark、spark-streaming

我试图运行一个用python编写的简单的星火流作业： #!/usr/bin/env python from pyspark import SparkContext, SparkConf from pyspark.streaming import StreamingContext conf = SparkConf() conf.setMaster("spark://master1:7077,master2:7077") sc = SparkContext(conf=conf) ssc = StreamingContext(sc, 1) ssc.socketTextStream

浏览 2提问于2016-02-01得票数 0

1回答

Apache火花错误，未找到克隆Python环境

azure、apache-spark、databricks、azure-databricks

我正在尝试将拥抱脸升级到我们目前的版本2.11。当我通过pip安装transformers=={任意版本}在azure笔记本中安装任何较新版本的转换器时，我在执行过程中会收到以下错误。我对此非常陌生，但是任何关于故障排除方法的反馈都将不胜感激。谢谢。 org.apache.spark.SparkException: Cloned Python environment not found at /local_disk0/.ephemeral_nfs/envs/pythonEnv-89bc8046-d7ae-4968-b280-fc233a9bf3e4 at org.apache.spark.ap

浏览 7提问于2021-08-23得票数 0

回答已采纳

1回答

星星之火中的Storagelevel MEMORY_AND_DISK_2()抛出异常

java、apache-spark

任何人都能解释rdd的存储级别是如何工作的. 当我使用具有存储级别的持久化方法(StorageLevel.MEMORY_AND_DISK_2())时，我得到了堆内存错误，但是当我使用缓存方法时，我的代码工作得很好。按照spark文档缓存，使用默认存储级别(MEMORY_ONLY)持久化RDD。我的代码，在那里我得到堆错误 JavaRDD<String> rawData = sparkContext .textFile(inputFile.getAbsolutePath()) .setName(

浏览 3提问于2015-05-06得票数 3

回答已采纳

1回答

使用元组时激发java.lang.NullPointerException

scala、apache-spark、spark-graphx

我正在使用GraphX API来构建一个图形，并使用Pregel进行处理。如果从vprog函数返回参数元组，则不会发生错误，但如果使用相同的元组返回新元组，则会得到空点错误。以下是相关代码： val verticesRDD = cleanDtaDF.select("ChildHash", "DN").rdd.map(row => (row(0).toString.toLong, (row(1).toString.toDouble,row(0).toString.toLong))) val edgesRDD = (rawDtaDF.select("

浏览 0提问于2018-03-11得票数 0

回答已采纳

2回答

Postgresql UUID[]到Cassandra:转换错误

scala、apache-spark、cassandra、apache-spark-sql、spark-cassandra-connector

它给了我java.lang.ClassCastException：[Ljava.util.UUID；不能投给[Ljava.lang.String；我的工作是从一个包含PostgreSQL类型列的user_ids uuid[]表中读取数据，所以当我试图保存user_ids uuid[]上的数据时，会得到上面的错误。但是，在Cassandra上创建相同的表很好！user_ids list<text>。我无法更改源表的类型，因为我正在读取遗留系统中的数据。我一直在看日志上打印的点，在org.apache.spark.sql.execution.datasources.jdbc.J

浏览 1提问于2017-09-26得票数 0

1回答

火花GraphX :需求失败:初始容量无效

scala、apache-spark、spark-graphx

斯派克，斯卡拉，我是新手。我试图在这个数据集中执行三角计数：做一个业余项目这是我到目前为止编写的代码： import org.apache.spark.SparkConf import org.apache.spark.SparkContext import org.apache.spark.graphx.Edge import org.apache.spark.graphx.Graph import org.apache.spark.graphx.Graph.graphToGraphOps import org.apache.spark.graphx

浏览 4提问于2016-10-31得票数 1

回答已采纳

2回答

火花总是移除RDD

apache-spark

我已经停止了对Spark的数据输入，但是我仍然可以看到Spark保持着删除RDD，如下所示： 15/07/30 10:03:10 INFO BlockManager: Removing RDD 136661 15/07/30 10:03:10 INFO BlockManager: Removing RDD 136662 15/07/30 10:03:10 INFO BlockManager: Removing RDD 136664 15/07/30 10:03:10 INFO BlockManager: Removing RDD 136663 我搞不懂为什么即使没有生成新的数据和RDD，gen

浏览 0提问于2015-07-30得票数 3

回答已采纳

3回答

在本地运行的Apache给出拒绝的连接错误

hadoop、apache-spark

我已经在OS X上安装了Spark和Hadoop。我成功地完成了一个示例，其中Hadoop在本地运行，将文件存储在HDFS中，然后运行spark spark-shell --master yarn-client 并且在shell中与HDFS一起工作。但是，我在没有HDFS的情况下，试图让Spark运行，只是在我的机器上本地运行，我遇到了问题。我看了，但是当说在一台机器上本地运行很容易--您只需要在系统路径上安装java，或者安装指向Java安装的JAVA_HOME环境变量。如果运行基本的SparkPi示例，就会得到正确的输出。如果我尝试运行示例Java应用程序，再次获得输出，但是

浏览 0提问于2015-07-31得票数 11

回答已采纳

2回答

星火error:java.lang.IllegalArgumentException:大小超过Integer.MAX_VALUE

scala、apache-spark、machine-learning

我试图计算负样本的数量，如下所示： val numNegatives = dataSet.filter(col("label") < 0.5).count 但我得到的大小超过了Integer.MAX_VALUE错误： java.lang.IllegalArgumentException: Size exceeds Integer.MAX_VALUE at sun.nio.ch.FileChannelImpl.map(FileChannelImpl.java:869) at org.apache.spark.storage.DiskStore$$anonfu

浏览 0提问于2018-04-13得票数 0

回答已采纳

2回答

Greenplum Spark Connector org.postgresql.util.PSQLException:错误:将数据写入gpfdist时出错

scala、azure、apache-spark、greenplum

我在Azure上有一个Greenplum集群，我正尝试从本地计算机使用spark连接到该集群(使用Pivotal Greenplum Spark Connector)。我在我的scala代码中做了这样的事情： var options = Map[String, String]() options += ("url" -> url) options += ("user" -> credential("user")) options += ("password" -> credential("passwo

浏览 134提问于2020-03-25得票数 0

2回答

sparkMLlib MinHashLSH必须至少有一个非零条目执行？

apache-spark-mllib

我想用Spark MLlib提供的MinHash模型找到重复的文章，然后我遇到了一个异常：“必须至少有1个非零条目。” 我相信它是由val featurizedData = mh.transform(tmp).cache()触发的。但我真的不明白哪里出了问题。代码： val data = spark.read.format("jdbc"). option("url", "jdbc:mysql://localhost/test"). option("dbtable", "article"). opt

浏览 0提问于2018-09-14得票数 1

1回答

火花1.5.2:无法持久化广播到磁盘的工作人员

apache-spark

我有一个长时间运行的过程，它针对一个具有两个工作节点的独立星火集群执行星火作业。最初，工作完成成功，但似乎在一两天后，一些工作将开始失败。所有失败的作业都是在同一个工作人员上分阶段运行的失败的结果，后者记录了stderr日志的以下顺序和异常： 16/05/04 21:07:53 INFO MemoryStore: ensureFreeSpace(2273) called with curMem=988397261, maxMem=1159641169 16/05/04 21:07:53 INFO MemoryStore: Block broadcast_259_piece0 stored as

浏览 2提问于2016-05-04得票数 0

回答已采纳

2回答

星星之火不能系列化

scala、spark-streaming

我的程序员一开始就正常运行。当我添加火花BloomFilter时，我的程序员在执行了几个批后用Could not serialize lambda失败了。我尝试了registerKryo，但也失败了，我该怎么办，谢谢。 conf.registerKryoClasses(Array( Class.forName("org.apache.spark.util.sketch.BloomFilterImpl"), Class.forName("org.apache.spark.util.sketch.BloomFilter"), Cl

浏览 4提问于2020-09-01得票数 0

1回答

如何处理"OverflowError: size不适合于int“错误？

python、scala、apache-spark、pyspark、apache-spark-sql

我正在运行一个星火作业，如果我对示例数据执行我的计算(请考虑大约1000行)，那么一切都可以工作。但是，当我试图在更大的数据集上执行相同的计算时，我得到 19/07/20 14:21:53 WARN TaskSetManager: Lost task 198.0 in stage 150.0 (TID 21928, 10.46.225.176, executor 17): org.apache.spark.api.python.PythonException: Traceback (most recent call last): File "/databricks/spark/py

浏览 0提问于2019-07-20得票数 2

回答已采纳

1回答

RDD.count上的apache

scala、apache-spark、rdd、amazon-emr

我在AWS EMR中使用Spark，并尝试将数据从DB加载到RDD中。但是，一旦加载了数据，并且经过了非常基本的转换，我尝试在新创建的RDD上运行RDD.count()来输出RDD中的记录数量，在这里我遇到了一个异常，它的堆栈跟踪显示在控制台和下面的引号中。首先，我在Zeppelin中遇到了这个错误，但后来我在spark-shell中尝试了一下(我想可能是某些类路径的设置有误)，但还是得到了同样的错误。输出如下： Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __

浏览 12提问于2020-10-18得票数 0

1回答

Spark错误:读取大型压缩文件时，java.lang.IllegalArgumentException:大小超过Integer.MAX_VALUE

apache-spark

我正在尝试使用Spark (在EMR上是2.1 )处理~500M的gz文件，我没有办法改变格式或将它们分割成更小的尺寸。其中一个执行程序失败，出现以下问题： java.lang.IllegalArgumentException: Size exceeds Integer.MAX_VALUE at sun.nio.ch.FileChannelImpl.map(FileChannelImpl.java:869) at org.apache.spark.storage.DiskStore$$anonfun$getBytes$2.apply(DiskStore.scala:103)

浏览 10提问于2017-05-21得票数 2

1回答

如何修复PySpark，jdk内存-issue？

apache-spark、ubuntu、pyspark、apache-spark-mllib

我似乎在使用PySpark的ML包时出现了内存问题。我正试图在4000万行数据帧上使用ALS.fit。使用JDK-11产生了错误： "java.lang.NoSuchMethodError: sun.nio.ch.DirectBuffer.cleaner()Lsun/misc/Cleaner" 它可以处理1300万行，所以我想这是一个内存清理问题。我使用java JDK-8进行了尝试，如下所示：，但我仍然遇到一个错误，因为堆内存不够:我得到了以下错误消息： "... java.lang.OutOfMemoryError: Java heap space ...&#

浏览 1提问于2019-07-01得票数 0

0回答

使用Sparkit-Learn的SparkCountVectorizer()时出现键入错误

python-3.x、apache-spark、scikit-learn、pyspark

我想使用对文本集合进行矢量化。我阅读了来自SQL Server的文本。我得到的是一个DataFrame，我将其转换为RDD (因为Sparkit-Learn不处理DataFrames)，然后将其转换为ArrayRDD。问题是，当我试图向量化ArrayRDD时，我得到了一个类型错误： from splearn.rdd import ArrayRDD from splearn.feature_extraction.text import SparkCountVectorizer jdbcDF = spark.read.format('jdbc').option('url&

浏览 5提问于2017-01-10得票数 1

回答已采纳

1回答

java.lang.NumberFormatException:输入字符串："inf“，读取Spark的雪花

apache-spark、snowflake-cloud-data-platform

我有一个Snowflake表，它有一个双精度的列。其中一个值是inf和-inf。当我尝试在Spark中读取该表时，作业失败，并显示以下错误： java.lang.NumberFormatException: For input string: "inf" at sun.misc.FloatingDecimal.readJavaFormatString(FloatingDecimal.java:2043) at sun.misc.FloatingDecimal.parseDouble(FloatingDecimal.java:110) at java.l

浏览 18提问于2020-02-12得票数 1

回答已采纳

2回答

无形体的NoSuchMethodError只在星火中看到

java、scala、apache-spark、shapeless

我正在尝试编写一个Spark连接器来从RabbitMQ消息队列中提取AVRO消息。解码AVRO消息时，只有在Spark中运行时才会出现NoSuchMethodError错误。我无法在星火之外完全复制星火代码，但我相信这两个例子非常相似。我认为这是复制相同场景的最小代码。我删除了所有的连接参数，因为信息是私有的，而且连接似乎不是问题。火花代码： package simpleexample import org.apache.spark.SparkConf import org.apache.spark.streaming.rabbitmq.distributed.RabbitMQDist

浏览 4提问于2017-03-02得票数 4

回答已采纳

1回答

当试图从点燃集群中获取数据时，火花作业将无限期地停留。

ignite、apache-spark-2.0

private static final ThreadLocal<IgniteClient> igniteClientContext = new ThreadLocal<>(); public static IgniteClient getIgniteClient(String[] address) { if(igniteClientContext.get() == null) { ClientConfiguration clientConfig = null; if(cfg == null) { cl

浏览 2提问于2020-06-23得票数 0

1回答

尝试将星星之火用户界面端口设置为范围，但它始终在随机数上运行。

apache-spark

我尝试设置火花ui端口为35000和最大重试200。但是当它运行时，它不使用35 use端口。它使用随机数端口。通过更改配置和使用代码(根据)，我尝试了这两种方法。有人知道这件事吗？这里是配置火花-defaults.conj.2： spark.master yarn spark.port.maxRetries 200 spark.ui.port 35000 spark.blockManager.port 36000 spark.driver.blockManager.port 37000 spark.driver.port 38000 这里是日志： -Dspark.ui.port=35

浏览 8提问于2022-01-28得票数 2