在java中使用Apache Spark Stream从节拍数据创建烛光数据_在Java中从spark数据集创建密集矩阵_在spark java API中从map创建数据帧 - 腾讯云开发者社区

、、、、

我按照的指令构建了一个程序，该程序接收从kafka发送的数据流作为输入，当我接收数据流时，我希望将它传递给SparkSession变量，以便使用Spark执行一些查询工作，因此我再次按如下方式扩展ForeachWriter类： package stream; import java.io.FileNotFoundException; import java.io.PrintWriter; import org.apache.spark.sql.ForeachWriter; import org.apache.spark.sql.SparkSession; import org.json.s

浏览 2提问于2021-06-14得票数 0

回答已采纳

1回答

如何使用java中的sparkSubmit更改hdfs中的用户

、、

我希望将hdfs中使用的用户更改为jvm中使用的用户，因为我有以下错误：流火花: org.apache.hadoop.security.AccessControlException:权限被拒绝: user=www，access=WRITE，node="/user/www/.sparkStaging/application_1460635834146_0012":hdfs:hdfs:drwxr-xr-x 我想把用户"www“改为另一个拥有写作许可的"joe”。(我没有"user/www“文件夹，但我有"user/joe”) 以下是我的ja

浏览 2提问于2017-02-15得票数 10

回答已采纳

1回答

Spark Streaming -从Kinesis读取时出错

、、

我是Apache Spark Streaming的新手。正在尝试构建Spark以从Kinesis Stream中读取值。这是我的python脚本 import settings from pyspark import SparkContext from pyspark.streaming import StreamingContext from pyspark.streaming.kinesis import KinesisUtils, InitialPositionInStream spark_context = SparkContext(master="local[2]"

浏览 1提问于2016-11-25得票数 0

1回答

Pyspark自定义接收器使用spark streaming读取mongo更改流日志

、、、、

最后我想使用spark streaming从mongodb change streamsLink中读取数据。这里想收集30秒转储，然后推入一些文件。我知道我可能需要编写一些自定义接收器(使用pyspark)来从相关的数据源接收数据，但我找不到任何讨论使用PYTHON的Spark Streaming的自定义接收器的文档。下面的文档链接也提到了使用java或scala。 http://spark.apache.org/docs/latest/streaming-custom-receivers.html 我使用简单的python代码从ChangeStreams读取数据，但它不能满足我的要求。

浏览 44提问于2021-04-16得票数 0

1回答

spark.table失败，返回java.io.Exception:没有适用于方案的FileSystem : abfs

、

我们有一个自定义的文件系统类，它是hadoop.fs.FileSystem的扩展。此文件系统的uri方案为abfs:/。已在此数据上创建了外部配置单元表。 CREATE EXTERNAL TABLE testingCustomFileSystem (a string, b int, c double) PARTITIONED BY dt STORED AS PARQUET LOCATION 'abfs://<host>:<port>/user/name/path/to/data/' 使用loginbeeline，我能够查询表，它将获取结果。现在，我尝试

浏览 0提问于2019-04-30得票数 6

4回答

来自Kafka的Spark流，并以Avro格式写入HDFS

、、、、

我基本上是想使用Kafka中的数据，并将其写入HDFS。但是发生的情况是，它没有在hdfs中写入任何文件。它会创建空文件。也请指导我，如果我想在hdfs中写avro格式，我可以如何修改代码。为了简单起见，我写入本地C驱动器。 import org.apache.spark.SparkConf import org.apache.kafka.common.serialization.StringDeserializer import org.apache.spark.SparkContext import org.apache.spark.streaming.Seconds import o

浏览 4提问于2017-10-08得票数 0

1回答

无法让S3A目录委员会在Spark3.0.0中写入文件

、

我们使用的是Spark3.0.0，我们试图使用新的S3a提交器( )和steveloughran在Spark中添加的新的S3A提交器写信给。我们使用的构建没有Hadoop (星火-3.0.0-宾-没有- Hadoop )，并提供我们自己的Hadoop(Hadoop3.2.1)。我最初面临的问题是，我们得到了一个没有发现org.apache.spark.internal.io.cloud.PathOutputCommitProtocol异常的类以下是完整的跟踪： py4j.protocol.Py4JJavaError: An error occurred while calling o1

浏览 10提问于2020-07-01得票数 1

回答已采纳

3回答

火花+ Kafka流NoClassDefFoundError kafka/串行化/字符串解码器

、、、、

我试着从我的卡夫卡制作人那里发送信息，并在火花流中播放。但是，当我在spark提交上运行我的应用程序时，我会得到以下错误。误差 Exception in thread "main" java.lang.NoClassDefFoundError: kafka/serializer/StringDecoder at com.spark_stream.Main.main(Main.java:37) at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) at su

浏览 3提问于2017-03-02得票数 2

回答已采纳

1回答

Twitter spark streaming:登录尝试次数过多

、、、

我正在运行apache提供的示例来流式传输tweet。但是，我无法获取任何数据，因为流API似乎一直在尝试连接到Twitter，从而导致以下跟踪： 2816 [Twitter Stream consumer / [1][initializing]]INFO twitter4j.TwitterStreamImpl - Establishing connection. 2927 [Twitter Stream consumer / [2][initializing]]INFO twitter4j.TwitterStreamImpl - Establishing connection.

浏览 15提问于2018-09-01得票数 0

回答已采纳

1回答

星星之火: IOException，日志记录期间关闭流

、、

我试图使用Spark来统计维基百科XML转储中锚文本的频率。输入/输出：投入:锚文本列表输出：(锚文本，频率)对的列表目前的解决办法是： anchor_texts.map( key => (key, 1) ).reduceByKey { case (acc, i) => acc + i } 所有的工作都没有成功。在检查了工作日志之后，我犯了以下错误： 15/12/17 17:28:33 ERROR FileAppender: Error writing stream to file /cs/work/home/hxiao/spark-rela

浏览 2提问于2015-12-15得票数 2

1回答

如何处理JSON文档(来自MongoDB)并在结构化流中写入HBase？

、、、

我正在获取mongoDB文档，然后在处理之后，我想使用Bson.Document库将其存储到Hbase中将流媒体方法从spark kafkastreaming改为结构化流媒体，因此早期使用kafkaUtils的方法产生了DstreamDocument 在结构化流媒体中，我得到了DatasetDocument scala> val stream = spark.readStream.format("kafka").option("kafka.bootstrap.servers","brokerList").option("subsc

浏览 15提问于2019-11-09得票数 2

1回答

Spark Kafka流媒体给出不兼容的Jackson异常

、、、、

这是我得到的错误： java.lang.ExceptionInInitializerError at org.apache.spark.streaming.dstream.InputDStream.<init>(InputDStream.scala:78) at org.apache.spark.streaming.kafka010.DirectKafkaInputDStream.<init>(DirectKafkaInputDStream.scala:62) at org.apache.spark.streaming.kafka010.Kafk

浏览 1提问于2017-02-04得票数 0

1回答

创建FlumeDStream java.net.BindException:无法分配请求地址时发生的纱线错误上的火花流

、、、、

我试图创建火花流从水槽推送的方法，.I正在运行火花在我的纱cluster.while启动流，它是无法绑定所要求的地址。我正在使用scala来执行程序，下面是我使用的代码 import org.apache.spark.streaming.StreamingContext import org.apache.spark.streaming.StreamingContext._ import org.apache.spark.streaming.Seconds import org.apache.spark.streaming.flume._ var ssc = new StreamingCont

浏览 0提问于2014-12-18得票数 1

1回答

在火花流中消费Kafka (Spark2.0)

、、、、

我发现在火花流(Spark2.0)中有两种使用Kafka主题的方法： 1)使用KafkaUtils.createDirectStream每k秒获取一次DStream，请参阅 2)使用kafka: sqlContext.read.format(“json”).stream(“kafka://KAFKA_HOST”)为Spark2.0的新特性创建一个无限DataFrame :结构化流，相关的文档方法1)工作，但2)不工作，我得到了以下错误 Exception in thread "main" java.lang.NoSuchMethodError: org.apache.spar

浏览 2提问于2016-07-25得票数 3

回答已采纳

1回答

Scala Spark流媒体kafka

、、

我已经在kafka中创建了一个示例主题，并尝试使用以下脚本使用spark中的内容： import org.apache.spark._ import org.apache.spark.streaming._ import org.apache.spark.streaming.kafka._ import org.apache.kafka.common.serialization.StringDeserializer import org.apache.spark.streaming.kafka010.LocationStrategies.PreferConsistent import

浏览 0提问于2018-09-15得票数 0

1回答

使用Apache Spark 2.2.1- java.lang.NoClassDefFoundError的Spark流: scala/xml/MetaData

、、、

我已经在java eclipse中创建了一个maven项目，并在pom.xml文件中添加了依赖项。 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"> <modelVers

浏览 9提问于2018-02-26得票数 0

1回答

为什么火花流查询失败java.util.concurrent.TimeoutException:期货超时后，[5分钟]

、、

我有一个从Azure Eventhubs到ADLS的流式查询流数据，每5秒一次，相同的流查询是1小时窗口的水印，有5分钟的水印延迟。代码： val rawStreamQuery = messages.writeStream.format("delta") .option("checkpointLocation", BASE_LOC + "checkpoint/" + RAW_SCHEMA_NAME + "/" + RAW_TASK_TABLE) .trigger(Trigger.ProcessingTim

浏览 2提问于2021-05-17得票数 1

1回答

java.lang.ClassNotFoundException:运行Scala MongoDB连接器时出现org.apache.spark.sql.DataFrame错误

、、、

我正在尝试使用SBT运行一个Scala示例来从MongoDB读取数据。每当我试图访问从Mongo读取到RDD的数据时，我都会得到这个错误。 Exception in thread "dag-scheduler-event-loop" java.lang.NoClassDefFoundError: org/apache/spark/sql/DataFrame at java.lang.Class.getDeclaredMethods0(Native Method) at java.lang.Class.privateGetDeclaredMethods(Class.java:27

浏览 17提问于2017-03-05得票数 3

回答已采纳

2回答

星火流异常: java.util.NoSuchElementException: None.get

、、、、

我通过将SparkStreaming数据转换为数据格式将其写入HDFS：码 object KafkaSparkHdfs { val sparkConf = new SparkConf().setMaster("local[*]").setAppName("SparkKafka") sparkConf.set("spark.driver.allowMultipleContexts", "true"); val sc = new SparkContext(sparkConf) def main(args: Arr

浏览 0提问于2018-06-22得票数 5

回答已采纳

1回答

使用sc.addFile()在spark中输入管道

、

使用sc.addFile(rscript)添加R脚本时，遇到以下错误。 java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries. at org.apache.hadoop.util.Shell.getQualifiedBinPath(Shell.java:278) at org.apache.hadoop.util.Shell.getWinUtilsPath(Shell.java:300) at org.apache.hadoop.util.Shell.<c

浏览 0提问于2017-04-11得票数 0

2回答

错误org.apache.kafka.clients.producer.KafkaProducer :java.io.NotSerializableException

与MS等外部源连接，并将表数据发布到Kafka。获取 java.io.NotSerializableException:org.apache.kafka.clients.producer.KafkaProducer误差请在船尾下面找到。 **CustomReceiver.sacla** package com.sparkdemo.app import org.apache.spark.storage.StorageLevel import org.apache.spark.streaming.receiver.Receiver import

浏览 0提问于2019-02-21得票数 0

1回答

无法使用Java运行JAR - Spark Twitter流

、、、、

我在Ubuntu中以独立模式运行Spark 2.4.3。我正在使用Maven创建JAR文件。下面是我试图运行的代码，它的目的是从Twitter流式传输数据。一旦Spark启动，Spark master将在127.0.1.1:7077。正在使用的java版本是1.8。 package SparkTwitter.SparkJavaTwitter; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.java.function.Voi

浏览 1提问于2019-11-11得票数 0

1回答

在apache中运行简单星火任务时出现异常

、

当我尝试在Apache中运行简单的spark命令时，我得到了InvocationTargetException。在下面您可以看到有两个任务尝试运行。两人都给了我同样的例外。齐柏林飞艇的Stacktrace： DEBUG [2017-02-22 10:14:34,351] ({Exec Stream Pumper} RemoteInterpreterManagedProcess.java[processLine]:189) - ERROR [2017-02-22 10:14:34,297] ({pool-2-thread-5} Utils.java[invokeMethod]:40) -

浏览 2提问于2017-02-22得票数 1

1回答

火花DirectStream问题

、、、

我正在尝试从Kafka创建一个Stream，但是在创建directStream对象时，我得到的错误如下：类型为createDirectStream的方法kafkaUtils不适用于(我正在传递的HashMap参数之一)。这一行的： JavaPairInputDStream directKafkaStream =directKafkaStream String.class，String.class，StringDecoder.class，StringDecoder.class，kafkaParams，this )；完整代码： package kafkatest2; import ja

浏览 3提问于2017-09-28得票数 1

回答已采纳

1回答

当我对jar文件进行细分时，来自Kafka的数据不会被打印在控制台中。(星火流+ Kafka集成3.1.1)

、、、

当我提交一个jar文件时没有错误。但是，当我使用HTTP协议发送数据时，不会打印数据。 (当我使用“kafka-console- well . is”检查数据时，数据打印得很好) 图片，提交了一个jar文件:数据没有打印 jar文件中的代码和依赖项如下所示。图片，卡夫卡-控制台-消费. is :数据打印指挥： bin/kafka-console-consumer.sh --bootstrap-server localhost:9092 --group test-consumer --topic test01 --from-beginning JAVA文件 2-1，属地 &

浏览 5提问于2021-05-04得票数 0

2回答

如何在pyspark中从kafka中以字符串格式从Confluent Schema Registry获取Avro数据？

、、、、

我正在从spark (结构化数据流)中读取Kafka中的数据，但在spark中从kafka中获取的数据不是字符串格式。火花: 2.3.4 Kafka数据格式： {"Patient_ID":316,"Name":"Richa","MobileNo":{"long":7049123177},"BDate":{"int":740},"Gender":"female"} 下面是kafka触发结构化流媒体的代码： # spark-submit --jars k

浏览 1提问于2019-12-27得票数 0

1回答

如何使用Java使用scala.collection.immutable.Stream类

、、

我在Scala中有一个现有的代码，并试图用Java编写相同的代码。但也面临着一些问题。 Scala代码 import java.io.{BufferedReader, InputStreamReader} import java.util.zip.ZipInputStream import org.apache.spark.SparkContext import org.apache.spark.input.PortableDataStream import org.apache.spark.rdd.RDD def readFile(path: String,minPartitions: I

浏览 4提问于2017-11-02得票数 1

回答已采纳

2回答

将日期字段添加到Spark中的RDD

、

我有一个非常简单的RDD，名为STjoin，我在它上面传递一个简单的函数来从表示日期-时间的字符串中获取日期。代码通过了延迟计算，但是如果我运行最后一行(STjoinday.take(5))，我会得到一个错误。 def parsedate(x): try: dt=dateutil.parser.parse(x[1]).date() except: dt=dateutil.parser.parse("01 Jan 1900 00:00:00").date() x.append(dt) return x

浏览 1提问于2015-04-28得票数 0

1回答

StructuredStreaming - foreach/foreachBatch不工作

、、

我是结构化流从Kafka读取数据，写到BigQuery(虽然目前，我写到控制台)。我试图使用foreach (或foreachBatch)对记录进行转换，但是我遇到了问题。以下是代码： df_stream = spark.readStream.format('kafka') \ .option("kafka.security.protocol", "SSL") \ .option("kafka.ssl.truststore.location", ssl_truststore_location) \ .op

浏览 3提问于2022-02-07得票数 0

回答已采纳

1回答

运行时异常java.lang.NoSuchMethodError:带有Spark-BigQuery连接器的com.google.common.base.Optional.toJavaUtil()L

、、、

目前我正在尝试从Spark连接到BigQuery。我已经使用sbt assembly插件构建了fat jar文件，并尝试使用spark-submit在本地模式下启动作业。只要启动Spark任务，我就会观察到java.lang.NoSuchMethodError: com.google.common.base.Optional.toJavaUtil()Ljava/util/Optional;异常。下面是异常跟踪， Exception in thread "main" java.lang.NoSuchMethodError: com.google.common.base.Opt

浏览 46提问于2020-12-19得票数 0

4回答

java中使用mongodb的spark streaming

、、、

在我的应用程序中，我希望将数据从MongoDB流式传输到Spark Streaming。为此，我使用了队列流，因为我认为我可以将mongodb数据保存在rdd上。但是这个方法不起作用，或者我做错了什么。有没有人从mongodb流到spark流？我的方法是错的吗?如果是，正确的方法是什么？我的代码在这里 package com.mongodb.spark.stream; import java.util.Arrays; import java.util.Collections; import java.util.LinkedList; import java.util.Queue; im

浏览 78提问于2015-08-06得票数 2

回答已采纳

0回答

使用Java和Kafka的Apache Spark流

、、

我正在尝试运行中的Spark Streaming示例这些是我在pom文件中使用的依赖项： <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>2.3.1</version> </dependency> <dependency> <groupId>org.apache.spark</groupId>

浏览 5提问于2018-07-16得票数 2

回答已采纳

1回答

SPARK java.lang.OutOfMemoryError:内存不足，无法构建表并将其广播到所有工作节点

、、、

我正在使用spark连接我从azure存储中获取的静态数据集和从eventhub中获取的流数据集。我还没有在任何地方使用过广播连接。在连接之后，我尝试了df.explain()，它显示排序合并连接正在发生。我不确定为什么我会收到与广播Hash join相关的错误。 java.lang.OutOfMemoryError: Not enough memory to build and broadcast the table to all worker nodes. As a workaround, you can either disable broadcast by setting spark

浏览 132提问于2019-12-23得票数 0

1回答

Pyspark不能将大型数据输出到csv。会话设置不正确？

、、、

我在火星雨2.3中的演讲： spark = SparkSession\ .builder\ .appName("test_app")\ .config('spark.executor.instances','4')\ .config('spark.executor.cores', '4')\ .config('spark.executor.memory', '24g')\ .config('spark.driver.maxRes

浏览 10提问于2022-11-30得票数 0

1回答

saveAsTable抛出索引错误，而show() dataframe运行得很好

、、、、

试图将dataframe保存为表。我还可以创建dataframe和temp表。但是使用saveAsTable()保存相同的数据会引发索引错误。我检查了Dataframe的模式，这似乎没问题。不确定问题是什么，除了索引错误之外，无法从日志中获得任何信息。 >>> sqlContext.sql('select * from bx_users limit 2').show() +-------+--------------------+----+ |User-ID| Location| Age| +-------+--------

浏览 0提问于2018-05-19得票数 1

回答已采纳

1回答

如何过滤并将流数据从apache转换为rdd/data，使用spark将其写入表

、、、

嗨，我是水槽/火花/火花流的新手。我已经配置了水槽和netcat，并成功地将数据流到Spark。我的要求是从日志文件中检查流数据(流流)中的错误，并获取错误行(流中的单词" Error“)，并将其作为DF写入oracle。我面临的异常在以下过滤器和转换为DF代码。请帮我解决这个问题 import org.apache.spark.streaming.flume.FlumeUtils import org.slf4j.LoggerFactory import org.apache.spark.SparkConf import org.apache.spark.streaming.{S

浏览 0提问于2018-10-19得票数 0

回答已采纳

2回答

星星之火:Py4JJavaError:调用o142.saveAsTextFile时出错

、

当我通过rdd.repartition(1).saveAsTextFile(file_path)保存一对rdd时，会遇到一个错误。 Py4JJavaError: An error occurred while calling o142.saveAsTextFile. : org.apache.spark.SparkException: Job aborted. at org.apache.spark.internal.io.SparkHadoopWriter$.write(SparkHadoopWriter.scala:100) at org.apache.spark.rdd.

浏览 1提问于2020-07-01得票数 0

回答已采纳

1回答

卡夫卡和.NET核火花任务中的错误

、、

我正在尝试使用.Net Core3.1读取星火中卡夫卡的数据。我得到了NullPointerException，却找不到理由。也许有人遇到了这个错误，并找到了解决方案？从文件作品中读取。也尝试将连接细节更改为外部Kafka broker (通过身份验证)，但我仍然收到了相同的错误。例外： WARN KafkaOffsetReaderConsumer: Error in attempt 1 getting Kafka offsets: java.lang.NullPointerException at org.apache.spark.kafka010.KafkaConfig

浏览 10提问于2022-01-09得票数 0

1回答

为文本找到多个源

、、、

我有一个Java，它来自于一个Java程序，如果我在IntelliJ的想法中在本地运行这个Java程序，它就运行得很好。当我将Java程序编译成jar文件时。如果我以java -cp jarFileName.jar com.pathToclass.ClassName inputArguments的形式运行这个程序，它会运行得很好。但是，当我以spark-submit --master local[4] --class com.pathToclass.ClassName jarFileName.jar inputArguments的形式运行时，当read.textFile代码运行到rea

浏览 14提问于2021-03-16得票数 1

回答已采纳

2回答

星火写入流到IBM对象存储失败，"Access键为空。请提供有效的访问密钥“

、、、

我目前正在使用ApacheSpark2.3.2，并创建一个管道从文件系统读取流csv文件，然后将流写入IBM对象存储。为此，我使用连接器。在下面的配置中，常规读写IBM运行良好。但是，读写流操作正在抛出错误，如下所示： com.ibm.stocator.fs.common.exception.ConfigurationParseException:配置解析异常:访问键为空。请提供有效的访问密钥。存储器配置： sc.hadoopConfiguration.set("fs.cos.impl","com.ibm.stocator.fs.ObjectStoreFil

浏览 2提问于2018-12-17得票数 0

1回答

PySpark数据框基于类方法创建新列

、、

我想从class方法中添加列，但遇到了一些错误。首先，这是我的数据框架 from pyspark.sql.functions import udf import pandas as pd df = spark.createDataFrame(pd.DataFrame([[1,1,1],[2,2,2]],columns=['a','b','c'])) +---+---+---+ | a| b| c| +---+---+---+ | 1| 1| 1| | 2| 2| 2| +---+---+---+ 然后，我创建类方法 c

浏览 22提问于2019-04-09得票数 0

2回答

java.lang.NoSuchMethodError: net.jpountz.util.Utils.checkRange

、

我在python中使用spark-streaming 2.2.0。从kafka(2.11-0.10.0.0)集群读取数据。我提交了一个python脚本spark - spark-streaming-kafka-0-8-assembly_2.11-2.2.0.jar --jars hodor.py the spark report a error message 17/08/04 10:52:00 ERROR Utils: Uncaught exception in thread stdout writer for python java.lang.NoSuchMethodError: ne

浏览 0提问于2017-08-04得票数 6

1回答

消费Kafka和Spark的大数据

、、、、

我有一个Json格式的流数据，它通过Websocket提供每秒1MB到60MB之间的大小变化。我必须对数据进行解码，然后对其进行解析，最后写入mysql。我想了两个想法： 1)从Socket中读取数据，解码后通过Producer中的Avro发送给Consumer，然后获取数据并写入Spark map上的mysql，reduce在Consumer中 2)从Socket中读取数据，然后将数据发送到Producer中的Consumer，然后在Consumer中获取数据，然后在Spark上解码，并将解析后的数据发送到Spark Job中写入mysql。你有什么想法吗？生产者 /* * To

浏览 1提问于2017-06-07得票数 1

2回答

火花流作业在阅读卡夫卡主题时由于阶段失败而中止

、、、、

我是火花和卡夫卡的新手，我使用火花流来处理来自卡夫卡主题的数据。现在，我只想在控制台中打印记录。我在两个节点(ScalaVersion2.12.2和spark-2.1.1)和一个带有kafka (版本kafka_2.11-0.10.2.0)的节点上都有一个带有spark的小型集群。但是，当我提交代码时，我会得到以下错误： Exception in thread "main" org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 0.0 failed 4 times,

浏览 10提问于2017-06-08得票数 1

回答已采纳

1回答

将Flume twitter流连接到python中火花时出现的UTF-8编码错误

、、、、

在将Flume代理收集的Twitter数据传递给Stream时，我遇到了麻烦。我可以独立下载twits，而只使用水槽。但我会跟着错误走。我觉得这是关于FlumeUtils.createStream()中默认的UTF-8编码的问题。我怎么才能改变呢？我该换什么呢？火花放电终端上的错误： org.apache.spark.api.python.PythonException: Traceback (most recent call last): File "/usr/local/spark/python/lib/pyspark.zip/pyspark/worker.py",

浏览 5提问于2017-01-01得票数 2

回答已采纳

1回答

无法使用Spark.Net UDF和HDInsight集群

、、、、

我尝试在prod环境中运行一个简单的应用程序，其中包含来自https://github.com/dotnet/spark/blob/master/examples/Microsoft.Spark.CSharp.Examples/Sql/Batch/Basic.cs的代码，应用程序运行良好，并将输出发送到标准输出，直到遇到第一个UDF时该代码崩溃。感谢您在这方面的任何见解。环境代码使用以下方式打包 dotnet publish -c Release -f netcoreapp3.1 -r ubuntu.16.04-x64 HDInsight集群HDI4.0，Spark2.4 --服务器按照h

浏览 30提问于2020-10-28得票数 0

回答已采纳

2回答

火花卡夫卡流- java.lang.NoClassDefFoundError: akka/util/Helpers$ConfigOps$

、、、

我正在编写一个用Scala编写的星星之火应用程序，它听着一个Kafka主题。应用程序只是打印收到的消息，仅此而已。我在我的机器上运行这个..。 ...... import org.apache.spark.SparkConf import org.apache.spark.sql.SQLContext import org.apache.spark.streaming.kafka.KafkaUtils import org.apache.spark.streaming.{Seconds, StreamingContext} ..... val topics = "topicNa

浏览 0提问于2015-12-11得票数 0

回答已采纳

1回答

在蔚蓝数据库中调整类路径/更改弹簧版本

、、、、

我正在尝试在Azure数据库中使用Apache /Ignite集成。我使用Databricks安装了org.apache.ignite:ignite-spark-2.4:2.9.0 maven库。我在访问我的点火器时犯了一个错误： : java.lang.NoSuchMethodError: org.springframework.util.ReflectionUtils.clearCache()V at org.springframework.context.support.AbstractApplicationContext.resetCommonCaches(Abstra

浏览 3提问于2020-10-25得票数 2

回答已采纳

3回答

sparklyr失败，返回java.lang.OutOfMemoryError:超出GC开销限制

、、

我在使用spark_apply的Spark中遇到了GC开销超过限制错误。以下是我的规格： sparklyr v0.6.2 Spark v2.1.0 4个工作进程，具有8个内核和29G内存 closure get_dates一次从Cassandra拉取一行数据。总共大约有200k行。这个过程运行了大约一个半小时，然后出现了这个内存错误。我已经用spark.driver.memory做了实验，它应该会增加堆的大小，但它不起作用。有什么想法吗？下面的用法 > config <- spark_config() > config$spark.executor.cores = 1 #

浏览 3提问于2018-03-10得票数 1

2回答

无法使用运动流在spark-streaming中创建流

、、

我是kinesis的新手，我正在尝试使用spark-streaming (Pyspark)处理kinesis流数据，并面临以下错误以下是我的代码:我正在将twitter数据推送到我的kinesis流中，并尝试使用Spark-streaming进行处理。我尝试在所有依赖项中都包含--jars，但仍然使用相同的issue.Spark版本-2.4.3和2.3.3，并使用适当的spark-streaming kinesis-asl-Assembly.jar from pyspark.streaming.kinesis import KinesisUtils, InitialPositionInStr

浏览 0提问于2019-07-20得票数 2