如何使用job spark测量hdfs上的读写时间？

Spark是一个快速、通用的大数据处理引擎，而HDFS（Hadoop Distributed File System）是Hadoop生态系统中的分布式文件系统。在使用Spark测量HDFS上的读写时间时，可以按照以下步骤进行操作：

导入必要的Spark和Hadoop库：

import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
import org.apache.hadoop.fs.{FileSystem, Path}

创建SparkConf和SparkContext对象：

val conf = new SparkConf().setAppName("HDFSReadWriteTimeMeasurement")
val sc = new SparkContext(conf)

定义要读写的文件路径：

val filePath = "hdfs://<HDFS_MASTER>:<HDFS_PORT>/path/to/file"

其中，<HDFS_MASTER>是HDFS的主节点地址，<HDFS_PORT>是HDFS的端口号。

定义读取文件的函数，并测量读取时间：

def readHDFSFile(filePath: String): Unit = {
  val startTime = System.currentTimeMillis()
  val fileRDD = sc.textFile(filePath)
  fileRDD.count()  // 触发实际读取操作
  val endTime = System.currentTimeMillis()
  val readTime = endTime - startTime
  println(s"读取时间：$readTime 毫秒")
}

定义写入文件的函数，并测量写入时间：

def writeHDFSFile(filePath: String): Unit = {
  val startTime = System.currentTimeMillis()
  val data = sc.parallelize(Seq("data1", "data2", "data3"))
  data.saveAsTextFile(filePath)
  val endTime = System.currentTimeMillis()
  val writeTime = endTime - startTime
  println(s"写入时间：$writeTime 毫秒")
}

调用读取和写入函数进行测试：

readHDFSFile(filePath)
writeHDFSFile(filePath)

需要注意的是，上述代码中的<HDFS_MASTER>和<HDFS_PORT>需要替换为实际的HDFS主节点地址和端口号。

推荐的腾讯云相关产品：腾讯云Hadoop集群（Tencent Cloud Hadoop Cluster），该产品提供了稳定可靠的Hadoop集群服务，可用于存储和处理大规模数据。详情请参考腾讯云Hadoop集群产品介绍：https://cloud.tencent.com/product/chadoop

OOzie Spark:代码101错误

、

我在理解Oozie返回给我的错误时遇到了一些问题。解释：我在Oozie中创建了一个非常简单的“作业”，XML是这样的： <workflow-app name="Massimiliano" xmlns="uri:oozie:workflow:0.5"> <start to="spark-2adf"/> <kill name="Kill"> <message>Action failed, error message[${wf:errorMessage(w

浏览 2提问于2016-08-03得票数 3

1回答

是否有可能将数据库直接从HDFS加载到spark中作为DataFrame？

、、、

我在齐柏林飞艇上运行了我的MongoDB和Spark，两者共享相同的HDFS。MongoDB生成存储在同一HDFS中的.wt数据库。我希望将该MongoDB从HDFS生成的数据库集合加载到Spark中。是否可以将数据库从HDFS直接作为DataFrame加载到spark中？还是我需要使用MongoDB火花连接器？

浏览 1提问于2018-06-25得票数 1

回答已采纳

1回答

Apache_beam--python --错误:需要下列参数：--输出路径

、、

当运行我的代码时，在python或colaborator中出现以下错误，我输入了apache中的所有库，有人在一瞬间给出了这个错误，或者知道它。用途: aaa_users_py.py -h --流式-beam_ BEAM_SERVICES -类型_check_ TYPE_CHECK_ADDITIONAL -no_管线_type_check-性能_运行时_type_check-允许不安全_触发器-直接_runner_bundle_重复DIRECT_RUNNER_BUNDLE_REPEAT -标签标签-转换_名称_映射TRANSFORM_NAME_MAPPING -数据流_kms_key DA

浏览 9提问于2022-06-02得票数 0

回答已采纳

1回答

如何使用job spark测量hdfs上的读写时间？

、、、、

我刚刚开始大数据平台的鉴定工作，我想就如何在hdfs上测试读写性能提出建议。

浏览 11提问于2019-05-15得票数 0

1回答

Spark作为Mapreduce的存储层

、、、、

我正面临着一个独特的问题，并希望您的意见在这里。我有一个遗留的map-reduce应用程序，其中多个map-reduce作业顺序运行，中间数据来回写入HDFS。由于中间数据写入HDFS，具有小数据的作业从HDFS的功能中损失大于收益，并且比非Hadoop等效物所花费的时间要长得多。最终，我计划将我所有的map reduce工作转换为Spark DAG，然而这是一个巨大的变化，所以我合理地拖延了。我真正想要的短期解决方案是，改变存储层，这样我就可以继续从map-reduce并行性中受益，但不会为存储层付出太多代价。在这个方向上，我正在考虑使用Spark作为存储层，map-reduce作业将通

浏览 0提问于2016-12-11得票数 0

1回答

尽管设置了spark.yarn.conf，但火花程序集文件仍在上传

、、、

我将作业提交到运行在Yarn上的星火集群--有时通过相对缓慢的连接提交。为了避免为每个作业上传156 job火花组装文件，我将配置选项spark.yarn.jar设置为HDFS上的文件。但是，这并不能避免上传，而是从HDFS目录获取程序集文件，并将其复制到应用程序目录： $:~/spark-1.4.0-bin-hadoop2.6$ bin/spark-submit --class MyClass --master yarn-cluster --conf spark.yarn.jar=hdfs://node-00b/user/spark/share/lib/spark-assembly.jar

浏览 2提问于2015-07-06得票数 1

回答已采纳

1回答

用HDFS读写Sparkr

、、

我试图弄清楚如何在SparkR中从HDFS中读取和写入任意文件。设立的是： args <- commandArgs(trailingOnly = T) MASTER <- args[1] SPARK_HOME <- args[2] INPATH <- 'hdfs/path/to/read/or/load/from' OUTPATH <- 'hdfs/path/to/write/save/to' Sys.setenv(SPARK_HOME = SPARK_HOME) .libPaths(c(file.path(Sys.geten

浏览 6提问于2017-03-17得票数 3

回答已采纳

3回答

Oozie火花放电作业

、、、

我的工作流程很简单。 <workflow-app name="testSparkjob" xmlns="uri:oozie:workflow:0.5"> <start to="testJob"/> <action name="testJob"> <spark xmlns="uri:oozie:spark-action:0.1"> <job-tracker>${jobTracker}</job-tracker>

浏览 7提问于2017-07-25得票数 1

回答已采纳

1回答

Spark结构化流运行过程中Presto的"not a Parquet file (太小)“

、、、、

我有一个管道设置，从Kafka读取数据，使用Spark结构化流处理数据，然后将拼花文件写入HDFS。数据查询的下游客户端使用Presto配置，以便将数据作为Hive表读取。 Kafka --> Spark --> Parquet on HDFS --> Presto 一般来说，这是可行的。当Spark作业运行批处理时发生查询时，就会出现问题。星火作业在HDFS上创建一个零长度的Parquet文件。如果Presto试图在处理查询过程中打开此文件，则会引发一个错误： Query 20171116_170937_07282_489cc failed: Error opening H

浏览 3提问于2017-11-16得票数 1

回答已采纳

1回答

无法使用oozie运行示例火花作业

、、、

我正在尝试在CDH5.7集群上安装oozie。我通过cloudera文档中的步骤安装和配置了所有东西。最后，我提取了oozie-examples.tar.gz，将其-put到hdfs，并尝试运行一些示例。示例运行得很好，但是星星之火失败了，出现了以下错误：资源hdfs://cluster/user/hdfs/.sparkStaging/application_1462195303197_0009/oozie-examples.jar在src文件系统上更改(预期为1462196523983，为1462196524951 ) 我用来运行示例的命令是： oozie job -config

浏览 0提问于2016-05-02得票数 1

1回答

如何将HDFS中承载的配置文件传递给Spark应用程序？

、、、、

我在处理星火结构的流媒体。另外，我还在与Scala合作。我想将配置文件传递给我的spark应用程序。此配置文件托管在HDFS中。例如； spark_job.conf (HOCON) spark { appName: "", master: "", shuffle.size: 4 etc.. } kafkaSource { servers: "", topic: "", etc.. } redisSink { host: "", port: 999, timeout: 2

浏览 1提问于2019-05-07得票数 1

回答已采纳

2回答

使用Livy执行Spark作业，使用`--master yarn-cluster`而不进行系统范围的更改

、

我想使用从集群外部通过HTTP调用来执行Spark作业，其中Spark jar已经存在于HDFS中。我可以从集群节点上的shell中spark-submit该作业，例如： spark-submit --class io.woolford.Main --master yarn-cluster hdfs://hadoop01:8020/path/to/spark-job.jar 请注意，--master yarn-cluster是访问jar所在的HDFS所必需的。我还可以使用curl通过Livy提交命令。例如，此请求： curl -X POST --data '{"file&#

浏览 1提问于2016-11-30得票数 2

1回答

如何修复‘scala.collection.immutable.$colon$colon.hd$1()Ljava/lang/Object’：java.lang.NoSuchMethodError‘

、、

因此，我开始编写自己的Oozie工作流，其中包含Apache操作，事情是，尽管我清楚地使用Scala2.11.8和Spark2.3.0打包了我的源代码，但这条消息说 scala.collection.immutable.$colon$colon.hd$1()Ljava/lang/Object；： java.lang.NoSuchMethodError 有一个包含Hortonworks沙箱的码头容器，运行在ec2机器上，有16个核心cpu和41个内存。我已经使用命令行更新了Oozie共享库。下面是我的job.properties文件和workflow.xml文件。 job.properties

浏览 12提问于2019-10-18得票数 1

2回答

Hadoop Spark 1.4.1 -对多个CSV文件进行排序，并将排序后的结果保存到一个输出文件中

、、、、

我有3个文件在HDFS中，并想使用最有效的方法来排序他们首先在第一列，然后在第二列和存储排序的结果回HDFS上使用Scala (或Python)在Spark 1.4.1： hdfs:/test/2016/file.csv hdfs:/test/2015/file.csv hdfs:/test/2014/file.csv 文件看起来像这样(没有标题)： hdfs:/test/2016/file.csv 127,56，abc 125,56，abc 121,56，abc hdfs:/test/2016/file.csv 126,66，abc 122,56，abc 123,46，abc hdfs:/t

浏览 1提问于2016-03-12得票数 0

1回答

当使用带气流的SparkSubmitOperator时，hdfs路径无效。

、、

//etl.py start = DummyOperator(task_id = 'start', dag = dag) job1 = SparkSubmitOperator(task_id = 't1', application = '/home/airflow/dags/test.py', name = 'test', conf = {'spark.master': 'yarn'}, dag = dag) start >> job1 //

浏览 1提问于2022-08-10得票数 0

回答已采纳

1回答

在Spark程序中访问Oozie配置

、、

我在.bash_profile中保存了一个环境变量。我正在尝试使用Scala中的sys.env()方法通过Spark程序访问它。当我没有Oozie调度时，我能够正确地访问Spark中的环境变量。然而，当我尝试使用Oozie调度我的程序时，程序抛出一个错误，它无法读取环境变量。这是我的workflow.xml： <workflow-app xmlns='uri:oozie:workflow:0.5' name='Security-User-Management'> <start to='spark-node' />

浏览 1提问于2020-01-14得票数 0

1回答

在Kerberized集群中读取Spark应用程序中的HDFS文件

、、、、

我使用Hortonworks数据平台2.5安装了Hadoop集群，其中还包括Ambari 2.4、Kerberos、Spark1.6.2和HDFS。例如，我有以下用户的Kerberos主体和键标签： spark (由Ambari在Kerberos启用期间创建) hdfsuserA (由kadmin -> add_principle创建) 在受保护的集群中运行spark-submit命令需要用户spark-submit，而Spark应用程序必须在hdfsuserA (700)拥有的HDFS目录/user/hdfsuserA/...中打开一些文件。由于我启用了Kerber

浏览 3提问于2016-12-02得票数 3

回答已采纳

2回答

当使用oozie火花操作时，在一个节点上生成的火花驱动程序可以找到自定义的log4j配置文件，但在其他节点上却找不到。为什么？

、、、

使用oozie运行火花动作工作流有问题。如果驱动程序是在节点(172.12.0.27)上生成的，则日志配置是始终正确的。如果驱动程序在其他节点上生成(172.12.0.18,172.12.0.20)，则日志配置总是错误的。使用火花提交运行作业，没有上述问题，每个节点上产生的驱动程序工作正常. 我怎么才能追踪问题？有三个节点(172.12.0.27,172.12.0.18,172.12.0.20)。如果使用submit与自定义log4j配置文件，则任何节点上都没有问题. 火花-提交作品的权利. spark-submit --master yarn --deploy-mode cluster

浏览 1提问于2019-08-26得票数 0

2回答

在spark submit中将hdfs路径作为环境变量传递

、、、

我正在尝试使用spark submit在yarn集群上运行我的spark程序，我正在读取一个放在hdfs中的外部配置文件，我正在运行作业- ./spark-submit --class com.sample.samplepack.AnalyticsBatch --master yarn-cluster --num-executors 3 --driver-memory 512m --executor-memory 512m --executor-cores 1 --driver-java-options "-Dext.properties.dir=hdfs://namenode:802

浏览 2提问于2015-04-15得票数 1

2回答

如何了解各种spark应用统计数据

、、

Spark Job: //数据读取/加载 val df1 = spark.sql("select colList from table1") val df2 = spark.sql("select colList from table2") //数据处理/转换 val df1_filter = df1.filter("cond") val df2_filter = df1.filter("cond") val transformation1 = df1_filter.join(df2_filter,joinCondition) /

浏览 0提问于2018-10-19得票数 0

2回答

如何控制Spark job在写入时创建的输出部品文件的数量？

、、、

我有几个Spark作业，每天处理数千个文件。文件大小可能从MB到GB不等。完成工作后，我通常使用以下代码进行保存 finalJavaRDD.saveAsParquetFile("/path/in/hdfs"); OR dataFrame.write.format("orc").save("/path/in/hdfs") //storing as ORC file as of Spark 1.4 Spark job在最终输出目录中创建了大量的小零件文件。据我所知，Spark为每个分区/任务创建零件文件，如果我错了，请纠正我。我们如何控制Spark创

浏览 4提问于2015-07-06得票数 2

回答已采纳

2回答

如何在Apache Spark中使用Hadoop InputFormats？

、、

我在Hadoop中有一个从HDFS读取图像的类ImageInputFormat。如何在Spark中使用我的InputFormat？这是我的ImageInputFormat public class ImageInputFormat extends FileInputFormat<Text, ImageWritable> { @Override public ImageRecordReader createRecordReader(InputSplit split, TaskAttemptContext context) th

浏览 10提问于2014-01-09得票数 11

回答已采纳

1回答

火花写入数据给vertica带来错误

、、、

我尝试使用以下文档向vertica编写数据文件: vertica提供的，它成功了。在加载所需的库之后，dataframe将被写入表中。现在，当我试图在Intellij中执行相同的精确代码时，或者没有直接从火花外壳编写代码时，它会出现一些错误：守则是： val rows: RDD[Row] = sc.parallelize(Array( Row(1,"hello", true), Row(2,"goodbye", false) )) val schema = StructType(Array( Struct

浏览 4提问于2020-04-26得票数 1

回答已采纳

2回答

如何为oozie工作流中的不同操作指定不同的用户库路径

、、、、

如何为oozie工作流中的不同操作指定不同的用户库路径我有一个火花动作和一个java动作 <workflow-app name="batch-publisher" xmlns="uri:oozie:workflow:0.5"> <start to="spark-a5b5"/> <kill name="Kill"> <message>Action failed, error message[${wf:errorMessage(wf:lastErrorN

浏览 0提问于2018-06-29得票数 0

回答已采纳

2回答

为什么Google Dataproc HDFS名称节点在Safemode中？

、、、

我试图通过向Dataproc集群提交一个Spark作业来写入hdfs:///home/bryan/test_file/上的HDFS目录。我得到一个错误，名称节点是在安全模式。我有让它脱离安全模式，但我担心这可能是因为另一个原因。为什么Dataproc集群处于安全模式？ ERROR org.apache.spark.streaming.scheduler.JobScheduler: Error running job streaming job 1443726448000 ms.0 org.apache.hadoop.ipc.RemoteException(org.apache.hadoop

浏览 7提问于2015-10-01得票数 3

2回答

在oozie失败的情况下提交的Pyspark操作：“[Errno 2]没有此类文件或目录”

、、、、

我试图通过oozie工作流在hadoop集群上提交对纱线的基本火花操作，并得到以下错误(来自纱线应用程序日志)： >>> Invoking Spark class now >>> python: can't open file '/absolute/local/path/to/script.py': [Errno 2] No such file or directory Hadoop Job IDs executed by Spark: Intercepting System.exit(2) <<< Invoc

浏览 8提问于2017-09-01得票数 0

1回答

使用spark-submit的oozie shell操作

、、

我正在尝试从shell包装器运行spark-submit。虽然作业可以从命令行运行，但在通过oozie调度时会失败。 Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/fs/FSDataInputStream at org.apache.spark.deploy.SparkSubmitArguments.handle(SparkSubmitArguments.scala:394) at org.apache.spark.launcher.SparkSubmitOptionPa

浏览 10提问于2017-02-06得票数 3

2回答

使用列表作为单个键的值的oozie属性文件

、

我有一个spark应用程序，我用下面的命令运行它 /usr/hdp/spark2-client/bin/spark-submit \ --name 'App' \ --class 'someFolder.SomeApp \ --master "yarn" \ --deploy-mode "cluster" \ --num-executors 4 \ --executor-cores 3 \ --executor-memory 4g \ --conf spark.sql.shuffle.partitions=

浏览 6提问于2020-06-11得票数 0

1回答

用于火花作业的Oozie外壳动作抛出NullPointerException

、、

我有一个shell脚本，其中包含使用oozie操作运行的星火提交命令。 Oozie能够从shell脚本运行submit命令，但是作业在纱线中部署时失败了。我们非常感谢你的帮助。在NullPointerException下面抛出职务： Exception in thread "main" java.lang.NullPointerException at scala.collection.mutable.ArrayOps$ofRef$.length$extension(ArrayOps.scala:114) at scala.collection.mutabl

浏览 5提问于2018-12-04得票数 2

回答已采纳

2回答

Storm和Spark中支持的数据类型

、、

我对Storm和Spark还不熟悉。我只想问一下这两个框架是如何存储文件的？他们可以使用HDFS吗？另外，它们能支持xml格式吗？谢谢,

浏览 0提问于2015-03-09得票数 1

2回答

Spark不会在纱线集群模式下运行最终的“`saveAsNewAPIHadoopFile`”方法

、、、

我编写了一个Spark应用程序，它读取一些CSV文件(~5-10 GB)，转换数据并将数据转换为HFiles。数据从HDFS中读取并保存到HDFS中。当我在yarn-client模式下运行应用程序时，一切似乎都很好。但是，当我尝试将它作为yarn-cluster应用程序运行时，进程似乎没有在我的转换和准备保存的RDD上运行最终的saveAsNewAPIHadoopFile操作！下面是我的Spark的快照，您可以看到所有其他的作业都被处理了：以及相应的阶段：这里是我的应用程序中调用saveAsNewAPIHadoopFile方法的最后一步： JavaPairRDD&

浏览 9提问于2017-09-15得票数 1

回答已采纳

1回答

我可以在Oozie中将py spark作为空壳作业运行吗？

、、、、

我有python脚本，我可以通过spark-submit运行它。我需要在Oozie中使用它。  <action name="forceLoadFromLocal2hdfs"> <shell xmlns="uri:oozie:shell-action:0.3"> <job-tracker>${jobTracker}</job-tracker> <name-node>${nameNode}</na

浏览 0提问于2017-07-26得票数 0

1回答

oozie协调器中的Spark作业错误- emr:无法从空字符串创建路径

、、、

ERROR org.apache.spark.SparkContext - Error initializing SparkContext. java.lang.IllegalArgumentException: Can not create a Path from an empty string at org.apache.hadoop.fs.Path.checkPathArg(Path.java:127) at org.apache.hadoop.fs.Path.<init>(Path.java:135) at org.apache.hadoo

浏览 3提问于2017-09-13得票数 2

2回答

spark-通过文件提交配置

、

我正在尝试使用spark-submit部署spark job，它有一堆参数，比如 spark-submit --class Eventhub --master yarn --deploy-mode cluster --executor-memory 1024m --executor-cores 4 --files app.conf spark-hdfs-assembly-1.0.jar --conf "app.conf" 我正在寻找一种方法，将所有这些标志放在文件中传递给spark-submit，使我的spark-submit命令更简单，就像下面这样 spark-submit

浏览 24提问于2017-03-16得票数 4

回答已采纳

1回答

Oozie spark操作错误:主类[org.apache.oozie.action.hadoop.SparkMain]，退出代码[1]

、

我目前正在设置一个使用Spark操作的Oozie工作流。我使用的Spark代码工作正常，在本地和纱线上都进行了测试。然而，当我将它作为一个Oozie工作流运行时，我得到了以下错误： Main class [org.apache.oozie.action.hadoop.SparkMain], exit code [1] 在阅读了这个错误之后，我发现最常见的原因是Oozie sharelibs的问题。我已经将所有Spark jar文件添加到hdfs上的Oozie /user/ Oozie /share/lib/spark中，重新启动Oozie并运行sudo -u oozie oozie admin

浏览 235提问于2016-02-19得票数 1

1回答

GCP Dataproc -配置纱线公平调度器

、、

我试图设置一个dataproc集群，它一次只计算一个作业(或指定的最大作业)，其余的将处于队列中。我已经找到了这个解决方案，，但是由于我一直在创建一个新的集群，我需要将其自动化。我在集群创建中添加了以下内容： "softwareConfig": { "properties": { "yarn:yarn.resourcemanager.scheduler.class":"org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairSchedule

浏览 1提问于2018-03-29得票数 4

回答已采纳

1回答

向DCOS Spark提交多个实例的作业？

、、、、

当我通过CLI提交作业时，我的DCOS群集中有两个spark实例 dcos spark run --submit-args="\ --driver-cores 8 \ --driver-memory 16384M \ --conf spark.eventLog.enabled=true \ --conf spark.eventLog.dir=hdfs://hdfs/history \ --class com.CalcP

浏览 3提问于2017-07-12得票数 0

回答已采纳

3回答

Spark AWS emr检查点位置

、、、、

我正在EMR上运行spark作业，但需要创建一个检查点。我尝试使用s3，但收到以下错误消息 17/02/24 14:34:35 ERROR ApplicationMaster: User class threw exception: java.lang.IllegalArgumentException: Wrong FS: s3://spark- jobs/checkpoint/31d57e4f-dbd8-4a50-ba60-0ab1d5b7b14d/connected- components-e3210fd6/2, expected: hdfs://ip-172-18-13-18.ec2.

浏览 4提问于2017-02-24得票数 1

回答已采纳

1回答

示例Oozie作业在Hue中工作，但不通过命令行工作: SparkMain not

、、

我已经成功地运行了Hue Oozie工作流编辑器(在Cloudera5.5.1 QuickStart VM中)中提供的示例Spark工作流(“通过启动Spark程序复制文件”)。我现在尝试使用oozie命令行工具手动运行它： oozie job -oozie http://localhost:11000/oozie -config job.properties -run 工作流XML基本不变--我已将其复制到HDFS，并具有以下job.properties nameNode=hdfs://localhost:8020 jobTracker=localhost:8032 oozie.wf.ap

浏览 4提问于2016-05-24得票数 2

回答已采纳

1回答

星星之火:在HDFS中创建的Paquet文件中，日语字母被混淆

、、、、

我有一个星火作业，它读取一些S3上的CSV文件，处理并保存结果，因为files.These CSV包含日语文本。当我在本地运行此作业时，读取S3 CSV文件并将其写入本地文件夹中，日文字母看起来很好。但是当我在我的星体集群上运行这个程序时，读取相同的S3 CSV文件并将拼图写到HDFS时，所有的日文字母都会被混淆。运行在火花集群(数据被混淆)上 spark-submit --master spark://spark-master-stg:7077 \ --conf spark.sql.session.timeZone=UTC \ --conf spark.driver.extraJava

浏览 2提问于2020-05-18得票数 0

1回答

oozie工作流触发在特定队列上启动作业

、、

我有一个oozie配置： <spark xmlns="uri:oozie:spark-action:0.1"> <job-tracker>${jobTracker}</job-tracker> <name-node>${nameNode}</name-node> <configuration> <property> <name>mapred.job.queue.name</

浏览 15提问于2017-07-12得票数 4

回答已采纳

1回答

星火拼花数据帧分区数目

、、、

我有一个HDFS文件夹与两个250 an的地板文件。hadoop块大小设置为128 to。具有以下代码： JavaSparkContext sparkContext = new JavaSparkContext(); SQLContext sqlContext = new SQLContext(sparkContext); DataFrame dataFrame = sqlContext.read().parquet("hdfs:////user/test/parquet-folder"); LOGGER.info("Nr. of rd

浏览 3提问于2017-06-28得票数 4

1回答

java.lang.NullPointerException:在火花流作业中写入拼花文件时，writeSupportClass不应为空

、、、、

在火花流作业中，我使用下面的代码片段将我的rdd数据保存到Hadoop的HDFS中的parquet文件中： readyToSave.foreachRDD((VoidFunction<JavaPairRDD<Void, MyProtoRecord>>) rdd -> { Configuration configuration = rdd.context().hadoopConfiguration(); Job job = Job.getInstance(configuration);

浏览 3提问于2017-06-14得票数 0

1回答

纱线REST API -火花作业提交

、、

我试图使用纱线REST提交火花提交作业，我通常通过命令行运行这些作业。我的命令行星火提交如下所示 JAVA_HOME=/usr/local/java7/ HADOOP_CONF_DIR=/etc/hadoop/conf /usr/local/spark-1.5/bin/spark-submit \ --driver-class-path "/etc/hadoop/conf" \ --class MySparkJob \ --master yarn-cluster \ --conf "spark.executor.extraClassPath=/usr/local/ha

浏览 5提问于2016-01-12得票数 5

1回答

在启用了推测的情况下，如何在Spark中管理写入？

、、

假设我有一个Spark2.x应用程序，它启用了猜测(spark.speculation=true)，它将数据写入到HDFS上的特定位置。现在，如果任务(将数据写入HDFS)需要很长时间，Spark将在另一个执行器上创建同一任务的副本，并且这两个作业将并行运行。 Spark是如何处理这个问题的？显然，这两个任务不应该同时尝试在同一文件位置写入数据(本例中似乎发生了这种情况)。任何帮助都将不胜感激。谢谢

浏览 9提问于2020-12-11得票数 0

2回答

OOZIE workflow.xml No函数映射到名称coord:nominalTime

、、

我在使用Oozie的SLA特性。我试图在正常时间内使用${coord:nominalTime()}，但是当我安排工作流时，它会引发一个错误： E0803 : E0803: IO error, E1004: Expression language evaluation error, Validation error :No function is mapped to the name \"coord:nominalTime\"", 这是workflow.xml文件： <?xml version="1.0" encoding="UTF-8

浏览 0提问于2019-04-26得票数 2

回答已采纳

1回答

在上调用`cache‘是否消除了以后对Hive/HDFS的调用？

、、

我们有一个spark应用程序，它从存储在HDFS中的parquet文件上构建的HMS表中读取使用spark的数据。spark应用程序运行在单独的hadoop环境上。我们使用委托令牌来允许spark应用程序对Kerberized /HDFS进行身份验证。我们不能也不应该使用键标签直接验证spark应用程序。由于委托令牌过期，经过一段时间后，我们的spark应用程序将不再能够进行身份验证，如果它没有在令牌有效的时间范围内完成，则会失败。我的问题是这个。如果我在执行所有后续操作所针对的源数据上调用.cache或.persist，我的理解是这将导致将所有数据存储在内存中。如果所有数据都在内存中，则不

浏览 7提问于2022-01-10得票数 0

2回答

星火JobServer JDBC-类JobServer错误

、、、

我有：- Hadoop -星火JobServer - SQL数据库我已经创建了一个文件，用于从星火JobServer的本地实例访问我的SQL。为了做到这一点，我首先必须使用以下命令加载JDBC驱动程序：Class.forName("com.mysql.jdbc.Driver");。但是，当我试图在Spark JobServer上执行文件时，我会得到一个classNotFound错误： "message": "com.mysql.jdbc.Driver", "errorClass": "java.lang.ClassNot

浏览 1提问于2016-01-26得票数 0

回答已采纳

1回答

Zeppelin Null指针异常

、

我在我的zeppelin笔记本上写了这个简单的代码 import org.apache.spark.sql.SQLContext val sqlConext = new SQLContext(sc) val df = sqlContext.read.format("csv").option("header", "true").load("hdfs:///user/admin/foo/2018.csv") df.printSchema() 早些时候，它无法找到spark-csv。因此，我将其作为依赖项添加到spark1和spark2

浏览 93提问于2018-05-29得票数 0

回答已采纳

1回答

使用Yarn Rest API的Spark提交[Spark无法解析namenode HA名称]

、

我正在通过yarn rest api调用提交spark作业，但是得到了这个异常，spark无法解析namenode HA名称，而从yarn launcher提交spark作业，并且在launcher本身上失败： java.lang.IllegalArgumentException: java.net.UnknownHostException: nameservice1 at org.apache.hadoop.security.SecurityUtil.buildTokenService(SecurityUtil.java:414) at org.apache.hadoop.hdfs.Name

浏览 18提问于2019-08-05得票数 0