我们是否可以使用Spark将数据移动到Vertica，而不使用hadoop作为过渡环境？

是的，您可以使用Spark将数据移动到Vertica，而不使用Hadoop作为过渡环境。

Spark是一个快速、通用的大数据处理引擎，它提供了丰富的API和工具，可以处理大规模数据集的计算任务。而Vertica是一种高性能、可扩展的关系型数据库，专为大规模数据分析而设计。

使用Spark将数据移动到Vertica的步骤如下：

数据提取：使用Spark的数据源API，从数据源（如文件系统、数据库等）中提取数据。
数据转换：使用Spark的转换操作，对数据进行清洗、过滤、转换等操作，以满足Vertica的数据格式要求。
数据加载：使用Vertica提供的数据加载工具或API，将经过转换的数据加载到Vertica数据库中。

相比使用Hadoop作为过渡环境，直接使用Spark将数据移动到Vertica有以下优势：

简化架构：不需要搭建和维护Hadoop集群，减少了架构复杂性和维护成本。
提高效率：Spark具有内存计算的能力，可以加速数据处理和分析任务的执行速度，提高数据迁移的效率。
灵活性：Spark支持多种数据源和格式，可以方便地与不同的数据存储系统集成，提供更灵活的数据迁移方案。
实时性：Spark可以处理实时数据流，可以实现实时数据迁移和分析。

推荐的腾讯云相关产品和产品介绍链接地址如下：

腾讯云Spark：https://cloud.tencent.com/product/spark
腾讯云Vertica：https://cloud.tencent.com/product/vertica

请注意，以上答案仅供参考，具体的实施方案需要根据实际需求和环境进行评估和调整。

pySpark中的Vertica数据抛出“未能找到数据源”

、、、、

我有火花3.2，vertica 9.2。 spark = SparkSession.builder.appName("Ukraine").master("local[*]")\ .config("spark.jars", '/home/shivamanand/spark-3.2.1-bin-hadoop3.2/jars/vertica-jdbc-9.2.1-0.jar')\ .config("spark.jars", '/home/shivamanand/spark-3.2.1-bin-hadoop3.2/

浏览 15提问于2022-05-05得票数 0

回答已采纳

1回答

当shell脚本中的任何命令失败时，如何使其退出？

、、

我试图在bash上创建一个脚本，其中包含4个python脚本，我已经对它们进行了排序，以便按顺序执行它们，如果其中有人没有执行或返回任何错误，我如何创建一个条件，然后停止shell #!/bin/bash -x cd /home/hadoop/Traffic_Stat_Process python3 Table_Dropper.py /usr/bin/spark-submit --jars /home/hadoop/vertica/lib/vertica-jdbc-9.1.1-0.jar Spark_JDBC_Connector.py hadoop fs -rm -r /hadoopDat

浏览 0提问于2019-04-02得票数 0

回答已采纳

2回答

与Vertica失败的火花集成

、

我们使用Vertica社区版"vertica_ Community _ Edition -11.0.1-0"，并使用Spark3.2和本地* master。当我们试图使用以下方法在vertica数据库中保存数据时： member.write() .format("com.vertica.spark.datasource.VerticaSource") .mode(SaveMode.Overwrite) .option("host", "192.

浏览 11提问于2021-12-21得票数 1

1回答

如何添加带有spark-shell的jars？

、、

我尝试了下面这些方法： >>./spark-shell –-jars /home/my_path/my_jar.jar 在shell中，我尝试导入包： scala> import com.vertica.spark._ <console>:23: error: object vertica is not a member of package com import com.vertica.spark._ 它不起作用，我还尝试从jar路径中删除斜杠(/) >>./spark-shell –-jars home/my_path/my_jar

浏览 23提问于2020-04-22得票数 0

1回答

纱线执行器发射火花错误版本

、、

我安装了一个带有Hadoop2.6.3和Spark1.6的集群。最近，我将spark升级到2.0，一切看起来都很好，直到我试着运行一些以前的工作，比如spark 1.6，它与spark 2.0有一些兼容的问题。我试过的第一件事是： echo $SPARK_HOME /usr/local/spark-1.6.1-bin-hadoop2.6 /usr/local/spark-1.6.1-bin-hadoop2.6/bin/spark-submit --master yarn--deploy-mode client /usr/local/spark-1.6.1-bin-hadoop2.6/ex

浏览 3提问于2016-10-21得票数 0

回答已采纳

1回答

无法使用Spark2.4.3写入Redshift

、、

我在本地模式下运行Spark2.4.3，并且能够解压文件，但是我无法将它们写回Redshift。为此，我需要知道适当的依赖项。我发现avro依赖关系在历史上一直存在问题，但是我无法确定spark 2.4.3的适当依赖项。我试过各种各样的组合，但没有一个允许我写回红移。 spark = SparkSession.builder.master("local").appName("Test")\ .config("spark.jars", 'RedshiftJDBC4-1.2.1.1001.jar,jets3t-0.9.0.jar,s

浏览 0提问于2019-06-18得票数 1

1回答

从主节点提交Emr和作业(jar)的Spark：

、、、

因此，我正在(或尝试)从aws上EMR集群的主节点运行(或尝试)编译(fat jar) spark/scala程序。我已经在我的dev环境中编译了jar，所有依赖项都与我的prod环境相同。我使用spark-submit脚本进行部署： SPARK_JAR=./spark/lib/spark-assembly-1.2.1-hadoop2.4.0.jar \ ./spark-submit \ --deploy-mode cluster \ --verbose \ --master yarn-cluster \ --class sparkSQLProcessor \ --driver-memory

浏览 0提问于2015-08-01得票数 0

2回答

如何在Scala中使用动态键解析动态Json

、、、、

我试图解析Json结构，它本质上是动态的，并加载到数据库中。但是当json里面有动态键时，就会遇到困难。下面是我的示例json:已经尝试过使用爆炸功能，但没有起到作用。类似的事情在这里描述， { "_id": { "planId": "5f34dab0c661d8337097afb9", "version": { "$numberLong": "1" }, "period": {

浏览 2提问于2020-08-13得票数 0

1回答

hadoop - vertica jar

、、

我想把数据从Vertica传输到蜂巢。根据手册，应将下列内容作为输入格式： -inputformat com.vertica.hadoop.deprecated.VerticaStreamingInput 但是hadoop有org.apache.hadoop.vertica.VerticaStreamingInput类，而不是上面的类。因此，它抛出了以下例外： Exception in thread "main" java.lang.RuntimeException: class org.apache.hadoop.vertica.VerticaStreamingInp

浏览 2提问于2015-06-03得票数 0

回答已采纳

1回答

如何写一个电火花-数据的红移？

、、

我正在尝试编写一个pyspark到Redshift，但结果却是错误的：- org.apache.spark.sql.sources.DataSourceRegister:提供程序org.apache.spark.sql.avro.AvroFileFormat无法实例化原因: org.apache.spark.sql.execution.datasources.FileFormat.$init$(Lorg/apache/spark/sql/execution/datasources/FileFormat;)V :java.lang.NoSuchMethodError 火花版本: 2.4.1 提

浏览 3提问于2019-05-04得票数 2

回答已采纳

1回答

Pyspark:错误-- Java网关进程在向驱动程序发送其端口号之前退出

当我尝试在Pyspark中实例化一个Spark会话时，我得到了这个错误：Exception: Java gateway process exited before sending the driver its port number。以下是代码 from pyspark import SparkConf from pyspark.sql import SparkSession if __name__ == '__main__': SPARK_CONFIGURATION = SparkConf().setAppName("OPL").setMaster(

浏览 13提问于2017-02-25得票数 4

1回答

我们是否可以使用Spark将数据移动到Vertica，而不使用hadoop作为过渡环境？

、、

我正在尝试在spark中流式传输数据并将其加载到vertica中，我提到的每篇文章都谈到让hdfs首先从DF或RDD持久存储数据，有没有一种方法可以在不使用Hadoop和任何额外数据存储的情况下移动数据

浏览 34提问于2019-03-29得票数 0

2回答

在Windows上运行Spark时出错

我正在Windows 10上安装Apache，我下载了Spark和winutils.exe，设置了SPARK_HOME，HADOOP_HOME，并更新了path变量以包含Spark路径。不过，当我运行火花壳时，我会得到下面的错误。有什么问题吗？ C:\tools\spark-2.1.1-bin-hadoop2.7\bin>spark-shell '""C:\Program' is not recognized as an internal or external command, operable program or batch file.

浏览 2提问于2017-06-02得票数 1

回答已采纳

1回答

如果不重新构建Scala中的项目，就可以读取修改过的json文件吗？

在更改app.json文件中的配置后，当项目启动时，将不再应用和，我必须重新构建项目(构建新的jar文件)。是否有可能让这段代码读取修改后的app.json而不重新构建整个项目？下面是从app.json文件读取数据的包 import net.liftweb.json._ import scala.io._ case class KafkaConfiguration(bootstrap_servers: String, topic_extractor: String, to

浏览 5提问于2020-11-09得票数 0

1回答

由于org.apache.hadoop.hive.ql.metadata.Hive.loadDynamicPartitions :java.lang.NoSuchMethodException，Spark作业失败

、、

由于以下错误，我在通过spark-submit运行spark作业时遇到问题： 16/11/16 11:41:12 ERROR yarn.ApplicationMaster: User class threw exception: java.lang.NoSuchMethodException: org.apache.hadoop.hive.ql.metadata.Hive.loadDynamicPartitions(org.apache.hadoop.fs.Path, java.lang.String, java.util.Map, boolean, int, boolean, boolean

浏览 6提问于2016-11-17得票数 0

1回答

java.lang.IllegalAccessError:尝试访问方法org.apache.hadoop.metrics2.lib.MutableCounterLong

、、、、

我有一个Spark应用程序从hdfs获取数据，并将数据摄取到S3中。下面是我使用的不同组件的版本。 spark : 2.3.1 hadoop : 2.7.3 scala : 2.11.8 我使用hadoop-aws-2.7.3.jar、hadoop-common-2.7.3.jar和aws-java-sdk-1.7.4.jar。我关注了一些与hadoop相关的博客，还参考了mavenrepository站点，以获得正确的jars组合。这是我将文件上传到S3的代码 spark.sparkContext.hadoopConfiguration.set("fs.s3a.access.ke

浏览 86提问于2020-09-12得票数 0

1回答

没有hadoop的Spark2.4.6 :出现JNI错误

、

在我的windows机器上，我尝试使用不带hadoop的spark 2.4.6，使用-spark-2.4.6-bin-scala hadoop-scala-2.12.tgz 在设置SPARK_HOME、HADOOP_HOME和SPARK_DIST_CLASSPATH之后，使用来自post链接的信息当我尝试启动spark-shell时，我得到这个错误- Error: A JNI error has occurred, please check your installation and try again Exception in thread "main" java.lang

浏览 0提问于2020-08-12得票数 4

1回答

Spark能否在没有电子病历的情况下访问DynamoDb

、、、

我有一组亚马逊网络服务实例，其中Apache Hadoop发行版和apache spark被设置。我试图通过Spark streaming访问DynamoDb来读写表，但在编写Spark- DynamoDB代码的过程中，我了解到需要emr-ddb-hadoop.jar来获取DynamoDB输入格式和只存在于EMR集群中的OutputFormat。在查看了一些博客之后，似乎只有使用EMR Spark才能访问它。这是正确的吗？但是，我使用独立的JAVA SDK来访问Dynamodb，它工作得很好

浏览 0提问于2016-04-07得票数 2

1回答

"C:\Users\username\AppData\Local\spark\spark-2.3.3-bin-hadoop2.7\tmp\local\spark-..\userFiles目录下spark_apply无法运行程序“Rscript”

、、

按照“掌握Apache”一书关于spark_apply的第一个说明，在windows下的本地集群上并使用RGui启动： install.packages("sparklyr") install.packages("pkgconfig") spark_install("2.3") Installing Spark 2.3.3 for Hadoop 2.7 or later. spark_installed_versions() library(dplyr,sparklyr) sc <- spark_connect(master = "

浏览 8提问于2019-10-24得票数 1

回答已采纳

2回答

spark sbt程序集中出现错误

、

在spark安装自述文件时，我写了命令'./bin/spark-shell'，我得到了一些提示：在/opt/spark-0.9.0-incubating-bin-hadoop1/assembly/target/scala-2.10: spark-assembly-0.9.0-incubating-hadoop1.0.4.jar spark-assembly_2.10-0.9.0-incubating-hadoop1.0.4.jar中发现多个Spark组装jar请删除所有jar，只保留一个jar。我曾经试图删除其中一个，但我失败了。如果有人能处理好，请告诉我。谢谢。

浏览 0提问于2014-04-21得票数 1

1回答

我该下载哪一个火花？

我刚开始创建并尝试构建spark+hadoop+hive环境。我已经下载了最新的版本单元，并根据上的版本兼容性部分，我应该下载spark 2.3.0，在页面中，我发现有一些不同的版本，比如spark 2.3.0-bin-hadoop2.7.tgz，spark 2.3.0-bin-无-hadoop.tgz，SparkR_2.3.0.tar.gz等等。现在我糊涂了！我不知道我需要下载哪个版本的spark，如果我下载spark 2.3.0-bin-hadoop2.7.tgz，是不是意味着我不需要下载hadoop？SparkR_2.3.0.tar.gz和spark 2.3.0-bin-un-hadoo

浏览 6提问于2022-03-03得票数 0

1回答

火花如何处理HADOOP_CONF_DIR？

、

当我们想从Spark连接HDFS时，我们只是将HADOOP_CONF_DIR设置为而不是将各种参数传递给Spark export HADOOP_CONF_DIR=/etc/hadoop/conf /usr/hdp/current/spark-client/bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode cluster --executor-memory 1G --num-executors 3 /usr/hdp/current/spark-cli

浏览 4提问于2020-08-03得票数 1

2回答

运行spark应用程序时的java.lang.NoClassDefFoundError

、、

我编译了我的Apache应用程序，它是用Scala编写的，在IntellijIDEA中使用sbt编写，在IntelliJ中运行时工作得很好。但是，当我将其编译并打包为一个jar文件并在远程服务器上运行时，当代码到达我试图在org/locationtech/jts/geom/En包络中创建信封实例的地方时，我得到了这个错误。 Exception in thread "main" java.lang.NoClassDefFoundError: org/locationtech/jts/geom/Envelope at java.lang.Class.getDeclaredMetho

浏览 1提问于2019-01-25得票数 1

回答已采纳

2回答

在spark下载页面上，预置的hadoop和用户提供的hadoop有什么区别？

、、、

长期以来，这些问题一直困扰着我：第二个选择器中有五种包类型，当第一个选择器选择版本2.4.4 .And时，我对其中的三个类型感到困惑：Pre-built for Apache Hadoop 2.7、Pre-built with user-provided Apache Hadoop、Pre-built with scala 2.12 and user-provided Apache Hadoop.Let me逐一列出我的问题。 Pre-built for Apache Hadoop 2.7和Pre-built with user-provided Apache Hadoop有什么区别？这

浏览 1提问于2019-11-26得票数 1

1回答

Apache火花- Parquet / Snappy压缩错误

、、

我有一个来自甲骨文表的数据，我试图在本地用Snappy压缩将其写入Parquet格式。如果我保存为CSV，但是当我试图保存为Parquet时，会碰到这个错误。 java.lang.UnsatisfiedLinkError: org.xerial.snappy.SnappyNative.maxCompressedLength(I)I Snappy库已经在我的类路径中，这已经适用于其他源类型(平面文件)。我能做些什么来解决呢？堆栈跟踪如下： 2017-05-19 08:10:37.398 INFO 7740 --- [rker for task 0] org.apache.hadoop.i

浏览 3提问于2017-05-19得票数 4

2回答

未能从sse-kms加密的s3对象中检索数据

、、

因为我使用的当前星星之火环境是在hadoop2.7中使用Spark2.4，但是hadoop2.7不支持SSE。来自apache：，它是在2.8中引入的，并且在Hadoop3.0之后得到了完全的支持。然后从正式的中添加两个配置参数fs.s3a.server-side-encryption-algorithm & fs.s3a.server-side-encryption.key“。在以前的文档的基础上，我将包org.apache.hadoop:hadoop-aws:3.1.1 & com.amazonaws:aws-java-sdk:1.9.5添加到spark-submit参数

浏览 0提问于2019-08-09得票数 1

2回答

hadoop aws版本兼容性

、、、

对于aws、hadoop、hadoop包、蜂箱、火花之间有哪些版本是兼容的，有什么参考吗？例如，我知道Spark与hive 2.1.1之上的Hive版本不兼容

浏览 1提问于2018-03-26得票数 9

回答已采纳

3回答

升级到Spark1.3.0时JAVA_HOME错误

、、、

我正在尝试将一个用Scala编写的Spark项目从Spark1.2.1升级到1.3.0，因此我将build.sbt更改如下： -libraryDependencies += "org.apache.spark" %% "spark-core" % "1.2.1" % "provided" +libraryDependencies += "org.apache.spark" %% "spark-core" % "1.3.0" % "provided" 然后制作一个ass

浏览 1提问于2015-03-20得票数 7

回答已采纳

3回答

Vertica:输入记录1已被拒绝(找到的列太少)

、

我正在尝试将文件从Hadoop复制到Vertica表，并得到一个错误。问题是相同的复制有时通过，有时失败，有什么想法吗？错误：由: com.vertica.util.ServerErrorData.buildException(Unknown : VerticaVJDBC错误: COPY: Input 1被拒绝(发现的列太少)在com.vertica.dataengine.VResultSet.fetchChunk(Unknown源)在com.vertica.dataengine.VResultSet.initialize(Unknown源)在com.vertica.dataengine

浏览 5提问于2015-06-15得票数 1

回答已采纳

1回答

火花的慢速性能

、、、

我是星火的新手。我有一个需求，我需要将星火与Web服务集成起来。对Web服务的任何请求都必须使用Spark处理，然后将响应发送回客户端。我在Vertx中创建了一个小型虚拟服务，它接受请求并使用Spark处理它。我在集群模式下使用星火(1主，2个从站，8个核心，每个32 Gb，运行在Yarn和Hdfs之上) public class WebServer { private static SparkSession spark; private static void createSparkSession(String masterUrl) {

浏览 7提问于2022-04-08得票数 0

1回答

java.io.IOException:帧大小[...]大于最大长度[...]！

、

我在独立模式下运行Spark + Alluxio进行数据访问。更具体地说，我有一个火花大师和一个火花工作者。当运行我的作业时，我得到以下错误： 17/03/22 14:35:43 WARN TaskSetManager: Lost task 0.0 in stage 0.0 (TID 0, 10.254.22.6): java.io.IOException: Frame size (67108864) larger than max length (16777216)! at alluxio.AbstractClient.checkVersion(AbstractClient

浏览 78提问于2017-03-23得票数 0

1回答

火花作为执行引擎与蜂巢

、、、、

spark 2.4.2是否可以作为一个在Amazon上使用Hive2.3.4的执行引擎？我已经通过以下命令将jar文件与hive (scala-库、火花-核心、火花-公共网络)链接起来： cd $HIVE_HOME/lib ln -s $SPARK_HOME/jars/spark-network-common_2.11-2.4.2.jar ln -s $SPARK_HOME/jars/spark-core_2.11-2.4.2.jar ln -s $SPARK_HOME/jars/scala-library-2.11.12.jar 在hive-site.xml中添加了以下设置： <pr

浏览 2提问于2019-07-01得票数 1

1回答

在远程纱线集群上使用spark访问S3文件的问题

、、、

我正在尝试使用S3 (val df=spark.read.csv("s3a://xxxxxx")从csv文件中导入csv文件)火花壳客户端连接到一个远程纱线集群。但是，当我从同一台纱线资源分析器的机器上发射火花壳时，它工作得很好。以下是错误代码： java.lang.VerifyError: Bad type on operand stack Exception Details: Location: org/apache/hadoop/fs/s3a/S3AFileSystem.s3GetFileStatus(Lorg/apache/hadoop/fs/Path;Lja

浏览 0提问于2019-04-02得票数 0

回答已采纳

2回答

如何配置火花放电以访问AWS S3容器？

、、、

我刚开始学习使用火花和AWS。我已将我的星火会话配置如下： spark = SparkSession.builder\ .config("spark.jars.packages", "org.apache.hadoop:hadoop-aws:3.2.0") \ .config("spark.master", "local") \ .config("spark.app.name", "

浏览 38提问于2022-07-11得票数 0

1回答

无法在Scala应用程序中创建Spark SQLContext

、、

我无法创建SQLContext。我的代码： val sc = new SparkContext("local[*]", "myApp") val sqlContext = new SQLContext(sc) 我的sbt import AssemblyKeys._ assemblySettings name := "Ideas" version := "1.0" scalaVersion := "2.10.5" libraryDependencies ++= Seq( "org.scalates

浏览 16提问于2016-08-17得票数 0

1回答

如何用Pyspark从VerticaDB获取数据

、、、、

我试图从VerticaDb中获得数据，但是我有错误，称为类，而不是找到异常。错误：Py4JJavaError:调用o165.load时出错。：com.vertica.spark.datasource.VerticaSource.：java.lang.ClassNotFoundException:未能找到数据源：我的密码在这里： from pyspark import SparkContext, SparkConf from pyspark.sql import SQLContext, SparkSession from pyspark import sql # Create the sp

浏览 7提问于2022-10-13得票数 0

2回答

为什么我可以在eclipse中直接运行星火应用程序，而不需要提交火花。

、、、

1.我的星星之火(独立)集群: spmaster、spslave1、spslave2 2.对于我的简单星星之火应用程序，它从mysql中选择一些记录。 public static void main(String[] args) { SparkConf conf = new SparkConf() .setMaster("spark://spmaster:7077") .setAppName("SparkApp") .set("spark.driver.extraClassP

浏览 8提问于2016-07-08得票数 2

回答已采纳

1回答

火花中的环境变量

、、

我已经在集群模式下安装了hadoop，现在我已经安装了Spark。我想用电火花，这是我的.bashrc # User specific aliases and functions export HADOOP_HOME=/opt/hadoop export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:/opt/hadoop/spark/bin:/opt/hadoop/spark/sbin export JAVA_HOME=/usr/java/jdk1.8.0_202-amd64 #Estas variables las metemos con sp

浏览 8提问于2022-05-09得票数 0

9回答

为什么像Vertica/InfoBright/GreenPlum这样的面向列的数据库会对Hadoop大惊小怪？

、、、

馈送Hadoop集群并使用该集群将数据馈送到Vertica/InfoBright数据仓库有什么意义？所有的供应商都在说“我们可以连接Hadoop"，但我不明白这有什么意义。在Hadoop中存储并迁移到InfoBright中有什么意义？为什么不让应用程序直接存储在Infobright/Vertica DW中？谢谢！

浏览 6提问于2011-11-25得票数 5

1回答

在None.org.apache.spark.api.java.JavaSparkContext错误地执行Win10安装时的火花

、

最近，我一直在努力让Spark在我的Windows 10设备上运行，但没有成功。我只是想试一试Spark，并且能够遵循教程，因此我目前无法访问要连接的集群。为了安装Spark，我完成了以下步骤，我安装了Java并将其放置到C:\jdk中。文件夹中包含bin、conf、include、jmods、legal和lib文件夹。我安装了Java运行时环境并将其放置到C:\jre中。这个文件夹中有bin、legal和lib文件夹。我下载了并将winutils.exe放入C:\winutils\bin中。我创建了一个HADOOP_HOME用户环境变量并将其设置为C:\winutil

浏览 105提问于2021-12-05得票数 2

回答已采纳

1回答

Oozie Spark HBase作业，无效凭据异常

、、、

我确实有一个Kerberos凭证的问题。这项工作基于一个集群，并且在每个datanode上都提供了keytab。基本上，它是一个oozie工作流外壳动作，它的目的是通过spark作业写入HBase。如果该作业在没有oozie的集群模式下运行，它将按预期工作。但是对于oozie，它抛出了一个异常，如下所示： WARN AbstractRpcClient: Exception encountered while connecting to the server : javax.security.sasl.SaslException: GSS initiate failed [Caused by

浏览 4提问于2018-11-26得票数 1

2回答

如何查看see发送到我的数据库的SQL语句？

、、、

我有一个星星团和一个vertica数据库。我使用 spark.read.jdbc( # etc 若要将Spark数据文件加载到群集，请执行以下操作。当我执行某个群函数时 df2 = df.groupby('factor').agg(F.stddev('sum(PnL)')) df2.show() 然后我得到一个vertica语法异常。 Driver stacktrace: at org.apache.spark.scheduler.DAGScheduler.org$apache$spark$scheduler$DAGScheduler$$failJobA

浏览 4提问于2016-11-09得票数 5

回答已采纳

1回答

在Python中引发导入问题

、、、、

我们在python脚本上运行spark-submit命令，该脚本使用Spark在Python中使用Caffe并行化对象检测。如果在纯Python脚本中运行，该脚本本身运行得很好，但在使用Spark代码时，它会返回一个导入错误。我知道spark代码不是问题，因为它在我家里的机器上运行得很好，但在AWS上却运行得不好。我不确定这是否与环境变量有关，就好像它没有检测到它们一样。设置以下环境变量： SPARK_HOME=/opt/spark/spark-2.0.0-bin-hadoop2.7 PATH=$SPARK_HOME/bin:$PATH PYTHONPATH=$SPARK_HOME/pyth

浏览 2提问于2016-10-03得票数 8

1回答

Hadoop纱上的火花安装

、、、

请有人帮帮我，我正试图在Haoop Yarn上安装火花，我收到了以下错误： org.apache.spark.SparkException: Yarn application has already ended! It might have been killed or unable to launch application master. at org.apache.spark.scheduler.cluster.YarnClientSchedulerBackend.waitForApplication(YarnClientSchedulerBackend.scala:11

浏览 3提问于2015-09-02得票数 1

回答已采纳

2回答

EMR6.x上S3A的S3Guard和拼图魔术提交程序

、、

我们使用的是带有Spark 2.3.0和S3Guard的cdh5.13。在EMR 5.x / 6.x上使用相同的资源运行相同的作业后，我们的性能下降了5-20倍。根据的默认提交者(从5.20开始)对S3A不好。我们测试了EMR-5.15.1，并获得了与Hadoop上相同的结果。如果我尝试使用，我会得到 py4j.protocol.Py4JJavaError: An error occurred while calling o72.save. : java.lang.ClassNotFoundException: org.apache.spark.internal.io.cloud.PathO

浏览 0提问于2020-11-25得票数 0

2回答

使用spark将拼图文件加载到vertica数据库中

、、

How to load a parquet file into vertica database using spark??? 链接() 我试着使用上面的链接将数据框(拼图文件)加载到mysql中，它起作用了。但是当我试图将它加载到vertica数据库时，下面的错误是I am facing.The，错误是因为vertica db不支持数据帧(拼图文件)中的数据类型(字符串)。我不想对列进行类型转换，因为这将是一个性能问题。我们希望加载大约2.8亿行。你能建议一下把数据加载到vertica数据库的最好方法吗？ Exception in thread “main” java.sql.SQLSynt

浏览 4提问于2015-10-30得票数 2

1回答

windows中用于python文件的FileNotFoundException

、、、、

我在努力学习火花放电。我已经在我的windows 10机器上安装了python 3.6.5。我正在使用火花版本2.3。我已经从git下载了压缩文件。我随身带着一个WordCount.py文件。当我试图在cmd中运行命令时： spark-submit WordCount.py 我得到了下面的错误。我正在复制WordCount.py的目录中执行此命令。 18/10/14 15:24:41 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java cl

浏览 0提问于2018-10-14得票数 0

回答已采纳

2回答

无法使用java中的spark-redshift库连接到S3

、、

我正在尝试基于spark数据集在Redshift中创建一个表。我正在使用jdbc中的spark-redshift驱动程序在本地实现这一点。执行此操作的代码片段 data.write() .format("com.databricks.spark.redshift") .option("url", "jdbc:redshift://..") .option("dbtable", "test_table") .option("tempdir", "s3://temp") .option(

浏览 2提问于2019-01-25得票数 1

3回答

在Windows 10上点火。“‘Files\Spark\bin\.\jars”不被识别为内部或外部命令

、、、、

我对火花很失望。一个晚上浪费了我做错了什么事情的想法，但我已经卸载和重新安装了几次，遵循多个指南，所有这些都表明了非常相似的路径。在cmd提示符下，我试图运行： pyspark 或 spark-shell 我遵循的步骤包括从以下位置下载预构建的包：包括使用Hadoop2.3和Hadoop2.7的Spark2.0.2和Spark2.1.0。这两种方法都不起作用，我得到了这样的错误： 'Files\Spark\bin\..\jars""\' is not recognized as an internal or external command, oper

浏览 10提问于2017-03-12得票数 3

回答已采纳

1回答

Spark 3流作业失败，无法运行程序"chmod“

、、

Kubernetes上的Spark 3.0使用第三方细分IO REST API从Kafka读取数据并推送数据。我在运行Spark stream作业时遇到以下错误 Caused by: java.io.IOException: Cannot run program "chmod": error=11, Resource temporarily unavailable at java.lang.ProcessBuilder.start(ProcessBuilder.java:1048) at org.apache.hadoop.util.Shell.runCommand(She

浏览 29提问于2020-09-16得票数 0