spark如何在一个目录中只加载部品文件？_如何在参数解析器中传递文件夹图像目录的路径来测试我的文件夹中的所有图像，而不是只测试一个？ - 腾讯云开发者社区

apache-spark、apache-spark-sql

假设我有一个定义的模式，用于在文件夹中加载10个csv文件。是否有一种使用Spark自动加载表的方法。我知道这可以通过对下面给出的每个文件使用一个单独的数据rather来执行，但是它是否可以通过一个命令来实现自动化，而不是指向一个文件，我可以指向一个文件夹吗？ df = sqlContext.read .format("com.databricks.spark.csv") .option("header", "true") .load("../Downloads/2008.csv")

浏览 11提问于2016-06-05得票数 63

回答已采纳

1回答

如何确保从Parquet加载星火DataFrame的分布和并行化？

apache-spark、apache-spark-sql、spark-dataframe、parquet

当火花将源数据从文件加载到DataFrame中时，是将数据完全加载到单个节点(很可能是驱动程序/主节点)上，还是加载到计算所需的最小并行子集(可能是在工作者/执行器节点上)？特别是，如果使用Parquet作为输入格式并通过Spark加载，那么需要考虑哪些因素才能确保将来自DataFrame文件的加载并行化并推迟到执行程序，并将其范围限制在执行节点上的计算所需的列上？ (我希望了解Spark用于在分布式执行计划中调度源数据加载的机制，以便通过加载完整的数据集来避免耗尽任何一个节点上的内存。)

浏览 4提问于2016-11-01得票数 3

回答已采纳

1回答

导入txt文件到ms access m:m表

ms-access、data-import

我是MS Access的新手。我刚刚设置了一个新的Access数据库，以便与我们的原理图工具一起使用。我们的工具可以访问数据库，因此可以很好地工作。在我们的原理图捕获过程结束时，我们生成一个物料清单(BOM)，列出设计中的每个部件。我想要评估哪个部品(每个部品都有一个唯一的部品ID "TUPID")用在哪个线路板上(唯一的线路板ID "UBRID") -所以我建立了一个多对多的表。首先手动输入一些数据看起来不错，导入包含"UBRID“、"TUPID”的文本文件也很好。现在我想导入生成的BOM，它是纯文本，只包含"TUPID“- sch

浏览 11提问于2021-02-23得票数 0

回答已采纳

2回答

如何获得在星火中写入的文件列表？

apache-spark、apache-spark-sql

我想得到一个清单，这些文件是作为Spark命令的结果编写的。我特别使用append模式来更新一组常见的分区，并想知道每个操作都添加了哪些文件。例如，使用基本数据： val jsonString = """[ {"eventId": 1, "date": "20210101", "attributes": ["test", "foo", "bar"]}, {"eventId": 2, "date": "2021010

浏览 2提问于2021-11-08得票数 0

1回答

从复制bin/目录

apache-spark、homebrew

当通过Homebrew安装ApacheSpark2.2.1时，产生的安装位置似乎有两个稍微不同的bin/目录，一个低于另一个。(这个问题底部的目录结构。) 我主要担心的是，load-spark-env.sh (星火环境变量加载脚本)在两者之间看起来完全不同，很难确定正在使用的是哪一个。简而言之，我想知道：为什么这里可能有两个类似的bin/目录？抱歉，如果我错过了火花装置的一些显而易见的东西。如果我将$SPARK_HOME设置为libexec/ (请参见下面)，这里的bin/将始终在其他目录上引用，还是需要设置其他环境变量？信息我在~/.bash_profile中有以下

浏览 0提问于2018-03-01得票数 1

1回答

Spark Scala -将数据帧保存为带有标题的文本文件

scala、apache-spark

DataFrameWriter csv方法生成带有标头的csv部件文件 df.write.mode(SaveMode.Overwrite) .option("header","true").option("delimiter", "\t") .csv("/tmp/files") Databrick的spark-csv也可以处理带有头文件的csv文件，但不能处理带有头文件的文本文件。 dataFrame.write .format("com.databricks.spark.csv") .op

浏览 2提问于2018-10-06得票数 0

2回答

星火壳按分区加载现有的蜂窝表？

scala、apache-spark、apache-spark-sql、spark-shell

在spark-shell中，如何加载现有的Hive表，但只加载其中的一个分区？ val df = spark.read.format("orc").load("mytable") 我正在寻找一种方法，所以它只加载这个表的一个特定分区。谢谢!

浏览 19提问于2020-04-30得票数 0

回答已采纳

2回答

如何使用spark-env.sh文件设置SPARK_LOCAL_DIRS参数

apache-spark、sparklyr

我正在尝试更改spark写入临时文件的位置。我在网上找到的所有东西都说要通过设置spark-env.sh文件中的SPARK_LOCAL_DIRS参数来设置它，但我没有幸运地看到这些更改真正生效。下面是我所做的：亚马逊使用 EC2实例创建了一个2-worker测试集群。我使用spark 2.2.0和R sparklyr包作为前端。worker节点使用弹性伸缩组进行旋转。在/tmp/jaytest创建了一个存放临时文件的目录。在每个worker中有一个，在spark master计算机和两个worker中的master.Puttied中也有一个，导航到home/ubuntu/spark-2.2

浏览 188提问于2018-08-29得票数 6

1回答

如何在提交作业时从火花作业中的外部路径外部化和加载属性文件

apache-spark、apache-spark-sql、databricks、typesafe、typesafe-config

我使用java8和spark 2.4.1编写我的火花作业，其中我使用TypeSafe加载属性文件，即位于"resources“文件夹中的application.properties，其内容如下所示 dev.deploymentMaster=local[8] dev.spark.eventLog.enabled=true dev.spark.dynamicAllocation.enabled=false dev.spark.executor.memory=8g 在程序中，我在提交火花作业(即火花提交)时，加载与下面传递的“环境”变量相同的"dev“变量。 public stat

浏览 2提问于2019-07-31得票数 0

2回答

如何在XSLT中手工创建实体

xslt、xslt-1.0、xslt-2.0

如果我在一个变量中有以'#‘开头的部品，我如何创建实体' '？当我尝试这样做的时候： concat('&', '#160;') 我在XMLspy中得到一个语法错误。

浏览 2提问于2015-06-03得票数 0

3回答

尝试将Spark SQL Dataframe保存在空目录中

scala、apache-spark、dataframe、apache-spark-sql、jupyter-notebook

假设我有一个名为df的DataFrame。我运行以下命令来尝试将其保存到本地： df.coalesce(1). write. format("com.databricks.spark.csv"). option("header", "true"). parquet("example") } 但是，当我这样做并检查是否创建了该文件时(在目录example中，我看到一个目录中只有两个文件： _SUCCESS ._SUCCESS.crc 如何让DataFrame正确保存文件？如果它很重要，我也是通过Jupyt

浏览 0提问于2016-07-07得票数 1

1回答

如何在windows中使用Scala连接Cassandra和Spark

windows、scala、cassandra、apache-spark

我正试图使用Scala连接Spark和Cassandra，如这里所述，在标题下的步骤中遇到了错误： “将连接器加载到星火外壳中：” val test_spark_rdd =sc.cassandraTable(“test_spark”，“test”) 使用上述命令时的test_spark_rdd.first (Bold) 它显示了java.lang.NullPointerException阶段0.0 (TID 0)中任务0.0中的错误异常。我在这里上传了完整的堆栈跟踪 cassandra.YAML文件中的一些rpc设置如下： rpc_address: localhost # rpc_int

浏览 1提问于2015-08-04得票数 0

回答已采纳

1回答

如何从HDFS上包含大量数据的文件夹中加载几天的数据？

apache-spark、hdfs、parquet

假设我在hdfs上有一个文件夹/usr/data/，其中包含许多按日期组织的日期数据，如/usr/data/date=xxxx。我想在zeppelin笔记本中加载一周的数据，所以我所做的是 val data = spark.read.parque("/usr/data/").filter("DATE>='2020-06-05' && 'DATE<=2020-06-12'") 但是，由于/usr/data/的整个数据量太大，无法加载，有没有方法可以只加载一周的数据，而不是先加载整个文件夹？谢谢

浏览 2提问于2020-07-30得票数 0

1回答

如何在中使用目标数据验证器？

apache-spark、validation、databricks、azure-databricks

我正在尝试运行由Target创建的称为数据验证器的数据验证框架，以验证Azure databricks中一个parquet文件中的数据。我已经创建了一个火花作业，它将使用数据验证器fat jar文件。如果我给出一个参数--帮助，我可以获得关于如何使用数据验证器的帮助，但是当我传递--config test_config.yaml文件时，数据验证器找不到该文件。 OpenJDK 64-Bit Server VM warning: ignoring option MaxPermSize=512m; support was removed in 8.0 Warning: Ignoring non

浏览 3提问于2021-12-30得票数 1

1回答

Visual Studio:配置文件中的通用部分和自定义部分

.net、config

我有两个项目'A'，'B‘和第三个项目'Common’。项目A和B是相似的，但并不完全相同。例如，它们有几个参数是完全相同的，还有一些参数是不同的。是否可以在' common‘项目中放置一个带有完全相同部分的配置文件，并将此配置文件加载到项目A和B中。加载此通用配置文件后，我想要将自定义部品添加到配置文件中。

浏览 0提问于2015-06-15得票数 0

2回答

从嵌套子文件夹中读取特定文件。

scala、apache-spark、apache-spark-sql

我正在从一个子文件夹读取一个文件，它的工作正常 val spark = SparkSession .builder() .master("local") .appName("SparkAndHive") .config("spark.sql.warehouse.dir", "/tmp/spark-warehouse2") .enableHiveSupport() .getOrCreate() GeoSparkSQLRegistrator.regis

浏览 3提问于2022-10-10得票数 0

1回答

如何在使用Spark中处理大型目录树？

java、scala、hadoop、apache-spark

我是一个新的Spark用户，我试图在HDFS文件系统上处理大量XML文件集。在一个由1台机器组成的“开发”集群(实际上是一个VM)上，大约有150 k个文件，总计约28 VM。这些文件在HDFS中被组织成一个目录结构，这样一个父目录下就有大约100个子目录。每个“子”目录包含几百到几千个XML文件之间的任何内容。我的任务是解析每个XML文件，使用XPath表达式提取几个值，并将结果保存到HBase。我正试图用Apache来做这件事，但我运气不太好。我的问题似乎是Spark和RDDs工作方式的结合。在这一点上，共享一些伪代码来表达我想要做的事情可能是谨慎的： RDD[String] file

浏览 0提问于2015-11-19得票数 0

2回答

星火+地板“数据库”的设计

apache-spark、apache-spark-sql、parquet

我每天有100 G的文本文件，我希望创建一个有效的“数据库”从火花访问。所谓“数据库”，我指的是对数据执行快速查询的能力(大约一年前)，并且每天递增地添加数据，最好没有读锁。假设我想使用Spark和parquet，那么实现这一点的最佳方法是什么？放弃并发读写，并将新数据附加到现有的parquet文件中。为每一天的数据创建一个新的拼花文件，并使用Spark可以加载多个拼花文件的事实来允许我加载例如一整年。这实际上给了我“并发性”。还有别的吗？请随意建议其他的选择，但让我们假设我现在使用的地板，因为从我已经读到的，这将是有益的其他许多。

浏览 7提问于2016-01-18得票数 5

1回答

如何正确地将数百万个文件加载到RDD中

apache-spark、rdd

我有一个非常大的json文件集(超过一百万个文件)，我想和Spark一起工作。但是，我以前从来没有尝试过将这么多数据加载到RDD中，所以我实际上不知道是否可以这样做，或者甚至不知道是否应该这样做。在Spark的RDD(s)中处理这些数据量的正确模式是什么？

浏览 0提问于2016-01-13得票数 0

1回答

有没有办法让技能脚本找到和替换原理图上的部件？

cadence

我正在尝试编写一个技能脚本，用原始部品和所需的替换件替换给定的csv文件上的原理图上的部品。到目前为止，我已经浏览了Intro to Skill Programming。我只看到有关文件I/O的信息，据我所知，没有任何信息允许脚本查找和替换原理图中的部件。

浏览 24提问于2021-11-02得票数 0

1回答

三角洲湖:如何在内部工作？

apache-spark、databricks、delta-lake

在我们的数据管道中，我们从数据源中摄取CDC事件，并将这些更改写入AVRO格式的“增量数据”文件夹中。然后定期运行Spark作业，将这些“增量数据”与当前版本的“快照表”(ORC格式)合并，以获得上游快照的最新版本。在这个合并逻辑中： 1)将“增量数据”加载为DataFrame df1。 2)将当前的“快照表”加载为DataFrame df2 3)合并df1和df2，取消复制ids，并使用最新版本的行(使用update_timestamp列) 这个逻辑将“增量数据”和当前“快照表”的整个数据加载到Spark内存中，这取决于数据库。我注意到，在Delta Lake中，使用以下代码完成了类似

浏览 1提问于2019-12-25得票数 4

回答已采纳

1回答

在spark-submit期间找不到org.postgresql.Driver的驱动程序异常

scala、apache-spark

我正在尝试学习一个基于IntelliJ IDEA的Scala-Spark JDBC程序。为此，我创建了一个Scala SBT项目，项目结构如下：在类中编写JDBC连接参数之前，我尝试加载一个包含所有连接属性的属性文件，并尝试显示它们是否正确加载，如下所示： testconnection.properties： devUserName=username devPassword=password gpDriverClass=org.postgresql.Driver gpDevUrl=jdbc:url 代码： package com.yearpartition.obj import java.

浏览 0提问于2018-07-23得票数 0

2回答

如何将配置文件添加到Spark 1.2.0中所有Spark executors的类路径中？

apache-spark、classpath、hadoop-yarn、typesafe-config

我正在使用Typesafe Config，，通过一个配置文件来参数化在yarn集群模式下运行的Spark作业。Typesafe Config的默认行为是在类路径中搜索名称与正则表达式匹配的资源，并使用ConfigFactory.load()自动将它们加载到您的配置类中(对于我们的目的，假设它查找的文件名为application.conf)。我可以使用--driver-class-path <directory containing configuration file>将配置文件加载到驱动程序中，但是使用--conf spark.executor.extraClassPath=&

浏览 0提问于2015-07-30得票数 20

回答已采纳

1回答

在JAR中添加Spark和Hadoop配置文件？

hadoop、apache-spark、cloudera

我有一个Spark应用程序，我想使用配置文件来配置它，比如Spark的spark-defaults.conf、HBase的hbase-site.xml和log4j的log4j.properties。我还希望避免不得不以编程方式添加文件。我尝试将这些文件添加到我的JAR (在/和/conf路径下)，但是当我运行spark-submit时，配置文件似乎没有任何效果。为了进一步验证我的声明，我尝试使用相同的JAR运行spark-shell并检查文件的内容，我发现它们被来自其他位置的文件覆盖：/spark-defaults.conf和/log4j.properties完全不同，而/conf/hba

浏览 2提问于2015-09-24得票数 1

6回答

如何在外壳中装载火花卡桑德拉连接器？

cassandra、apache-spark、datastax-enterprise

我试图在Spark1.1.0中使用。我已经成功地从GitHub上的主分支构建了jar文件，并且已经获得了包含的演示程序。但是，当我试图将jar文件加载到spark-shell中时，我无法从com.datastax.spark.connector包中导入任何类。我尝试在--jars上使用spark-shell选项，并将包含jar文件的目录添加到Java中。这两个选项都不起作用。事实上，当我使用--jars选项时，日志记录输出显示Datastax正在加载，但我仍然不能从com.datastax导入任何东西。我已经能够使用spark-shell将Tuplejump卡桑德拉连接器加载到--jar

浏览 5提问于2014-09-14得票数 28

回答已采纳

1回答

如何找到当前spark context中加载的所有textFile？

python、apache-spark、hadoop、pyspark

例如，当我在Spark Shell中使用PySpark时，我可能会使用以下命令将一个文件加载到spark上下文中： readme = sc.textFile("/home/data/README.md") 然后，我可以对此RDD(?)执行操作如下所示，统计文件中的行数： readme.count() 然而，我想知道的是，我如何才能获得已加载到sc (spark context)中的所有sc.textFile(s)的列表？例如，下面有一些命令可以获得所有的配置，但它并没有列出我加载的所有textFile。 sc._conf.getAll() 有没有办法找到已经加载到spar

浏览 0提问于2019-05-19得票数 0

1回答

“格式()”在火花放电中加载数据时做什么

apache-spark、pyspark

我开始使用spark，通常在从云中加载数据时，我会看到以下代码 my_sdf = spark.read.format("com.databricks.spark.csv").option("delimiter", ' ').load("s3n://myfolder/data/xyz.txt") 我的问题如下:这里我们似乎有两个数据集:一个是com.databricks.spark.csv，因为它是一个csv文件，对吗？另外一个数据集是xyz.txt，因为它是一个txt文件。那么在这个命令中，我要加载哪个数据集呢？我自己做了实验，似

浏览 0提问于2017-03-06得票数 0

1回答

parquet.Preconditions.checkState(ZLjava/lang/String;)V :java.lang.NoSuchMethodError

apache-spark

运行Spark1.3.1和1.4.1时得到以下错误 parquet.Preconditions.checkState(ZLjava/lang/String；：java.lang.NoSuchMethodError( parquet.schema.Types$PrimitiveBuilder.build(Types.java:314) at parquet.schema.Types$PrimitiveBuilder.build(Types.java:232) at parquet.schema.Types$Builder.named(Types.java:210) at org.apache.

浏览 0提问于2015-08-02得票数 2

1回答

在hdfs目录之间移动文件，作为scala应用程序的aprt

scala、apache-spark、hdfs

当我在星火应用程序中的两个HDFS文件夹之间移动文件时，我面临着问题。我们使用Spark2.1版本和Scala作为编程语言。我导入了org.apache.hadoop.fs包和“rename”方法，作为移动文件的工作，因为我找不到在该包中“在hdfs文件夹之间移动文件”的方法。代码如下。 import org.apache.hadoop.conf.Configuration import org.apache.hadoop.fs.{FileSystem, Path} def move_files(fileName, fromLocation:String, toLocat

浏览 0提问于2018-06-20得票数 1

回答已采纳

1回答

正在读取包含.mani/清单文件的存储桶目录

apache-spark、pyspark、apache-spark-sql

我有一个目录，如下所示，需要在不读取.mani (清单文件)的情况下，将年份作为一列读取spark.read.parquet('car_data')。我可以使用通配符'car_data/year=*/*.parquet'读取数据，但这不会将keep year添加为列。我遇到的问题是，如果我加载目录，就像你对存储桶的数据一样，我会得到一个错误，因为Spark试图将mani文件读取为parquet，但之后我无法使用通配符跳过它们！有没有其他方法可以做到这一点？编辑:我现在也尝试过spark.read.load('/car_data/', form

浏览 5提问于2021-05-18得票数 0

1回答

如何在游戏框架的生产模式中包含文件

scala、intellij-idea、playframework、apache-spark

我的环境概述: Mac，Play Framework2.3.7，SBT0.13.7，Intellij 14，java 1.8.0_25 我试图在Play框架中运行一个简单的Spark程序，所以我只需在Intellij中创建一个Play 2项目，并按如下方式更改一些文件： app/控制器/Application.scala： package controllers import play.api._ import play.api.libs.iteratee.Enumerator import play.api.mvc._ object Application extends Control

浏览 3提问于2014-12-24得票数 7

回答已采纳

2回答

Spark Dataset加载多个CSV文件，如果所有文件中的标头不相同，则报告不匹配

hadoop、apache-spark、apache-spark-sql、apache-spark-dataset、apache-spark-2.0

我正在尝试使用spark 2.1.0 API将多个csv文件从hdfs目录加载到Spark DataSet中： val csvData = spark.read.option("header", "true").csv("csvdatatest/") 在"csvdatatest“文件夹中有多个csv文件。Spark只从第一个文件中选取头部，并将其生成为DataSet的架构，忽略其余csv文件的头部。e.g hadoop fs -ls /user/kumara91/csvdatatest Found 2 items /user/kumara

浏览 0提问于2017-11-06得票数 1

1回答

什么时候加载自定义TableCatalogs？

apache-spark、apache-spark-sql

我在Spark3.0.0中创建了一个自定义目录： class ExCatalogPlugin extends SupportsNamespaces with TableCatalog 我提供了一个配置，要求Spark加载目录： .config("spark.sql.catalog.ex", "com.test.ExCatalogPlugin") 但是Spark从不加载插件，在调试期间，initialize方法中没有任何断点被击中，并且它公开的名称空间都不被识别。也没有记录错误消息。如果我将类名更改为无效的类名，也不会引发错误。我编写了一个类似于Spark代码中

浏览 2提问于2020-06-22得票数 1

回答已采纳

1回答

无法用pyspark加载多个json文件。

pyspark

我刚开始使用pyspark，并且尝试从包含多个json files.However的文件夹中加载数据，加载失败。下面是我使用的代码： spark = SparkSession.builder.master("local[1]") \ .appName('SparkByExamples.com') \ .getOrCreate() spark.read.json('file_directory/*') 我收到的错误是:线程中的异常"globPath-ForkJoinPool-1

浏览 4提问于2022-03-07得票数 0

1回答

如何从火花中具有不同格式的多个文件创建一个DataFrame？

apache-spark、apache-spark-sql

我知道我可以使用spark.read.csv()或spark.read.json()将CSV文件或JSON文件作为一个DataFrame加载，但是如果我的源文件实际上是不同格式的，例如，我的一些原始数据在CSV文件中，而另一些在JSON文件中呢？我是否可以创建一个包含来自CSV和JSON文件的数据的DataFrame？也许我应该分别加载它们并在DataFrames上使用JOIN操作，或者我应该首先将所有JSON数据转换成CSV并使用单个spark.read.csv()加载它们，但是我想听听您的建议，因为我对Spark还是新手。

浏览 0提问于2021-08-14得票数 0

回答已采纳

3回答

无法从垃圾箱运行火花壳

linux、apache-spark、environment-variables

我是新来的火花，我下载了预编译火花。当我尝试从命令行上的bin文件夹运行shell时，它将返回 :cd /users/denver/spark-1.6/bin :spark-shell 找不到命令但如果我像这样运行 :cd /users/denver/spark-1.6 :./bin/spark-shell 它发射火花..。你能告诉我为什么在第一种情况下会出现错误吗？

浏览 3提问于2016-02-25得票数 1

回答已采纳

2回答

Spark/Scala打开压缩的CSV文件

scala、apache-spark

我是Spark和Scala的新手。我们有广告事件日志文件格式为CSV的，然后使用pkzip压缩。我见过很多关于如何使用Java解压压缩文件的例子，但是我该如何使用Scala for Spark来解压呢？最终，我们希望从每个传入文件中获取、提取数据并将其加载到Hbase目标表中。也许这可以用HadoopRDD来完成？在此之后，我们将引入Spark streaming来查看这些文件。谢谢，本

浏览 1提问于2014-02-19得票数 5

1回答

Spark数据帧检查点清理

scala、apache-spark、hive

我在spark中有一个dataframe，其中已经加载了来自Hive的整个分区，在对数据进行了一些修改之后，我需要打破谱系来覆盖相同的分区。但是，当spark作业完成后，我只剩下HDFS上检查点的数据。为什么Spark不能自己解决这个问题，或者是我遗漏了什么？ spark.sparkContext.setCheckpointDir("/home/user/checkpoint/") spark.conf.set("spark.sql.sources.partitionOverwriteMode", "dynamic") val df = sp

浏览 23提问于2020-02-01得票数 7

1回答

在spark中从HDFS加载文件

apache-spark、hdfs

我尝试从HDFS运行这个spark程序，因为当我在本地运行它时，我的pc上没有足够的内存来处理它。有人可以告诉我如何从HDFS加载csv文件，而不是在本地加载吗？下面是我的代码： import org.apache.spark.sql.Dataset; import org.apache.spark.sql.Row; import org.apache.spark.sql.SaveMode; import org.apache.spark.sql.SparkSession; import org.apache.spark.sql.types.StructType; public class

浏览 0提问于2018-04-19得票数 0

1回答

手工选择镶木地板分区与在pyspark中过滤它们

pyspark、parquet、hadoop-partitioning

这可能是一个愚蠢的问题，但手动指定拼图文件中的分区列与加载并过滤它们有什么不同吗？例如:我有一个由DATE分区的拼图文件。如果我想要最后10天，我通常可以这样做：(假设今天是2020-10-26) df=spark.read.parquet("s3://bucket/path/file.parquet")\ .filter(col('DATE')>'2020-10-15') 或者，我可以使用S3文件系统仅加载spark数据帧中所需的分区，如下所示： inpath="s3://bucket/path/file.parquet/&#

浏览 11提问于2020-10-26得票数 0

回答已采纳

1回答

如何在Google Dataproc工作节点上缓存数据

apache-spark、pyspark、google-cloud-platform、spark-streaming、google-cloud-dataproc

我想在工作节点上本地缓存一些数据( ndarray )，以便与从Spark streaming传入的RDDs分发的ndarray进行一些比较。做这件事最好的方法是什么？因为我想将存储在我的文件中的ndarray与从Spark streaming传入的每个ndarray进行比较。我似乎不能将这些数据加载到RDD中，因为我不能在另一个RDD的map函数中遍历另一个RDD。我尝试将它们加载到主节点上的列表中，并将它们广播到工作节点。但是当我尝试遍历广播变量并与传入数据进行比较时，我得到了一个错误，广播变量是不可迭代的。

浏览 0提问于2018-05-05得票数 0

1回答

如何在EMR for Scala对象上解决Spark 3加载类失败的问题

scala、apache-spark、sbt

我正在尝试构建一个简单的基于Scala的Spark应用程序并在电子病历中运行它，但是当我运行它时，我得到的是Error: Failed to load class: com.myorganization.MyScalaObj。我的Scala文件是： package com.myorganization import org.apache.spark.sql.SparkSession object MyScalaObj extends App { val spark = SparkSession.builder() .master(("local[*]"))

浏览 17提问于2020-10-02得票数 1

回答已采纳

2回答

Apache Spark是否从目标数据库加载整个数据？

apache-spark、jdbc、vertica、pyspark-sql

我想使用Apache Spark并通过JDBC连接到Vertica。在Vertica数据库中，我有1亿条记录，spark代码在另一台服务器上运行。当我在Spark中运行查询并监控网络使用情况时，两个服务器之间的流量非常高。似乎Spark从目标服务器加载了所有数据。这是我的代码： test_df = spark.read.format("jdbc") .option("url" , url).option("dbtable", "my_table") .option("user", "

浏览 5提问于2017-02-16得票数 1

1回答

星火Scala，自包含应用程序中的空jar

scala、apache-spark、sbt

我试着遵循这里的教程：。使用命令sbt package，我获得了一个空jar。随后的命令： spark-submit --class SimpleApp --master local[4] target/scala-2.11/simple-project_2.11-1.0.jar 在以下方面的成果： java.lang.ClassNotFoundException: SimpleApp at java.net.URLClassLoader.findClass(Unknown Source) at java.lang.ClassLoader.loadClass(U

浏览 2提问于2016-10-31得票数 1

回答已采纳

1回答

如何在Spark中向数据集添加模式？

apache-spark

我正在尝试将一个文件加载到spark中。如果我将一个普通的textFile加载到Spark中，如下所示： val partFile = spark.read.textFile("hdfs://quickstart:8020/user/cloudera/partfile") 结果是： partFile: org.apache.spark.sql.Dataset[String] = [value: string] 我可以在输出中看到一个数据集。但是如果我加载一个Json文件： val pfile = spark.read.json("hdfs://quickstart:80

浏览 6提问于2017-07-07得票数 0

回答已采纳

1回答

使用sparkJDBCDataset加载数据，但jars不起作用

pyspark、spark-jdbc、kedro

当使用sparkJDBCDataset通过JDBC连接加载表时，我总是遇到spark找不到我的驱动程序的错误。该驱动程序确实存在于机器上，其目录是在config/base下的spark.yml文件中指定的。我还按照说明在src/project_name/run.py中添加了def init_spark_session方法。不过，我怀疑这里定义的sparksession并没有被sparkJDBCDataset类拾取。当您查看用于在sparkJDBCDataset中创建sparksession和加载数据集的源代码时，它看起来像是定义了一个没有配置的普通sparksession来加载和保存数据。

浏览 27提问于2020-03-19得票数 2

1回答

使用Scala install在R中运行SparklyR代码

r、scala、apache-spark、rstudio、sparklyr

希望使用sparklyr Spark install中包含的自定义scalac (Scala编译器)；可以在RStudio SparkUI选项卡(或从spark_web(sc))中找到>>环境>> /jars/scala-compiler-2.11.8.jar作为“系统环境”--而不是像中建议的那样，在基本目录中单独下载和安装scalac，并且链接到创建扩展的页面。这是我目前使用的Ubuntu，但在下面的错误中停滞不前。我设置了一个与上面"hello world“示例中使用的Github-repo完全相同的目录。知道如何在不安装到建议的基本路径文件夹--即/o

浏览 2提问于2016-12-12得票数 2

1回答

如何使火花放电和SparkSQL在星火上执行蜂巢？

python、apache-spark、pyspark、hive、apache-spark-sql

我已经安装和设置了和集成。通过使用spark-shell / pyspark，我还遵循并实现了创建Hive表，加载数据，然后正确选择。然后转到下一步，设置。通过使用hive / beeline，我还可以创建Hive表，加载数据，然后进行适当的选择。蜂箱在纱线/火花上正确地执行。我怎么知道它起作用了？hive外壳显示以下内容： hive> select sum(col1) from test_table; .... Query Hive on Spark job[0] stages: [0, 1] Spark job[0] status = RUNNING ---------------

浏览 0提问于2020-02-23得票数 0

回答已采纳

1回答

无法访问Autoloader中的某些JSON属性

databricks-autoloader

我有一个JSON文件，由两个不同的Autoloader加载。一种是使用模式演化，除了替换json属性名称中的空格之外，直接将json写到一个增量表中，我可以看到所有的值都在那里。在第二个例子中，我将映射到一个已定义的模式，并且只使用属性的子集。因此，使用大量的withColumn，然后使用一个select来缩小到我定义的列列表。 Autoloader定义： df = (spark .readStream .format('cloudFiles') .option('cloudFiles.format', 'json')

浏览 12提问于2022-07-21得票数 0

1回答

来自多个文件的Azure数据库星火表

sql、azure、apache-spark、databricks

我能够在一个XML文件上创建如下所示的表 CREATE TABLE mytab USING com.databricks.spark.xml OPTIONS ( path "/mnt/srcdir/myxmlfile.xml", rowTag "xmltag") 但是，我在一个目录中有多个XML文件，我希望将它们全部加载到单个表“mytab”中。我尝试了以下方法，但失败了 CREATE TABLE mytab USING com.databricks.spark.xml OPTIONS ( path "/mnt/srcdir/",

浏览 0提问于2018-03-22得票数 0