spark如何在两个数据集连接后自动推断数据集？_连接来自同一spark流数据集的两个流_使用Spark SQL joinWith，我如何连接两个数据集，以基于日期将当前记录与其以前的记录进行匹配？ - 腾讯云开发者社区

apache-spark、spark-streaming、spark-structured-streaming

我正在使用星火结构化流处理来自卡夫卡的数据。我将每条消息转换为JSON。但是，spark需要一个显式的模式才能从JSON获得列。使用DStreams的火花流允许执行以下操作 spark.read.json(spark.createDataset(jsons)) 其中jsons是RDD[String]。在星火结构流的情况下类似的方法 df.sparkSession.read.json(jsons) (jsons是DataSet[String]) 出现以下异常的结果 Exception in thread "main" org.apache.spark.sql.AnalysisEx

浏览 1提问于2018-02-05得票数 2

1回答

Spark正在广播不用于广播的大型数据集

apache-spark

我使用的是Spark 2.3.0，我有两个数据集，它们都相当大，400 MB+。当我加入这些的时候，Spark试着播放其中的一个。列数较少的那个(如果它有助于识别RCA的话)。它失败的原因是: java.util.concurrent.TimeoutException: Futures timed out after 300秒错误，因为我有相关配置的默认设置。我有spark.sql.broadcastTimeout和spark.sql.autoBroadcastJoinThreshold (10MB)的默认设置，我不想尽可能多地禁用广播。在分类时，我发现如果我设置broadcastTime

浏览 0提问于2019-05-16得票数 1

1回答

Spark Dataset:如何在平面映射后更改列的别名？

apache-spark、apache-spark-dataset

我有两个spark数据集，我正在尝试加入。连接键是嵌套在数据集A中的，所以在连接数据集B之前，我必须首先将其平面化。问题是，一旦我平面化了该字段，列名就变成了默认的"_1“、"_2”等。是否可以以某种方式更改别名？ A.flatMap(a => a.keys).join(B).where(...)

浏览 0提问于2017-10-05得票数 0

1回答

铸造将上传的csv转换为dataframe

pyspark、palantir-foundry

如何使用代码工作簿将上传的CSV转换为铸造中的数据？我应该在spark.read中使用@transform装饰器吗.(不确定确切的语法)？ Thx!！

浏览 4提问于2022-03-30得票数 1

1回答

如何在spark Scala中将模式从另一个文件添加到文件

sql、scala、apache-spark、hadoop

我在Spark中工作，使用Scala 我有两个csv文件，一个具有列名，另一个具有数据，我如何将这两个文件集成在一起，以便我可以生成一个具有模式和数据的结果文件，然后我必须对该文件应用诸如groupby、cout等操作，因为我需要计算这些列中的不同值。所以有没有人能帮上忙呢我写了下面的代码，在读取了这两个文件之后，我从这两个文件中生成了两个DF，然后我使用联合连接了这两个DF，现在我可以如何将第一行作为schema，或者以任何其他方式继续进行。任何人都可以提出建议。 val sparkConf = new SparkConf().setMaster("local[4]&

浏览 17提问于2019-01-18得票数 0

1回答

如何将流与以前的窗口数据连接起来？

apache-spark、spark-structured-streaming

我们每15分钟就会收到几百万条记录。在spark structured streaming中，将相同in的当前记录集与以前的记录集连接的最佳方式是什么？如何在重启后重新初始化之前的状态？我们已经尝试了HBase来存储之前的状态，但是它变得非常慢。如果我们使用spark任意会话，如何在重启后重新初始化以前的状态？我们现在已经在Kafka streams中实现了这一点。但是想知道在spark structured streaming中是否有实现的方法。

浏览 2提问于2020-07-15得票数 2

1回答

SQLcontext将字符串字段更改为Long :Spark1.5

java、apache-spark、apache-spark-sql、parquet

我已将我的记录保存为拼花格式，并且正在使用Spark1.5。但是，当我试图获取列时，它会抛出异常。 java.lang.ClassCastException:不能将java.lang.Long转换为org.apache.spark.unsafe.types.UTF8String。此字段在编写拼花时保存为字符串。下面是相同的示例代码和输出。 logger.info("troubling thing is ::" + sqlContext.sql(fileSelectQuery).schema().toString()); DataFrame df= sql

浏览 7提问于2015-10-09得票数 2

回答已采纳

2回答

火花写入为字符串，以数值形式读取分区列

scala、apache-spark、parquet、partition

我发现我的商业代码有一些非法的数据，调试后，我发现这个bug是由火花分区解决的，我应该做些什么来避免这个问题而不改变写分区列。 import org.apache.spark.sql.functions.lit import spark.implicits._ val df = Seq(("122D", 2), ("122F", 2), ("122", 2)) .toDF("no", "value") .withColumn("other", lit(1)) val pa

浏览 11提问于2021-12-30得票数 0

回答已采纳

1回答

星火中Oracle表之间的连接

java、oracle、apache-spark

我需要在两个Oracle表之间做一个连接，然后通过Spark (用Java)处理数据。这样做的最佳选择是什么？-利用本机Oracle join功能，然后通过诸如"select * from table1，table2 where 1.fk= table2.pk“之类的查询在Spark中加载单个数据集或利用Spark连接功能加载2个不同的数据集(每个Oracle表一个)，然后通过dataset函数Dataset.join执行连接？谢谢!

浏览 0提问于2020-04-26得票数 0

回答已采纳

2回答

合并排序如何在星火中工作，为什么它可以抛出OOM？

apache-spark

我想深入了解合并排序加入星火的概念。我理解总体思路:这是与合并排序算法相同的方法:获取2个排序数据集，比较第一行，编写最小行，重复。我还理解如何实现分布式合并排序。但是，我无法了解它是如何在Spark中实现的，涉及分区和执行器的概念。，这是我的想法，考虑到我需要连接两个表A和B。如果这很重要的话，表可以通过Spark从Hive读取。默认情况下，Spark使用200个分区。火花将计算连接键范围(从minKey(A，B)到maxKey(A，B) )，并将其分割成200个部分。这两个数据集将按键范围划分为200个部分:a-分区和B-分区. 每个与相同密钥相关的A-分区和B-

浏览 5提问于2021-04-29得票数 6

1回答

spark.read.format("csv")与spark.read.csv的不同性能

csv、pyspark

有人知道spark.read.format("csv")和spark.read.csv之间的区别吗？有些人说"spark.read.csv“是"spark.read.format("csv")”的别名，但我看到了两者之间的区别。我用一个新的difference会话执行了下面的每个命令，这样就没有缓存了。 DF1花了42秒，而DF2只花了10秒。csv文件是60+ GB。 DF1 = spark.read.format("csv").option("header", "true").option(&

浏览 0提问于2019-07-05得票数 2

回答已采纳

1回答

无法初始化类com.datastax.oss.driver.internal.core.config.typesafe.TypesafeDriverConfig

pyspark、cassandra、databricks、azure-databricks、spark-cassandra-connector

我使用Azure Databricks解决方案连接到Cassandra。我的Cassandra实例在某个特定端口公开，并可从cqlsh访问。Cassandra显示版本返回： [cqlsh 6.0.0 | Cassandra 3.11.10 | CQL spec 3.4.4 | Native protocol v4] 我创建了运行在运行时上的Cluster： 7.3 LTS (includes Apache Spark 3.0.1, Scala 2.12) 我安装了以下库：com.datastax.oss:java-driver-core:4.12.0和com.datastax.spark:sp

浏览 13提问于2022-04-25得票数 1

回答已采纳

1回答

以Kafka为源的结构化流中的JSON模式推理

apache-spark、apache-kafka

我目前正在使用从Kafka主题中读取json数据。json作为字符串存储在主题中。为了实现这一点，我提供了一个硬编码的JSON模式作为StructType。我正在寻找一种在流过程中动态推断主题模式的好方法。这是我的代码：(这是Kotlin，而不是通常使用的Scala) spark .readStream() .format("kafka") .option("kafka.bootstrap.servers", "kafka:9092") .option("subscribe", "my_t

浏览 2提问于2020-10-21得票数 1

回答已采纳

1回答

如何在不加载数据的情况下使用Spark Scala创建与Oracle的连接？

sql、oracle、scala、apache-spark

有没有标准的Scala类/对象可以创建一个简单的与oracle数据库的连接(使用JDBC)，但不需要加载特定的表？我只想创建一个简单的连接，然后传递一些查询(创建/更新等)。最后关闭连接。我见过这样的代码： val jdbcDF = spark.read .format("jdbc") .option("url", "jdbc:postgresql:dbserver") .option("dbtable", "schema.tablename") .option("user", &

浏览 0提问于2021-01-13得票数 3

1回答

在spark/scala中读取s3时，分区id被隐式转换

scala、apache-spark、amazon-s3、apache-spark-sql、parquet

我有s3中的源数据，我的spark/scala应用程序将在一个新的partition_id列上对它进行分区之后，读取这些数据并将其写成拼花文件。partition_id的值将通过从具有字母数字字符串值的另一个id列中获取前两个字符来导出。例如： id = 2dedfdg34h, partition_id = 2d 将数据写入s3后，将为每个分区创建单独的分区文件夹，并且一切看起来都很好。例如： PRE partition_id=2d/ PRE partition_id=01/ PRE partition_id=0e/ PRE partition_id=fg/ PRE partition_id=

浏览 1提问于2019-09-25得票数 1

回答已采纳

1回答

“格式()”在火花放电中加载数据时做什么

apache-spark、pyspark

我开始使用spark，通常在从云中加载数据时，我会看到以下代码 my_sdf = spark.read.format("com.databricks.spark.csv").option("delimiter", ' ').load("s3n://myfolder/data/xyz.txt") 我的问题如下:这里我们似乎有两个数据集:一个是com.databricks.spark.csv，因为它是一个csv文件，对吗？另外一个数据集是xyz.txt，因为它是一个txt文件。那么在这个命令中，我要加载哪个数据集呢？我自己做了实验，似

浏览 0提问于2017-03-06得票数 0

1回答

Spark如何通过连接操作执行SQL查询？

postgresql、apache-spark、apache-spark-sql

对于以下操作，要在spark中运行sql语句，将PostgreSQL中的两个表连接起来： val df = spark.read.jdbc(url, 'select * from table_1 join table_2 on a where x', connproperties); 数据库引擎会执行连接操作并将连接结果发回吗？或者数据库会将table_1和table_2的所有记录发送给火花作业和火花作业，这样加入吗？有什么文件来解释这个操作吗？谢谢!

浏览 3提问于2021-04-14得票数 0

回答已采纳

1回答

SparklyR:直接转换为拼花面板

r、apache-spark、sparklyr

您好，我是集群计算的新手，目前我只在独立集群(sc <- spark_connect(master = "local", version = '2.0.2'))上使用。我有一个巨大的csv文件(15 of )，我想将其转换为拼图文件(第三段代码解释了原因)。这个15 to的文件已经是一个60 to文件的样本，当我停止游戏时，我需要使用/查询整个60 to的文件。目前我所做的是： > system.time({FILE<-spark_read_csv(sc,"FILE",file.path("DATA/FILE.csv&#

浏览 0提问于2017-06-19得票数 2

2回答

Apache Spark是否从目标数据库加载整个数据？

apache-spark、jdbc、vertica、pyspark-sql

我想使用Apache Spark并通过JDBC连接到Vertica。在Vertica数据库中，我有1亿条记录，spark代码在另一台服务器上运行。当我在Spark中运行查询并监控网络使用情况时，两个服务器之间的流量非常高。似乎Spark从目标服务器加载了所有数据。这是我的代码： test_df = spark.read.format("jdbc") .option("url" , url).option("dbtable", "my_table") .option("user", "

浏览 5提问于2017-02-16得票数 1

1回答

如何在Mule中连接到Apache Spark Stream？

apache-spark、mule、spark-streaming、anypoint-studio

我需要连接到Apache Spark Stream，那里的输入将来自Kafka和处理后的数据，然后转到Cassandra。我试图找到Spark连接器，但没有得到任何结果。是否有可用的自定义连接器？如何在Mule中使用Apache Spark Stream？

浏览 0提问于2017-03-13得票数 0

2回答

只从卡桑德拉拉出星火中所需的列，而不加载所有列

apache-spark、pyspark、cassandra、spark-cassandra-connector

使用连接器，可以直接将所需列从ES加载到Spark。然而，使用火花-卡桑德拉连接器，似乎不存在这样一个直接向前的选项来进行同样的操作。将ES中的数据读入火花--这里只有必需的列被从ES带到Spark： spark.conf.set('es.nodes', ",".join(ES_CLUSTER)) es_epf_df = spark.read.format("org.elasticsearch.spark.sql") \ .option("es.read.field.include", "id_,empl

浏览 1提问于2020-06-18得票数 0

回答已采纳

1回答

用于双变量可视化的空间连接

csv、apache-spark、apache-zeppelin

我想知道我是否可以使用Spatial Join函数来可视化基于两个变量的数据集。我的csv有541000行，我正在尝试使用Spark在Zeppelin中进行可视化，以最大限度地减少de点绘制。我见过的所有示例都是针对GIS系统的，但没有我需要的数据类型。我的csv是这样的： id, variableX, variableY, type. 我正在尝试将空间连接逻辑应用于variableX和variableY。谢谢。

浏览 0提问于2017-01-26得票数 0

2回答

从mysql读取火花外壳中的数据

mysql、apache-spark、integration

首先，我构建了scala应用程序，使用这一行代码从apache中的mysql表中读取数据。 val spark = SparkSession.builder().master("local").appName("Fuzzy Match Analysis").config("spark.sql.warehouse.dir","file:///tmp/spark-warehouse").getOrCreate() import spark.implicits._ var df = spark.read.format("jdbc

浏览 2提问于2017-10-02得票数 1

1回答

Spark db连接器正在删除大多数行为空的列。

azure、apache-spark、azure-cosmosdb、azure-databricks

我试图使用以下代码从cosmos db中读取30K行数据，使用spark连接器 val readConfig = Config(Map( "Endpoint" -> "", "Masterkey" -> "", "Database" -> "", "Collection" -> "", "PreferredRegions" -> "", "query_custom"

浏览 0提问于2021-05-22得票数 3

回答已采纳

1回答

Spark SQL连接的数据集似乎已合并到较少的分区中

apache-spark-sql

我正在执行一个内连接，其中左数据集和右数据集被同一列重新划分为同一作业中的2001个分区。我期望连接的数据集也有2001个分区，但它有200个分区，这是spark.sql.shuffle.partitions的默认值。有人能建议在什么情况下spark可以决定减少连接数据集上的分区数量吗？问候特里。

浏览 1提问于2018-08-21得票数 0

1回答

java.lang.RuntimeException:编码时出错: java.lang.ArrayIndexOutOfBoundsException: 1

java、apache-spark、apache-spark-dataset

当我尝试连接来自数据库和csv文件的两个数据集时，我遇到了一个错误，错误消息如下： org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 14.0 failed 1 times, most recent failure: Lost task 0.0 in stage 14.0 (TID 14, localhost, executor driver): java.lang.RuntimeException: Error while encoding: java.lang.ArrayI

浏览 23提问于2019-10-11得票数 2

1回答

不支持Spark 2.1.0 UDF模式类型

scala、apache-spark、user-defined-functions

我使用一个名为Point(x: Double，y: Double)的数据类型。我尝试使用列_c1和_c2作为Point()的输入，然后创建一个新的Point值列，如下所示 val toPoint = udf{(x: Double, y: Double) => Point(x,y)} 然后我调用这个函数： val point = data.withColumn("Point", toPoint(watned("c1"),wanted("c2"))) 但是，当我声明udf时，我得到以下错误： java.lang.UnsupportedOpera

浏览 2提问于2017-04-27得票数 1

1回答

生成Spark模式代码/持久化和重用模式

apache-spark、apache-spark-sql、spark-streaming、spark-structured-streaming、delta

我正在从一个Parquet数据源实现一些Spark结构的流转换。为了将数据读入流DataFrame，必须指定模式(不能自动推断)。模式确实很复杂，手动编写模式代码将是一项非常复杂的任务。你能推荐走走吗？目前，我正在预先创建一个批处理DataFrame (使用相同的数据源)，Spark推断模式，然后将模式保存到Scala对象，并将其用作结构化流媒体阅读器的输入。我不认为这是一个可靠或性能良好的解决方案。请建议如何自动生成模式代码，或者以某种方式将模式保存在文件中并重用它。

浏览 3提问于2020-11-12得票数 0

1回答

云数据业务中的星火连接策略

google-cloud-data-fusion、cdap

在云Datafusion中，我使用一个合并转换来连接两个表。其中一张是一张大桌子，约合87M，而另一张是一张较小的桌子，只有250张记录。我在接合器中使用200个分区。这将导致以下失败： org.apache.spark.SparkException:由于阶段失败而中止作业:阶段7.0中的任务50失败4次，最近一次失败:阶段7.0中丢失的任务50.3 (TID，cluster_workerx.c.project.internal，执行器6)：ExecutorLostFailure (执行器6由于运行中的任务之一退出)原因:执行器心跳在133355 ms之后超时java.util.conc

浏览 4提问于2020-01-10得票数 1

1回答

数据集是如何在编译时运行的？

apache-spark、pyspark、apache-spark-sql

我可以看到，在编译期间，Dataset会告诉您列是否存在。如果Spark有延迟评估，那么在运行时运行action命令之前，它如何获得数据的架构。如果我的上述理解是错误的，请告诉我。

浏览 6提问于2022-02-21得票数 0

回答已采纳

2回答

星火数据集错误:此连接的双方都超出了广播阈值，计算它可能会非常昂贵。

sql、performance、apache-spark、dataframe、dataset

我在本地模式下使用Spark2.0.2。我有一个连接，它连接两个数据集。当使用spark或dataframe (非类型化DatasetRow )时，速度相当快。但是，当我使用类型化Dataset API时，我会得到下面的错误。线程"main“org.apache.spark.sql.AnalysisException中的例外情况:该连接的双方都超出了广播阈值，计算它可能会非常昂贵。要显式启用它，请设置spark.sql.crossJoin.enabled = true；我增加了"spark.sql.conf.autoBroadcastJoinThreshold"，

浏览 4提问于2016-11-24得票数 2

回答已采纳

1回答

Azure数据库-如何唤醒暂停的无服务器Azure SQL DB

pyspark、azure-sql-database、azure-databricks

我有一个Pyspark笔记本，在运行时可以很好地连接到Azure SQL数据库。问题是当它停下来的时候。现在，我知道我可以用Data管道来结束它，并确保它通过一个查找活动唤醒，然后运行笔记本。这就是我想做的。最后发生的是，我得到了“超时，重试”消息一次，但它死在异常无论如何，永远不会重试。如果是重试，就会说“超时，重试”不止一次。如果数据库处于联机状态，则成功。也许我把重试逻辑搞错了？ df = None errorCount = 0 maxErrorCount = 4 while errorCount < maxErrorCount: print("Connecting

浏览 4提问于2022-04-29得票数 0

1回答

使用SparkSession将Json行的数据集转换为数据帧

scala、apache-spark、dataset

我遵循了的建议，清理了一些json数据。但是，该指南已经过时了，我想使用sparkSession来加载数据集并解析json。 spark.read.text('file.json').as[String].map(x => parse_json(x))

浏览 1提问于2017-02-17得票数 0

1回答

许多人加入了星火中的大型数据集

scala、apache-spark、apache-spark-sql

我有两个大的数据集，A和B，我想加入密钥K。每个数据集包含许多行，其值为K，因此这是一个多对多的联接。如果我只是天真地尝试一下，这个联接就会失败，并出现与内存相关的错误。让我们还说，将两个数据集按K分组，进行连接，然后再用一些技巧返回以获得正确的结果不是一个可行的选择，同样是由于内存问题人们是否发现了什么聪明的技巧来提高这种工作的机会？更新：添加了一个非常、非常精心设计的具体例子： spark-shell --master local[4] --driver-memory 5G --conf spark.sql.autoBroadcastJoinThreshold=-1 --co

浏览 1提问于2020-03-19得票数 1

1回答

如何避免火花NumberFormatException: null

scala、apache-spark、apache-spark-sql、spark-csv

我有一个一般性的问题来自我遇到的具体例外。我正在使用spark 1.6使用dataproc查询数据。我需要从2个日志中获取1天的数据(~10000个文件)，然后进行一些转换。但是，我的数据可能(或者不可能)有一些糟糕的数据，在一整天的查询中没有成功，我尝试了000-09小时，没有发现错误。试了10到19小时，得到了一个例外。一小时一小时地尝试，发现坏数据是在小时内:10. 11和12小时都可以。基本上我的代码是： val imps = sqlContext.read.format("com.databricks.spark.csv").option("header

浏览 0提问于2016-03-17得票数 3

1回答

如何在每个执行器节点收集火花数据？

spark-dataframe

我的应用程序读取一个大的parquet文件，并执行一些数据提取，以获得一个小型的spark对象。在计算的下一阶段，必须在每个executor节点上显示此数据的所有内容。我知道我可以通过收集广播来做到这一点，就像在这个火星雨片段中一样。 sc = pyspark.SparkContext() sqlc = HiveContext(sc) # --- register hive tables and generate spark dataframe spark_df = sqlc.sql('sql statement') # collect spark dataframe co

浏览 1提问于2016-04-20得票数 5

2回答

如何在Kubernetes容器/实例上挂载S3 bucket？

apache-spark、amazon-s3、kubernetes、fuse、s3fs

我正尝试在Amazon EKS集群上运行我的spark作业。我的spark作业在每个数据节点/工作者/执行器都需要一些静态数据(参考数据)，这些参考数据可以在S3上找到。有没有人能帮我找出一个干净高效的解决方案，将S3桶安装在豆荚上？ S3 API是一个选项，我正在将它用于我的输入记录和输出结果。但是"Reference data“是静态数据，所以我不想在每次运行/执行spark作业时都下载它。在第一次运行时，作业将下载数据，随后的作业将检查数据是否已在本地可用，并且不需要再次下载。

浏览 27提问于2018-08-03得票数 15

2回答

Pyspark-Mongo缺少一些字段

python、mongodb、pyspark

所以我正在尝试使用mongo-spark连接器将集合表单MongoDB读入spark，但是文档中的一些字段丢失了，以前有人遇到过这个问题吗？如果是，解决方案是什么？下面是我用来读取MongoDB集合的命令： orders = spark.read.format("com.mongodb.spark.sql.DefaultSource") \ .option("uri" , "mongodb://127.0.0.1/company.orders") \ .load() orders.select('miss

浏览 0提问于2018-03-24得票数 3

3回答

如何在Entity Framework4.0中创建复杂类型

c#、entity-framework-4

在模型浏览器中创建函数导入时，获取列信息不会返回任何列，原因可能是我的存储过程从临时表返回数据，并在过程结束时删除该表。我不确定，请确认，如果是这种情况，没有列信息，所以在这种情况下创建复杂类型也是不可能的。对于未通过函数导入屏幕解析列信息的过程，请建议如何手动创建复杂类型。谢谢

浏览 0提问于2011-07-14得票数 0

回答已采纳

1回答

在使用用户定义的函数连接spark中的数据集时，需要填充其他信息

apache-spark、join、apache-spark-dataset

我正在尝试使用用户定义函数(UDF)连接Spark中的数据集，因为连接的逻辑很复杂。例如：我有下面提到的bean的两个数据集"one“和" two”： class Bean { private String id; private String name; } 我的加入条件是： If ids are equal match confidence = 100% else if names are equal match confidence = 50% else do not join the rows 我可以很容易地创建一个用户定义的函数来按这个

浏览 0提问于2018-04-23得票数 1

2回答

如何将代码和数据集分发到工作节点上？

scala、apache-spark、apache-spark-sql、apache-spark-mllib

我一直在使用dataset Movielens (2000万条记录)，并且一直在使用中的Spark。我的环境是VirtualBox上的Ubuntu14.4。我有一个主节点和两个从节点。我使用了已发布的Apache、Apache、Scala、sbt。代码是用Scala编写的。如何将代码和数据集分发到工作节点上？ import java.lang.Math._ import org.apache.spark.ml.recommendation.ALS import org.apache.spark.ml.recommendation.ALS.Rating import org.ap

浏览 0提问于2019-06-29得票数 1

回答已采纳

2回答

当创建具有相同密钥集的两个不同的火花对RDD时，火花是否会将相同密钥的分区分配到同一台机器上？

scala、join、apache-spark、rdd

我想在两个非常大的键值对RDD之间做一个连接操作。这两个RDD的键来自同一组。为了减少数据混乱，我希望我可以添加一个预分发阶段，以便在同一台机器上分配具有相同密钥的分区。希望这能减少一些洗牌时间。我想知道火花是否足够聪明来为我做到这一点，还是我必须自己去实现这个逻辑？我知道当我加入两个RDD，一个使用的预处理。Spark非常聪明，可以使用这些信息，并且只对其他RDD进行洗牌。但我不知道如果同时在两个RDD上使用partitionBy，然后执行连接，会发生什么情况。

浏览 3提问于2015-12-19得票数 5

回答已采纳

1回答

将StringType列添加到现有的DataFrame中，然后应用默认值

scala、apache-spark、dataframe、apache-spark-sql

Scala2.10在这里使用Spark1.6.2。我有一个与类似的(但不是相同的)问题，然而，被接受的答案不是，它假定了关于火花的某种“预先知识”；因此我无法复制它或理解它。(更重要的是，)，这个问题也仅限于向现有的dataframe中添加一个新列，而我需要添加一个列以及数据中所有现有行的值。因此，我希望向现有的DataFrame添加一列，然后将该新列的初始(“默认值”)值应用到所有行。 val json : String = """{ "x": true, "y": "not true" }""

浏览 4提问于2016-10-10得票数 7

回答已采纳

1回答

如何从主节点访问远程工作节点上的数据集？

apache-spark、apache-spark-sql

我的本地网络上有两个虚拟机，它们作为Spark环境中的主节点和从节点连接。如果我在worker VM1上执行此操作 Dataset<Row> recordsDF = spark.createDataFrame(records, Record.class); recordsDF.createOrReplaceTempView("records"); 在主VM2上： Dataset<Row> sqlDF = spark.sql("SELECT * FROM global_temp.records"); sqlDF.show(); 我可以在主

浏览 14提问于2021-10-12得票数 1

1回答

为什么SparkSession要为一个动作执行两次？

java、apache-spark、apache-spark-sql

最近升级到Spark2.0，在尝试从JSON字符串创建一个简单的数据集时，我看到了一些奇怪的行为。下面是一个简单的测试用例： SparkSession spark = SparkSession.builder().appName("test").master("local[1]").getOrCreate(); JavaSparkContext sc = new JavaSparkContext(spark.sparkContext()); JavaRDD<String> rdd = sc.parallelize(Arrays.asList(

浏览 1提问于2016-08-12得票数 5

回答已采纳

2回答

如何在Spark中实现"Cross Join“？

apache-spark、cross-join

我们计划将Apache Pig代码迁移到新的Spark平台。 Pig有一个"Bag/Tuple/Field“的概念，其行为类似于关系数据库。Pig提供对交叉/内/外连接的支持。对于交叉连接，我们可以使用但是当我们移动到Spark平台时，我在Spark API中找不到任何对应的东西。你有什么想法吗？

浏览 66提问于2014-07-21得票数 14

回答已采纳

2回答

如何使用BigQuery将星火中的RDDs保存到saveAsNewAPIHadoopDataset表中

apache-spark、google-bigquery、google-cloud-dataproc

在的例子中 // Perform word count. val wordCounts = (tableData .map(entry => convertToTuple(entry._2)) .reduceByKey(_ + _)) // Write data back into a new BigQuery table. // IndirectBigQueryOutputFormat discards keys, so set key to null. (wordCounts .map(pair => (null, convertToJson(pai

浏览 2提问于2017-10-07得票数 1

1回答

spark dataframe到rdd的转换需要很长时间

scala、apache-spark、apache-spark-sql

我正在将一个社交网络的json文件读入spark。我从这些数据中得到一个数据帧，我将其分解以获得对。这个过程运行得很完美。稍后，我想将其转换为RDD (用于GraphX)，但RDD的创建需要很长时间。 val social_network = spark.read.json(my/path) // 200MB val exploded_network = social_network. withColumn("follower", explode($"followers")). withColumn("id_follower",

浏览 1提问于2017-03-20得票数 3

1回答

火花XML -如何在加载带有out指定架构的XML时强制执行struct类型字符串

xml、apache-spark

我尝试加载动态XML文件并将数据转换为数据。我的XML示例 <?xml version="1.0"?> <catalog> <book id="bk104"> <title>Oberon</title> <code>000010</code> </book> <book id="bk106"> <title>Lover</title> <code>000030<

浏览 1提问于2017-09-24得票数 1

1回答

java.lang.NoSuchMethodError: org.apache.spark.storage.BlockManager

apache-spark、pyspark、spark-streaming、amazon-kinesis

当我连接到一个运动流时，我得到了以下错误消息。 java.lang.NoSuchMethodError: org.apache.spark.storage.BlockManager.get(Lorg/apache/spark/storage/BlockId;)Lscala/Option; at org.apache.spark.streaming.kinesis.KinesisBackedBlockRDD.getBlockFromBlockManager$1(KinesisBackedBlockRDD.scala:104) 我的火花流代码是， sc = SparkContext(app

浏览 2提问于2017-04-03得票数 0

回答已采纳