保存在spark rdd.foreachPatition中修改的数据

保存在Spark RDD.foreachPartition中修改的数据是指在Spark中使用RDD的foreachPartition操作对数据进行修改后的结果。RDD（Resilient Distributed Dataset）是Spark中的基本数据结构，它代表一个可分区、可并行计算的数据集合。

在Spark中，foreachPartition是一个对RDD中的每个分区进行操作的函数。它将一个函数应用于RDD的每个分区，可以用来对分区中的数据进行修改、过滤、计算等操作。在foreachPartition函数中，可以使用各种编程语言（如Scala、Java、Python）来编写自定义的逻辑。

修改数据的具体操作可以根据需求而定，例如可以对分区中的数据进行更新、删除、插入等操作。修改后的数据可以直接写入到数据库、文件系统或其他存储介质中，也可以将其转换为新的RDD进行后续的计算和分析。

以下是对保存在Spark RDD.foreachPartition中修改的数据的一些常见问题的解答：

为什么要使用foreachPartition来修改数据？ foreachPartition操作可以在分区级别上进行数据处理，相比于foreach操作，可以减少与外部系统的交互次数，提高处理效率。同时，由于Spark的分布式计算特性，foreachPartition可以充分利用集群资源进行并行计算，加速数据处理过程。
如何在foreachPartition中修改数据？在foreachPartition函数中，可以使用各种编程语言的语法和函数来对分区中的数据进行修改。例如，可以使用循环遍历分区中的每条数据，并进行相应的修改操作。具体的修改逻辑需要根据数据的结构和需求来确定。
如何保证修改后的数据的一致性和可靠性？在分布式计算环境下，保证数据的一致性和可靠性是非常重要的。可以通过使用事务或批量提交的方式来确保修改操作的原子性，即要么全部成功，要么全部失败。此外，可以使用Spark的容错机制和数据复制策略来保证数据的可靠性。
有哪些适用场景可以使用foreachPartition来修改数据？ foreachPartition适用于需要对大规模数据进行批量处理和修改的场景，例如数据清洗、数据转换、数据分析等。同时，由于foreachPartition可以在分区级别上进行操作，适用于需要对数据进行分组、聚合、排序等操作的场景。

腾讯云相关产品和产品介绍链接地址：

腾讯云Spark服务：https://cloud.tencent.com/product/spark
腾讯云数据库：https://cloud.tencent.com/product/cdb
腾讯云对象存储COS：https://cloud.tencent.com/product/cos
腾讯云人工智能服务：https://cloud.tencent.com/product/ai
腾讯云物联网平台：https://cloud.tencent.com/product/iotexplorer
腾讯云移动开发平台：https://cloud.tencent.com/product/mgp

页面内容是否对你有帮助？

有帮助

没帮助

无法将数据保存到拼花火花呢

、、

我有一些关于把数据存储到地板上的问题。它提示如下所示的错误。这是我想要转换为test3.write.parquet('/spark/bin/test4.parquet')文件的代码这就是我所犯的错误： Traceback (most recent call last): File "<stdin>", line 1, in <module> File "C:\spark\python\pyspark\sql\readwriter.py", line 936, in parquet self.\_jwri

浏览 5提问于2021-04-29得票数 2

1回答

错误: SSL连接意外关闭。使用postgres FDW获取大数据时出错

、

我使用postgres 13并使用use_remote_estimate: on和fetch_size: 10000创建了一个外部服务器。tableA这里是created_date的一个分区表。如果记录数在3M左右，但对超过3M的记录抛出错误，则查询运行良好。 select date_trunc('month', created_date)::date as month, count(distinct category_id) as categorys, count(distinct user_id) as workers from

浏览 0提问于2022-12-06得票数 3

1回答

在s3上覆盖csv文件失败

、、、

当我从s3桶将数据加载到pyspark中时，进行一些操作(连接、联合)，然后尝试覆盖前面读取的相同路径(' data /csv/')。我得到了一个错误： py4j.protocol.Py4JJavaError: An error occurred while calling o4635.save. : org.apache.spark.SparkException: Job aborted. at org.apache.spark.sql.execution.datasources.FileFormatWriter$.write(FileFormatWriter.sca

浏览 0提问于2019-06-12得票数 0

1回答

如何在c++中使用TCP/IP连接套接字从客户端检查服务器的XON/XOFF？

如何检查服务器的XON/XOFF，检查套接字是否处于活动状态。TCP半封闭存在一个问题，即发送数据但服务器没有通过活动接收数据。它每2分钟发送一次XON/XOFF，如果我没有收到任何信号，有什么方法可以检测到并重新连接吗？

浏览 4提问于2011-11-18得票数 0

回答已采纳

1回答

网站页面加载时间和保持活动的http连接

、、、、

背景:我更喜欢将我所有的CSS和Javascript保存在单独的.css/.js文件中。(原因是它们由许多页面共享，因此通过这种方式，这些文件中的静态数据不会在每个页面视图中传输)。这导致一些页面具有5-6个“链接关系”或“脚本类型”语句。现在，通常情况下，这意味着浏览器将为每个css/js文件发出单独的请求，并且有效的页面加载时间可能会增加-例如，对于5个往返请求，将变为5倍(如果我在这里错了，请纠正我)。我的问题是： 1)现代浏览器是否默认请求保持连接？ 2)如果有，是否意味着额外的文件源(css/js)不会增加有效加载时间？例如，服务器是否会假设浏览器将请求css/js文件，并因此继

浏览 1提问于2010-11-25得票数 0

回答已采纳

1回答

火花源三角洲-湖泊次生砂岩

、、

在相同的jupyter会话中使用"spark.sql.warehouse.dir“(无数据库)可以工作。但是在jupyter中重新启动内核后，目录数据库和表不再被识别。使用metastore逻辑和增量湖在databricks之外是不是可以拥有会话独立性(我知道使用path的可能性)？谢谢，克里斯蒂安 spark = ( SparkSession.builder .appName("tmp") .config("spark.jars.packages", "io.delta:delta-core_2.12:1.0.

浏览 1提问于2021-09-17得票数 3

1回答

未检测到Java套接字关闭

、

我已经写了一个小的服务器/客户端应用程序。以下是代码 try { OutputStream os = clientSocket.getOutputStream(); ObjectOutputStream oos = new ObjectOutputStream(os); System.out.println("clientsocketstatus connected: " + clientSocket.isConnected()); System.out.println("clientsocketstatus closed: "

浏览 2提问于2013-01-20得票数 3

1回答

2021年公安机关涉疫情防控数据安全专项自查所需信息来源？

、、、

微信图片_20210428144315.png 微信图片_20210428144322.png 微信图片_20210428144325.png 微信图片_20210428144329.png 微信图片_20210428144527.png 这些信息怎填写，等级保护备案情况，服务器所在位置，数据传输加密情况

浏览 311提问于2021-04-28

1回答

关于SparkSQL (星火和蜂巢连接)的问题

、、、

我正在尝试从Hive数据库中检索数据到我的Spark中，即使DB中有数据(我用Hive检查过它)，使用Spark进行查询也不会返回任何行(不过它会返回列信息)。我已经将hivesite.xml文件复制到文件夹(被请求)。进口 import org.apache.spark.SparkConf import org.apache.spark.SparkContext import org.apache.spark.rdd.RDD import org.apache.spark.sql import org.apache.spark.storage.StorageLevel import or

浏览 1提问于2022-11-09得票数 0

回答已采纳

1回答

我无法在星火应用程序中添加持久卷声明

、

我尝试了下面的方法 spark.kubernetes.executor.volumes.persistentVolumeClaim.spark-local-dir-1.options.claimName=OnDemand spark.kubernetes.executor.volumes.persistentVolumeClaim.spark-local-dir-1.options.storageClass=gp2 spark.kubernetes.executor.volumes.persistentVolumeClaim.spark-local-dir-1.options.sizeLimi

浏览 3提问于2022-01-27得票数 0

1回答

是否有可能将数据库直接从HDFS加载到spark中作为DataFrame？

、、、

我在齐柏林飞艇上运行了我的MongoDB和Spark，两者共享相同的HDFS。MongoDB生成存储在同一HDFS中的.wt数据库。我希望将该MongoDB从HDFS生成的数据库集合加载到Spark中。是否可以将数据库从HDFS直接作为DataFrame加载到spark中？还是我需要使用MongoDB火花连接器？

浏览 1提问于2018-06-25得票数 1

回答已采纳

1回答

导入Excel数据而不插入表

、、

在定位如何将数据导入Oracle SQL Developer而不将数据插入表时，我遇到了一些困难。我遇到的所有函数似乎都需要用户将其插入表中。有谁知道这样做有什么办法吗？我没有创建临时表或插入现有表的权限。谢谢!

浏览 2提问于2017-06-16得票数 0

回答已采纳

1回答

NullPointerException toPandas() Pyspark？

、

我正在尝试使用pyspark从teradata加载数据，并将其导入到pandas数据帧中。我不确定在这里是否有区别，但是这个表大约有50m行，但是这个过程给了我一个错误，即使是使用SELECT TOP 10 *。在运行toPandas之前，spark_df.count()返回10。任何有关阅读错误消息的帮助都将不胜感激。或者，如果我在使用pyspark时偏离了轨道，那也是很好的。 import pandas as pd import numpy as np import datetime import time from pyspark.sql.types import * import

浏览 13提问于2019-04-10得票数 0

1回答

org.apache.hadoop.fs.azurebfs.SecureAzureBlobFileSystem Gen2上的Kubernetes spark-submit错误:找不到类spark

、、、、

我正在尝试向Azure-Kubernetes- Gen2 (AKS)提交一个ADLS服务上的Pyspark作业，并得到以下异常： Exception in thread "main" java.lang.RuntimeException: java.lang.ClassNotFoundException: Class org.apache.hadoop.fs.azurebfs.SecureAzureBlobFileSystem not found at org.apache.hadoop.conf.Configuration.getClass(Configuration

浏览 31提问于2021-06-02得票数 0

回答已采纳

1回答

_spark_metadata引发问题

、、

我在Scala中使用Spark，我有一个目录，其中有多个文件。在这个目录中，我有由Spark生成的Parquet文件和由Spark流生成的其他文件。而星光流生成一个目录_spark_metadata。我面临的问题是，当我使用Spark (sparksession.read.load)读取目录时，它只读取由Spark生成的数据，就像其他数据不存在一样。有人知道如何解决这个问题吗，我认为应该有一个属性来强制Spark忽略spark_metadata目录。谢谢你的帮助

浏览 0提问于2018-11-26得票数 2

3回答

如何任意扭曲带纹理的多边形？

、、、、

我想写一个程序，让我可以通过拖动顶点来任意扭曲带纹理的多边形。我希望纹理扭曲流畅，没有重叠，假设新的多边形不相交。我也应该能够用新的形状重复这个过程，并且损失最小。有没有什么算法可以做到这一点？

浏览 0提问于2010-02-19得票数 1

3回答

在Linux上运行星火：$JAVA_HOME未设置错误

、、、

我正在尝试在spark-2.0.0-bin-hadoop2.7上配置Ubuntu 16.04.1 LTS。我已经准备好 export JAVA_HOME=/home/marc/jdk1.8.0_101 export SCALA_HOME=/home/marc/scala-2.11.8 export SPARK_HOME=/home/marc/spark-2.0.0-bin-hadoop2.7 export PATH=$PATH:$SCALA_HOME/bin:$JAVA_HOME/bin 在.bashrc的末尾，也包括在start-all.sh文件中的spark/sbin文件夹。当我输入ec

浏览 3提问于2016-08-03得票数 10

回答已采纳

1回答

用Spark计算训练数据集的均值、方差和标准差

、

I have a dataframe : +----------------+----------------+---------------------+---------------+--------------------+-----+- |origin_longitude|dest_longitude |origin_latitude|destination_latitude|speed|Distance| -7.1732833 | -7.1732833| 32.0414966| 32.0414966| 50| 20.0

浏览 1提问于2020-02-27得票数 0

1回答

KeySpace复制引发卡桑德拉问题

、

我使用以下命令在Cassandra中创建了表： CREATE KEYSPACE test WITH REPLICATION = { 'class' : 'NetworkTopologyStrategy', 'dc1' : 3 } AND DURABLE_WRITES = false; use test; create table demo(id int primary key, name text); 表创建成功后，我运行下面的代码将数据写入Spark.的Cassandra中。但面对错误星火代码片段 import c

浏览 0提问于2017-11-30得票数 1

1回答

使用基于文件的流时，何时删除文件是安全的？

、

我正在对Spark使用基于文件的流媒体，并且我想从磁盘中删除旧文件。我的Spark应用非常简单，只需读取文本文件、count()和pprint()即可。它工作得很好。没有窗口之类的。但是，在批处理间隔为5秒的情况下，如果我在5分钟后删除文件，Spark将报告缺少文件。它与垃圾收集相关吗？源文件是否需要在DStream中的RDD的生命周期内存在？我可以强制我的DStream在一段时间后丢弃RDD吗？我应该指出的是，我使用的不是HDFS，而是文件系统(挂载了NFS)。

浏览 0提问于2018-04-27得票数 0

2回答

从Spark写入蜂巢表时出错

、

我试图从Spark将数据插入到Hive外部表中。我是通过以下命令创建hive外部表的 CREATE EXTERNAL TABLE tab1 ( col1 type,col2 type ,col3 type) CLUSTERED BY (col1,col2) SORTED BY (col1) INTO 8 BUCKETS STORED AS PARQUET 在火花作业中，我编写了以下代码数据集df = session.read().option("header"，"true").csv(csvInput)； df.repartition(numBuckets,

浏览 1提问于2018-10-10得票数 0

回答已采纳

1回答

更改拼花文件的列值，而不更改拼花文件的名称，使_spark_metadata不被更改

、、

因此，我有一个火花结构化流作业，它将扁平的json消息数据存储在hdfs位置中的日期分区文件夹中，即/source/wireless/active_portal/activation/dt=current date，它还在创建_spark_metadata，其中包含它写入输出位置的文件的名称。这个HDFS位置有一个蜂窝表在上面。我必须在不更改名称的情况下将所有拼板文件中的特定列值PIN更改为默认值XXXX，这样_spark_metadata就不会受到干扰。是否有一种方法可以通过使用spark命令或使用hive命令在hdfs位置的列中更改数据。 schema of parquet files

浏览 5提问于2022-03-31得票数 1

2回答

蜂巢插入抛出一个“太大的帧错误”

、、、、

我试图使用下面的代码将数据插入到Hive中，它总是失败的 java.lang.IllegalArgumentException: Too large frame:'. 我试着调整记忆，但没有帮上忙。这是细节。错误堆栈跟踪： [Stage 4:=====================================================>(999 + 1) / 1000]18/11/27 09:59:44 WARN TaskSetManager: Lost task 364.0 in stage 4.0 (TID 1367, spark-node, exec

浏览 2提问于2018-11-27得票数 2

1回答

火花流数据帧持久化操作

、、、、

我正在从我的spark代码中读取Oracle数据库，并且我坚持它-(缓存操作)。 val dataOracle = spark.read .format("jdbc") .option("url",conn_url) .option("dbtable", s"(select * from table)") .option("user", oracle_user) .option("password", oracle_pass) .option("driver

浏览 1提问于2020-11-24得票数 1

回答已采纳

1回答

无法访问SSMS上的Azure Synapse Spark Pool数据库

因为我已经开始使用Azure Synapse Analytics，所以我创建了一个Spark Pool集群，然后在Spark Pool集群上，我使用Pyspark在Azure Data Lake Store Gen2中的拼图文件上创建了数据库和表。我曾经能够使用Serverless SQL端点通过SSMS访问我的spark数据库/ parquet表，但现在我不能再通过SSMS中的Severless SQL端点看到我的spark数据库。我的spark数据库仍然可以通过Azure Data Studio访问，但不能通过SSMS访问。我这边没有部署或更改任何东西。你能帮助解决这个问题吗？我希望能够通

浏览 2提问于2021-05-21得票数 1

1回答

不具有分区列性能的火花下推滤波器

我有一个关于spark中的过滤的问题，当你不在过滤器中包括分区列时。假设我有以下按日期分区的数据： path/date=20200721/part-0000.parquet part-0001.parquet part-0002.parquet path/date=20200722/part-0000.parquet part-0001.parquet part-0002.parquet ... 数据有一个名为"action“的列，其

浏览 2提问于2020-08-02得票数 0

1回答

火种支持倾斜暗示吗？

我面临一些数据倾斜的问题，我想看看火花提示是否可以帮助我。但是，我不确定是否支持倾斜提示。这些站点：都暗示支持它们。然而，声称Spark SQL supports COALESCE and REPARTITION and BROADCAST hints. All remaining unresolved hints are silently removed from a query plan at analysis.，这意味着我的倾斜提示也将被忽略。哪一个是对的？我在运行Spark2.2

浏览 0提问于2018-11-29得票数 1

回答已采纳

3回答

地块上不需要的物品

、、

在R中使用data.frame的子集时遇到了问题。子集的创建和显示是正确的，但是当我尝试使用qplot()绘制子集时，subset()没有选择的行也显示在一个轴上。我正在读取的实际文件是一个web服务器日志，但我创建了一个小示例来说明我的问题：这是我在其中读到的ITEMSSOLD.CSV文件： CUST,DT,ITEM,PRICE BigJoe,10/13/2010,Pickup Truck,20000 TightWad,10/13/2010,USB Drive,12 Jane,10/13/2010,Smart Car,30000 Scrooge,10/13/2010,Gumdrops,

浏览 9提问于2010-10-21得票数 3

3回答

如果在S3的拼图文件中发现相同列的不同数据类型，则AWS胶水作业将在红移中创建新列

、、、、

我正在尝试加载拼花的文件，在S3到红移使用胶水作业。当我第一次运行Glue Job时，它正在创建表和加载数据，但当第二次通过更改1列的数据类型运行时，作业并没有失败，而是在Redshift中创建了新列并附加了数据。例如:在这里，我更改了整型数字的数据类型 FileName **abc** Code,Name,Amount 'A','XYZ',200.00 FileName **xyz** Code,Name,Amount 'A','XYZ',200.00 在Redshift中 Output after processing b

浏览 3提问于2020-03-02得票数 2

1回答

在sparklyr中断开连接后，spark数据帧会自动删除吗？如果没有，我们该怎么做呢？

、、、、

在关闭连接时，以以下方式复制到spark的数据帧会发生什么情况？ library(sparklyr) library(dplyr) sc <- spark_connect(master = "local") iris_tbl <- copy_to(sc, iris) spark_disconnect(sc) 如果它们不是自动删除的，除了通过下面的方法删除每个数据帧之外，有什么简单的方法可以删除在会话期间创建的所有数据帧吗？ sc %>% spark_session() %>% invoke("catalog") %>% invoke

浏览 5提问于2018-08-24得票数 0

回答已采纳

1回答

用Scala代码限制spaek中的日志

、、、

我已经在我的个人电脑上安装了spark 3.3.0版本。我希望将日志限制为仅显示控制台中的错误日志，因为我使用了 Logger.getLogger("org").setLevel(Level.ERROR) 我仍然在控制台中获取信息日志。 Using Spark's default log4j profile: org/apache/spark/log4j2-defaults.properties 22/10/21 18:04:39 INFO SparkContext: Running Spark version 3.3.0 22/10/21 18:04:39 WAR

浏览 5提问于2022-10-21得票数 0

1回答

无法在范围内找到不同的素数。

、、

调皮数是指其显素因子数等于其十进制表示中的数字数的数字。数字1被认为是顽皮的数字。下面是查找调皮数字的代码。问题是方法的主要因素，它进入了一个无止境的循环。 import java.util.ArrayList; import java.util.Scanner; import java.util.TreeSet; import java.util.Iterator; public class NaughtyNumber { ArrayList < Integer > aldecrep = new ArrayList < > (); // use for d

浏览 2提问于2016-08-12得票数 3

2回答

DataFrame定义是懒惰的评估

、、、、

我是新来的火花和学习它。有人能帮忙解决以下问题吗？关于数据格式定义的that权威引语是：“一般来说，星火只在作业执行时才会失败，而不是dataframe定义时间--即使我们指向一个不存在的文件。这是由于延迟的评估。” 所以我想spark.read.format().load()是数据的定义。在此基础上，我们应用转换和操作，加载是读取API，而不是转换，如果我没有错的话。我试图在load中“文件不存在”，我认为这是dataframe的定义。但我犯了个错误。根据这本书，它不应该失败，对吗？我肯定漏掉了什么。有人能帮忙吗？ df=spark.read.format('csv')

浏览 1提问于2020-03-30得票数 1

回答已采纳

1回答

将csv读入包含时间列的hdfs将不起作用

、

我想将一个带有时间列的csv读入hadoop，在hadoop中，时间列将作为字符串读入。我尝试在textedit中创建csv，而不是在intellij中创建它。以及在时间上逃脱冒号。 example data: time 11:11:11 Some hadoop wrapper... 期望值: bleh =数据中包含值的数据帧... ActuaL: 19/07/24 14:30:33警告CSVRelation:删除格式错误的行: 11:11:11 java.lang.UnsupportedOperationException:空集合然而，在spark中阅读是有效的。 import org

浏览 0提问于2019-07-25得票数 0

2回答

Apache Zeppelin连接被拒绝:连接

、

我正在尝试在齐柏林飞艇中可视化来自spark的数据集。但即使是在Hello world中，齐柏林飞艇也抛出了java.net.ConnectException: Connection refused: connect错误。当我使用Windows10时，我已经在我的zeppelin-env.cmd中正确地将SPARK_HOME设置为我的spark home。这是我的Spark解释器在Zeppelin GUI中的屏幕截图。这是我在输出中得到的结果。谢谢。

浏览 6提问于2017-04-06得票数 1

1回答

Spark HBase到Google Dataproc和Bigtable的迁移

、、、

我在AWS EMR集群上运行了HBase Spark作业。最近我们搬到了GCP。我把所有的HBase数据都传输给了BigTable。现在，我在Dataproc中运行相同的Spark - Java/Scala作业。Spark作业失败，因为它正在查看spark.hbase.zookeeper.quorum设置。请让我知道，如何在不更改代码的情况下，让我的spark作业在BigTable上成功运行。你好，Neeraj Verma

浏览 2提问于2018-05-27得票数 0

1回答

为什么卡夫卡的读取流“无法找到存储在数据集中的类型的编码器”而失败？

、、、

我试图使用星火结构化流与卡夫卡。 object StructuredStreaming { def main(args: Array[String]) { if (args.length < 2) { System.err.println("Usage: StructuredStreaming <hostname> <port>") System.exit(1) } val host = args(0) val port = args(1).toInt val spark =

浏览 4提问于2017-04-05得票数 2

回答已采纳

1回答

火花-如何将~20 to的数据从一个DataFrame写到一个蜂窝表或hdfs？

、、

我正在使用星火处理20TB+数量的数据量。我试图使用以下方法将数据写入Hive表： df.registerTempTable('temporary_table') sqlContext.sql("INSERT OVERWRITE TABLE my_table SELECT * FROM temporary_table") df是星火DataFrame。不幸的是，它没有我可以分割的日期。当我运行上面的代码时，我遇到了错误消息： z:org.apache.spark.sql.execution.EvaluatePython.takeAndServe.：调用py4j

浏览 0提问于2018-06-17得票数 2

2回答

Spark 2.0:通过SparkSession重新定义GetOrCreate参数而看不到WebUI中的变化

、、

我在PySpark中使用Spark2.0。我正在通过2.0中引入的SparkSession方法重新定义GetOrCreate参数：此方法首先检查是否存在有效的全局默认SparkSession，如果是，则返回该缺省值。如果不存在有效的全局默认SparkSession，则该方法将创建一个新的SparkSession，并将新创建的SparkSession指定为全局默认值。如果返回现有的SparkSession，则此构建器中指定的配置选项将应用于现有的SparkSession。到目前为止还不错： from pyspark import SparkConf SparkConf().t

浏览 1提问于2016-11-20得票数 12

回答已采纳

1回答

查询结果与SSRS结果不同

、、

在SSMS上运行时，我有一个查询可以提取准确的数据，但是当我使用完全相同的查询使用SSRS创建报表时，它会遗漏来自我使用的两个临时表之一的结果。 DECLARE @from int --= @fromparameter DECLARE @to int --= @toparameter /* For debug */ set @from = 0 set @to = 50 /* ================================================================================ Build a temp table with all a

浏览 0提问于2015-11-11得票数 3

回答已采纳

2回答

spark RDD容错的误区

、、、、

很多人说： Spark不会在hdfs中复制数据。 Spark安排了DAG中的操作，构建graph.Spark谱系。如果RDD丢失，它们可以在谱系图的帮助下重建。因此，不需要数据复制，因为可以从谱系图重新计算RDDS。我的问题是：如果一个节点出现故障，spark只会重新计算这个节点上丢失的RDD分区，但是重新计算过程中需要的数据源从哪里来？你的意思是，当节点发生故障时，它的父RDD还在吗?如果丢失了一些分区的RDD没有父RDD (比如RDD来自spark streaming receiver)，该怎么办？

浏览 0提问于2017-09-06得票数 5

1回答

SIP客户端未发送OPTIONS请求

、

我正在运行一个Asterisk服务器，并且我的两个SIP客户端已正确连接到此服务器。当option qualify设置为yes时，服务器会定期向客户端发送OPTIONS请求。我想知道为什么SIP客户端没有向服务器发送OPTIONS请求，以及需要做些什么来实现这一点。我在Android手机上使用免费的SIP客户端。

浏览 0提问于2020-06-16得票数 0

1回答

是否有可能在没有Hive的情况下使用带有ORC文件格式的Spark？

、、、、

我正在使用HDP 2.6.4，更具体地说，Hive1.2.1与tez0.7.0，Spark2.2.0。我的任务很简单。以ORC文件格式存储数据，然后使用Spark处理数据。为了达到这个目标，我会这样做：通过HiveQL创建一个Hive表使用Spark.SQL(“选择.从.”)将数据加载到数据中对dataframe进行处理。我的问题是: 1.蜂巢的幕后角色是什么? 2.可以跳过蜂巢吗？

浏览 0提问于2018-06-08得票数 1

回答已采纳

1回答

流K-意为Scala:获取输入字符串的java.lang.NumberFormatException

、、、

当我从一个包含双值的目录读取CSV数据并在其上应用流式K-均值模型时，如下所示， //CSV文件 40.729，-73.9422 40.7476，-73.9871 40.7424，-74.0044 40.751，-73.9869 40.7406，-73.9902 . //SBT依赖关系：名称:=“应用程序名称” 版本:= "0.1“ scalaVersion := "2.11.12“ val sparkVersion ="2.3.1“ libraryDependencies ++= Seq( "org.apache.spark“%%”火花核心“% s

浏览 0提问于2018-07-24得票数 0

回答已采纳

1回答

使用Spark时Spark内存不足错误

、、、、

我正在尝试运行一个spark作业来使用Spark处理一些Json数据。当我提交作业时，我在日志中看到以下错误， Java HotSpot(TM) 64-Bit Server VM warning: INFO: os::commit_memory(0x00007f29b96d5000, 12288, 0) failed; error='Cannot allocate memory' (errno=12) # There is insufficient memory for the Java Runtime Environment to continue. # Native mem

浏览 2提问于2018-01-11得票数 0

1回答

无法使用pyspark将数据写入cassandra

、、、、

我正试图用pyspark为cassandra编写一个数据文件，但它给我带来了一个错误： py4j.protocol.Py4JJavaError:调用o74.save时出错。：：org.apache.spark.SparkException:由于阶段失败而中止作业:阶段3.0中的任务6失败了4次，最近的失败:在阶段3.0中任务6.3失败了(TID 24，ip-172-31-11-193，11 west-2 Compute.内部，执行者1)：org.apache.spark.metrics.OutputMetricsUpdater$TaskMetricsSupport$class.$init$(

浏览 0提问于2019-06-17得票数 0

1回答

Apache Spark -迭代器和内存消耗

我是spark的新手，对迭代器的spark内存使用有疑问。当使用数据集的Foreach()或MapPartitions() (或者甚至直接调用RDD的迭代器()函数)时，spark是否需要首先将整个分区加载到内存中(假设分区在磁盘中)，或者当我们继续迭代时可以延迟加载数据(这意味着spark只能加载分区数据的一部分，执行任务并将中间结果保存到磁盘)

浏览 3提问于2019-04-26得票数 1

1回答

如何在spark2-submits之间保持Spark集群的活力？

、

我需要在输入数据文件到达时通过执行spark2-submit来处理它们，以通过pyspark脚本处理输入文件。我观察到的是，对于每个spark2--submit，spark在进行最新输入文件的数据处理之前都会进行大量的初始化。这会导致延迟。如何在spark2提交之间保持Spark集群的活动状态？单独但相关的问题:除了spark2-submit之外，还有什么机制可以用来向spark提交有效负载？提前感谢你的见解。

浏览 2提问于2017-12-06得票数 2

1回答

使用突触not时面临问题(####.dfs.windows.core.net未找到)

、、

我正致力于将专用sql池(以前的sql )连接到synapse synapse记事本。我使用的是spark.read.synapsesql()。我可以将数据写成表，但不能从表中读取数据。 val df:DataFrame = spark.read.option(Constants.SERVER, "XXXXX.database.windows.net") .option(Constants.USER, "XXXXX") .option(Constants.PASSWORD, "XXXXX")

浏览 14提问于2022-05-06得票数 0

1回答

无法从火花壳创建新的表格。

、、、

我正在使用Redhat中的单节点设置，并安装Hadoop、Hive、Pig和Spark。我在Derby和所有东西中配置了单元元数据。我为Hive表创建了新文件夹，并授予了完全权限(chmod 777 )。然后，我从Hive创建了一个表，我可以在Spark中选择这些数据，并将这些值打印到控制台。但是，在Spark/Spark中，我无法创建新表，.It正在抛出错误 FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:file:/2016/h

浏览 2提问于2016-02-10得票数 0