Spark上的配置单元查询因资源不足而挂起_打印Spark上查询配置单元的物理计划_Spark上的配置单元不返回聚合或连接查询的结果 - 腾讯云开发者社区

、、、、

我正在尝试使用两个spark sql with子句从一个hive表中读取两个分区，并在这两个分区上使用left outer join来获取增量，这两个分区都有270亿条记录，大小为900 10，每个90 10的分区中有10个文件。文件格式是具有快速压缩的拼图。我在一个包含28个节点的aws emr r4.16xlarge集群中运行pyspark作业。我尝试了各种spark配置，但每次作业都失败并出现Job aborted due to stage failure: most recent failure: Lost task java.io.IOException: No space le

浏览 28提问于2021-09-29得票数 0

回答已采纳

2回答

无法在Amazon Keyspace上的表上写入

、、

我在使用spark conector在aws keyspace上写入数据时遇到了问题。下面的消息显示： ERROR QueryExecutor: Failed to execute: com.datastax.spark.connector.writer.RichBoundStatementWrapper@681c47f5 com.datastax.oss.driver.api.core.servererrors.WriteTimeoutException: Cassandra timeout during SIMPLE write query at consistency LOCAL_QU

浏览 33提问于2021-09-16得票数 1

1回答

检查群集用户界面，以确保员工已注册并拥有足够的资源。

、

我创建了一个在cassandra上选择数据的文本程序。这是我的密码。这只是一个简单的选择所有数据，并显示在控制台。 def get_spark_context(app_name, max_cores=120): # checkpointDirectory = "" conf = SparkConf().setMaster(local_settings.SPARK_MASTER).setAppName(app_name) \ .set("spark.cores.max", max_cores)\ .set("

浏览 1提问于2019-02-21得票数 1

1回答

PostgreSQL错误:无法扩展设备上没有剩余空间的文件

、、

我正在运行一个查询，该查询在PostgreSQL上复制了一个非常大的表(9200，000行)。经过3次迭代，我得到了这个错误消息： ? 查询是： CREATE TABLE table_name AS SELECT * FROM big_table 该问题不是由于数据库集群中空间不足造成的:在运行查询时，表大小约为最大存储空间的0.01%，包括所有副本。我也检查了临时文件，不是这样的。

浏览 278提问于2020-11-09得票数 1

1回答

在Spark中运行并行查询

、

spark如何处理并发查询？我读过一些关于spark和底层RDD的文章，但我不能理解如何处理并发查询？例如，如果我运行一个查询，将数据加载到内存中，并且整个可用内存被消耗，同时其他人运行一个涉及另一组数据的查询，spark如何为这两个查询分配内存？另外，如果考虑到优先级，会有什么影响。另外，运行大量并行查询会导致机器挂起吗？

浏览 2提问于2014-11-11得票数 1

2回答

节点未准备好，吊舱挂起。

、、

我在GKE上运行一个集群，有时我会进入一个挂起的状态。现在，我只使用两个节点，并允许集群自动运行。其中一个节点具有NotReady状态，并且只是停留在其中。因此，由于CPU不足，我的吊舱中有一半是挂起的。我是怎么到那里的我部署了一个吊舱，它从一开始就占用了相当高的CPU。当我将其缩放到2时，我注意到CPU使用率为1.0；当我将部署扩展到3个副本时，我希望第三个副本处于挂起状态，直到集群添加另一个节点，然后将其调度到那里。相反，所发生的是切换到NotReady状态的节点，它上的所有豆荚现在都挂起。但是，节点没有重新启动或任何东西-它只是没有被库伯内特斯使用。然后，GKE认为有足够的资源，因

浏览 2提问于2016-11-17得票数 7

回答已采纳

2回答

是否有限制可以使用的容器数量的Hive on Hue (CDH 5.9.3)的配置设置？

、、

这是我们组中的一个普遍问题，我们的Hive查询经常扩展到消耗CDH集群上大多数可用的纱线执行器和内存。虽然根本的问题在于表中分区的数量和连接的复杂性，但我们不能自由地重建这些表。我们可以通过配置spark.dynamicAllocation.maxExecutors和spark.executor.memory来控制Spark中的资源消耗。我们是否可以在Hue上使用类似的东西，使Hue能够与集群上的其他作业“玩得很好”？

浏览 14提问于2017-10-12得票数 3

回答已采纳

1回答

每天使用AlarmManager和服务显示通知

、、

我想每天显示一个通知，但是通知会时不时地显示。到目前为止我还没有弄清楚模式。在我的MainActivity#onCreate中，我执行以下代码来启动它： final Calendar calendar = Calendar.getInstance(); calendar.set(Calendar.HOUR_OF_DAY, 8); calendar.set(Calendar.MINUTE, 0); calendar.set(Calendar.SECOND, 0); calendar.add(Calendar.DAY_OF_YEAR, 1); final AlarmManager alarmM

浏览 1提问于2015-05-02得票数 0

回答已采纳

2回答

火花启动比指定更多的执行器

、、、、

我正在运行Spark1.5.1在独立(客户端)模式下使用Pyspark。我正在尝试启动一个内存似乎很重的作业(也就是说，在python中，这不应该是executor-memory设置的一部分)。我正在一台有96核和128 GB内存的机器上进行测试。我有一个主程序和工作人员正在运行，开始使用/sbin中的start-all.sh脚本。这些是我在/conf中使用的配置文件。火花违约： spark.eventLog.enabled true spark.eventLog.dir /home/kv/Spark/spark-1.5.1-bin-had

浏览 1提问于2016-08-28得票数 2

2回答

使用Spark从Hive读取数据

、、、

问题我正在尝试从配置单元表中读取，但收到以下错误： [error] (run-main-0) org.apache.spark.sql.AnalysisException: Table or view not found: tags; line 1 pos 14 我在$SPARK_HOME/conf和$HIVE_HOME/conf中都放置了hive-site.xml。同样，我使用sqoop从mysql抓取数据并将其导入hive也没有问题。我的Scala代码有问题吗？或者这是一个配置错误？ Scala代码： package test1 import java.io.File import o

浏览 2提问于2017-04-08得票数 3

2回答

如何从Beeline或任何JDBC客户端运行Spark作业上的Hive？

、、、

我正在尝试运行Spark上的配置单元查询(使用Spark作为执行引擎的配置单元查询)。我已经在hive-site.xml中设置了它我已经启动了一个hiveserver2，并尝试使用Beeline在同一台机器上连接它，如下所示： $ hiveserver2 & $ $HIVE_HOME/bin/beeline -u jdbc:hive2://myIP:10000 -e "select count(*) from item;" 但是作业没有提交，我收到以下错误消息 Error: Error while processing statement: FAILED: Exe

浏览 0提问于2015-07-05得票数 1

1回答

提交spark应用程序作为从Eclipse和Spark上下文生成的纱线作业

、

我已经可以从Eclipse提交local火花作业(用Scala编写)。但是，我想修改我的Spark上下文(在我的应用程序中)，以便当我‘运行’应用程序(在Eclipse中)时，作业将被使用Yarn作为资源管理器发送到我的远程集群。使用spark-submit，我可以成功地将作业以：spark-submit --class <main class> --master yarn-cluster <jar>的形式提交到集群我希望在IDE中实现同样的结果。我的sbt配置(app根目录)看起来是：libraryDependencies += "org.apache.s

浏览 2提问于2016-01-27得票数 6

1回答

当资源不足时，spark任务需要等待多长时间才能从纱线获得资源？

、

当Spark作业无法获得足够的资源来启动时，它会挂起等待。要等多久？如何控制挂起的spark作业的超时时间？谢谢

浏览 35提问于2019-04-24得票数 1

回答已采纳

1回答

Spark驱动程序未分配任何工作进程

、

我正在学习spark，并尝试执行简单的字数统计应用程序。我正在使用 spark version 2.4.7-bin-hadoop.2.7 scala 2.12 java 8 具有1个主节点和2个工作节点的spark群集正在作为独立群集spark配置运行 spark.master spark://localhost:7077 spark.serializer org.apache.spark.serializer.KryoSerializer spark.driver.memory 500M

浏览 31提问于2021-04-17得票数 0

1回答

当使用Spark时，是否可以要求对数据库进行联接操作？

、、、

我不是Spark的专家，也不是底层RDD API的专家。但是，知道催化剂优化引擎，我希望斯派克会尽量减少内存中的努力。这就是我的处境:我有两张桌子 TABLE GenericOperation (ID, CommonFields...) TABLE SpecificOperation (OperationID, SpecificFields...) 它们都很大(大约500米，不是大数据，但在标准应用服务器中作为一个整体内存是不可行的)。也就是说，假设我必须使用Spark (更大的用例的一部分)检索所有在属于SpecificOperation的字段上匹配某些特定条件的GenericOper

浏览 2提问于2018-06-05得票数 1

1回答

Spark Dataframe挂起保存

、、、、

我一直在努力找出我的spark作业出了什么问题，因为我试图将它写到S3或HDFS (大约100G的拼图格式的数据)。导致挂起的代码行： spark_df.write.save(MY_PATH,format='parquet',mode='append') 我已经尝试了覆盖以及附加模式，并尝试保存到HDFS和S3，但无论如何作业将挂起。在Hadoop资源管理器GUI中，它将spark应用程序的状态显示为" running "，但看起来Spark实际上并没有执行任何操作，当我查看Spark UI时，也没有作业在运行。让它工作的一件事是在集群处于

浏览 2提问于2018-01-12得票数 6

回答已采纳

1回答

火花独立应用程序挂在最后一点

、、、、

我对Spark还比较陌生，我使用python和spark编写了一个简单的脚本。我的问题是，在执行的初始阶段，它是完全正常的，但渐渐地，它放慢了速度，在最后一个阶段结束时，整个应用程序挂起。下面是应用程序挂起的代码片段- hivectx.registerDataFrameAsTable(aggregatedDataV1,"aggregatedDataV1") q1 = "SELECT *, (Total_Sale/Sale_Weeks) as Average_Sale_Per_SaleWeek, (Total_Weeks/Sale_Weeks) as Velocity F

浏览 1提问于2016-03-29得票数 1

1回答

我是否需要在本地驱动器上下载hive才能通过spark访问hive数据？

、、、

我有一台Mac，我有几个spark sql查询，我需要对来自另一台计算机的配置单元数据运行这些查询。我知道我需要core-site.xml、hdfs-site.xml和hive-site.xml文件来访问hive表，但是我需要在计算机上安装apache hive才能做到这一点吗？现在，我在spark/conf中有这些文件，通过我在互联网上找到的其他人的例子。我只需要通过这些直接从spark输入hive服务器的用户名、密码和连接url，它就可以工作了吗？谢谢!

浏览 22提问于2019-06-28得票数 0

2回答

在Spark中使用JDBC连接读取Postgres数据库的问题

、、、、

目前，我在(Py)Spark中使用JDBC连接从Postgres数据库读取数据时遇到了一些问题。我在Postgres中有一个表，我想在星火中阅读它，处理它，并将结果保存为一个.parquet文件在一个AWS S3桶中。我创建了一个示例脚本，它执行一些基本逻辑(不要使问题过于复杂)： from pyspark.sql import SparkSession from pyspark.sql.functions import length import argparse import uuid import datetime def parse_arguments(): parser

浏览 12提问于2020-12-31得票数 0

1回答

星星之交sql dataframe与循环中的重命名连接

、、、、

我试着对数据文件做一个传递的结束。经过几次迭代，我得到了一些内部火花异常。任何关于什么原因以及如何解决它的想法。这是我的节目： val e = Seq((1, 2), (1, 3), (2, 4), (4, 5), (5, 6), (6, 7), (7, 8), (8, 9), (9, 10), (10, 11), (11, 12), (12, 13), (13, 14), (14, 15), (15, 16), (16, 17), (17, 18), (18, 19)) var edges = e.map(p => Edge(p._1, p._2)).toDF() var filter

浏览 0提问于2016-01-28得票数 2

回答已采纳

1回答

如何删除损坏的Cassandra密钥空间

我试图通过发出"DROP KEYSPACE“CQL命令来删除Cassanda (1.2.6)键空间。命令挂起。我不能再访问这个密匙空间，不能创建一个同名的新密匙空间，也不能再次删除它。恢复策略是什么？我可以简单地从"data“目录中删除带有被冒犯的keyspace的文件夹吗？处理这个问题的正确方法是什么？

浏览 0提问于2013-07-11得票数 2

回答已采纳

2回答

为什么火花作业在并行执行多个Hive脚本时失败？

、、

我有25个蜂巢脚本，每个有200个蜂巢查询。我在我的aws集群中使用spark命令运行每个hql。我正在运行所有的火花-sql命令并行使用&操作符。我能够在tez上成功地使用单元运行相同的hql。我也在尝试使用spark来提高性能。但是，使用spark，只有2-3个脚本执行得很好；其余的sql由于对等错误设置的连接而失败。我相信，这是由于资源不足，在纱线集群的火花。当我观察到纱线控制台时，我可以看到它正在利用集群的全部内存，尽管我在命令中指定了executor和驱动程序内存。能帮我找出这个问题的确切原因吗? 下面是我的EMR集群配置： Data Nodes : 6 RAM per

浏览 0提问于2017-04-20得票数 1

回答已采纳

1回答

DataProc上的执行器心跳超时

、、

我正在尝试在一个Google DataProc集群上安装Spark (2.0.0)的ml模型。当拟合模型时，我会收到执行者心跳超时错误。我怎么解决这个问题？其他解决方案表明，这可能是由于(其中一个)执行器内存不足所致。我作为解决方案阅读:设置正确的设置、重新分区、缓存和获得一个更大的集群。我能做什么，最好不设置一个更大的集群？(创建更多/更少的分区？缓存更少？调整设置？) 我的背景：在Google DataProc集群上火花2.0.0 :1主处理器和2名工作人员都具有相同的规格: n1-highmem-8 -> 8 vCPU，52.0GB内存-500 GB磁盘设置： spark\:

浏览 3提问于2016-09-03得票数 0

1回答

使用Spark优化Hive SQL查询？

、、、、

我有一个复杂的SQL查询，用于在Hadoop Hive中获取数据。我已经开始阅读关于Spark和PySpark的文章了。这些工具似乎提高了性能。换句话说，如果我必须为我的数据查询Hive，我从Spark获得的任何性能改进都只会来自我从Hive检索数据后应用于数据的转换。我对这些技术的理解正确吗？

浏览 0提问于2019-12-20得票数 0

3回答

需要帮助分析Java线程转储

、

我正在使用武士工具分析线程转储。看起来它有很多被阻塞的线程。我没有从线程转储中获得任何东西的线索。我在运行在weblogic上的Java应用程序中有一个SQL查询，它需要花费大量时间才能完成。在多次单击我的Java应用程序按钮运行此查询后，我的JVM将挂起。线程转储可以在@：中找到你能帮我理解线程转储是怎么回事吗？

浏览 1提问于2012-12-16得票数 1

回答已采纳

1回答

DataBricks无法显示来自DataBricks 2的数据

、、、

我们正在从blob存储迁移到ADLS 2，我们希望测试从DataBricks访问数据湖的情况。我创建了一个服务主体，它具有和访问Data的权限。我的笔记本设置了以下星火配置： spark.conf.set("fs.azure.account.auth.type","OAuth") spark.conf.set("fs.azure.account.oauth.provider.type","org.apache.hadoop.fs.azurebfs.oauth2.ClientCredsTokenProvider") spar

浏览 0提问于2021-08-18得票数 1

回答已采纳

2回答

通过JDBC从spark上的远程配置单元读取数据返回空结果

、、、、

我需要从spark在远程配置单元服务器上执行配置单元查询，但由于某些原因，我只收到列名(没有数据)。表中的数据可用，我通过色调和java jdbc连接检查了它。下面是我的代码示例： val test = spark.read .option("url", "jdbc:hive2://remote.hive.server:10000/work_base") .option("user", "user") .option("password", "password")

浏览 2提问于2017-06-08得票数 7

3回答

无法从配置单元查询`saveAsTable`之后的Spark DF - Spark SQL特定格式，与配置单元不兼容

、、、、

我正在尝试将数据帧保存为外部表，该表将同时使用spark和可能的hive进行查询，但不知何故，我无法使用hive查询或查看任何数据。它在spark中工作。以下是如何重现该问题的方法： scala> println(spark.conf.get("spark.sql.catalogImplementation")) hive scala> spark.conf.set("hive.exec.dynamic.partition", "true") scala> spark.conf.set("hive.exec.dynam

浏览 3提问于2019-08-02得票数 0

1回答

Java语言。SparkSQL连接大型数据集

、、

我尝试在一个机器集群(5台机器)上连接2个大型数据集(2 2GB json文件/每个10.000.000元组)，但总是得到相同的错误 java.lang.OutOfMemoryError: GC overhead limit exceeded spark脚本是 public static void main(String[] args) throws Exception { SparkSession spark = SparkSession .builder() .appName("Java Spark Translator") .master("local")

浏览 1提问于2016-12-21得票数 0

1回答

退出状态：-100。诊断:容器在丢失节点上释放

、、、

我有两个输入文件(一个在JSON中，另一个在parquet中)，我试图在这两个大数据帧上做一个连接，并将连接的数据帧写入s3(作为JSON)。该作业将永远停滞不前(将联接的JSON写入s3)。我使用的是70 r3.4xlarge (从)。 df1.rdd.partitions.size = 34234 (大小约4 TB) df2.rdd.partitions.size = 1200 (大小约58) 我已经尝试过了，但仍然没有改进：最大资源设置为真正静态分配的动态分配: spark.executor.cores =5 spark.executor.memory = 40G spark.exec

浏览 0提问于2019-02-12得票数 1

2回答

是否有可能从hbase转换为spark rdd效率？

、、、

我在hbase中有一个很大的项目数据集，我想要加载到spark rdd中进行处理。我的理解是，hbase针对hadoop上的低延迟单项目搜索进行了优化，所以我想知道是否有可能在hbase中高效地查询1亿个项目(大约10TB大小)？

浏览 1提问于2017-10-25得票数 0

1回答

Oracle:设置查询超时

、、

我有一个PL/SQL程序，通过透明网关对AS400数据库进行查询。有时，AS400不响应查询(可能是网络问题)，PL/SQL程序挂起。有没有什么方法可以设置Oracle查询的超时时间，以便在经过一定时间后引发异常？

浏览 0提问于2009-12-16得票数 4

回答已采纳

1回答

Spark 2.0中的配置单元查询运行速度非常慢

下面我有一个简单的配置单元查询，我们有一个并行运行多个配置单元查询的用例，在我们的例子中是16 (我们机器中的核心数量，使用scala解析数组)。在Spark 1.6中，它在10秒内执行，但在Spark 2.0中，同样的查询需要5分钟。 "select * from emp as e join dept d on o.dept_id = t.dept_id where o.dept_id =100“ 有没有人能帮我出什么问题。为什么花了这么长时间？问候你，杰伊

浏览 0提问于2016-11-18得票数 0

6回答

如何让Zeppelin在EMR集群上干净地重启？

、、、、

我正在运行一个EMR集群，并尝试使用Zeppelin笔记本进行数据分析。版本:版本标签:emr-5.2.1 Hadoop发行版: Amazon 2.7.3 配置单元2.1.0 Spark 2.0.2 Zeppelin 0.6.2 我总是在运行查询时遇到Zeppelin挂起的问题，而且我永远也无法恢复它。我试过了：将interpreterSSH'ing重新启动到主节点并运行zeppelin_daemon.sh restart (我曾尝试以hadoop //身份运行，并使用选项reload、start/stop、upstart)运行脚本每次我使用守护程序shell脚本时，它都会告诉我

浏览 2提问于2017-02-04得票数 10

3回答

Spark似乎不使用与Hive相同的仓库

、、、、

我已经开始在我的Eclipse上使用Spark 2.0，我创建了一个maven项目，并获得了所有最新的依赖项。我能够毫无问题地运行配置单元查询。我担心的是Spark为hive创建了另一个仓库，并且没有使用我想要的数据仓库。因此，我的服务器上的所有配置单元表，我无法将这些配置单元表读取到我的Spark数据集中，也无法进行任何转换。我只能创建和处理新表，但我希望在hive中读取我的表。我的hive-site.xml :- <configuration><property> <name>javax.jdo.option.ConnectionURL</n

浏览 1提问于2016-11-11得票数 1

1回答

CDH-5.10.2上RSparkling中连续的“发送批处理UDP字节时的Got IO错误:RSparkling:连接拒绝”

、、、、

我试图在离线CDH-5.10.2集群上执行。我的环境是：火花1.6.0；火花0.6.2； h2o 3.10.5.2；起泡0.2.1。我使用自定义的汽水罐，它基本上是1.6.12，并应用了： options(rsparkling.sparklingwater.location = "/opt/h2o/sparkling-water-1.6.13-SNAPSHOT/assembly/build/libs/sparkling-water-assembly_2.10-1.6.13-SNAPSHOT-all.jar") 成功连接后： config <

浏览 3提问于2017-09-07得票数 0

回答已采纳

2回答

Spark安装: spark-2.0.0-bin-hadoop2.7/lib/spark-assembly-*.jar:没有这样的文件或目录

、

你能指导我在本地机器上升级我的spark版本吗？我想运行在Hadoop2.7和hive 1.2.1上(mysql中的metastore)。我使用的是旧的spark 1.5版本，我想升级到新的2.0版本。我已经下载了二进制文件'spark-2.0.0-bin-hadoop2.7.tgz‘并将其压缩。我在spark-env - HADOOP_HOME中添加了HADOOP_CONF_DIR。SPARK_CLASSPATH指向mysql-connector jar文件。在spark-default中添加了spark.sql.warehouse.dir、spark.sql.hive.meta

浏览 5提问于2016-09-01得票数 3

1回答

EMR:如何将Spark与Hive集成？

、、、

使用EMR集群，我创建了一个映射到DynamoDB表的外部Hive表(超过8亿行)。它工作得很好，我可以通过hive进行查询和插入。如果我在配置单元中尝试使用hash_key的条件进行查询，我会在几秒钟内得到结果。但是使用SparkSQL和enableHiveSupport (访问蜂窝)通过spark-submit执行相同的查询时，finish.It似乎并没有从Spark对表进行全面扫描。我尝试了几种配置(例如不同的hive-site.xml )，但在Spark上似乎不能很好地工作。我该怎么通过Spark来做呢？有什么建议吗？谢谢

浏览 17提问于2018-01-25得票数 0

1回答

Spark内核笔记本之间的集群共享

、、、、

我希望从概念上理解在Spark内核(如SparkMagic)上运行的几个Jupyter笔记本如何共享一个工作节点集群。如果用户A在计算单元中持续或缓存了一个大的RDD (无论是在磁盘上还是在内存中)，然后出去度周末，但没有停止他/她的笔记本，这是否会降低其他用户在用户A的笔记本运行时运行其作业的能力？也就是说，共享集群的所有Spark notebooks将能够同时提交作业(不必按顺序运行)，但资源将被划分，对吧？这是一个一般性的问题，但对于我们来说，我们在美国地区的AWS Sagemaker和EMR环境上运行，以防它有所不同。

浏览 20提问于2021-01-25得票数 1

1回答

notebook如何向Spark发送代码？

我正在使用一个笔记本环境来尝试一些针对Spark的命令。有人能解释一下当我们从notebook中运行一个单元格时，整个流程是如何工作的吗？在笔记本电脑环境中，哪个组件充当驱动程序？此外，我们是否可以将从笔记本运行的代码片段称为"Spark Application"，或者仅当我们使用spark-submit将代码片段提交给spark时才将其称为"Spark Application“？基本上，我试图找出什么是合格的"Spark应用程序“。

浏览 0提问于2018-08-09得票数 2

7回答

检查Spark流作业是否挂起的最佳方法

、、、

我有Spark streaming应用程序，它基本上从Kafka获得触发消息，这启动了批处理，这可能需要2个小时。有一些事件，其中一些作业无限期地挂起，并且没有在通常的时间内完成，目前我们无法在不手动检查Spark UI的情况下确定作业的状态。我想知道当前正在运行的spark作业是否挂起的方法。所以基本上，如果它挂起超过30分钟，我想通知用户，这样他们就可以采取行动。我有哪些选项？我知道我可以使用驱动程序和执行器的度量标准。如果我要选择最重要的一个，它将是最后收到的批处理记录。当为StreamingMetrics.streaming.lastReceivedBatch_records ==

浏览 6提问于2018-10-18得票数 8

1回答

解释星火配置的区别

、

我必须将我的spark应用程序中的执行器数设置为20个。 spark.dynamicAllocation.initialExecutors = 20 spark.executor.instances=20 我启用了以下配置 spark.dynamicAllocation.enabled =真我将在哪种用例场景中使用这两种情况？

浏览 5提问于2020-09-13得票数 1

回答已采纳

1回答

Dataproc上的Spark流数据管道遇到频繁的套接字超时

、、

我在Google Cloud Dataproc上使用Spark streaming来执行一个框架(用Python编写)，它由几个连续的管道组成，每个管道代表Dataproc上的一个作业，它基本上是从Kafka队列读取并将转换后的输出写入Bigtable。所有管道组合在一起，每天通过2个群集处理数of的数据，一个具有3个工作节点，一个具有4个工作节点。在Dataproc上运行这个Spark streaming框架在5月初(准确地说是5月3日)之前一直相当稳定:我们开始遇到频繁的套接字超时异常，这会终止我们的管道。它似乎与集群上的负载无关，因为它并没有显著增加。它在一天中也是随机发生的，我检查了

浏览 0提问于2016-05-24得票数 3

1回答

为CI设置Spark，如何模拟配置单元表

、、

在使用Spark 1.6.2的Java应用程序中，我想在CI环境(travis或gitlabCI)上测试一些使用表(来自生产中的Apache Hive )的Spark SQL查询。如何注册一些Spark应用程序可以在没有外部配置单元元存储的情况下使用的表？注意:我不能在Java程序中这样做。

浏览 15提问于2019-03-09得票数 2

1回答

配置单元元存储中的上次访问时间更新

、、、

我在配置单元控制台/ .hiverc文件中使用了以下属性，以便每当我查询该表时，它都会更新配置单元元存储的TBLS表中的LAST_ACCESS_TIME列。 set hive.exec.pre.hooks = org.apache.hadoop.hive.ql.hooks.UpdateInputAccessTimeHook$PreExec; 但是，如果我使用spark-sql或spark-shell，它似乎无法工作，并且LAST_ACCESS_TIME在配置单元转移存储中不会更新。下面是我读表的方式： >>> df = spark.sql("select * fro

浏览 1提问于2020-02-25得票数 5

1回答

对于同一外部表，Count(*)在spark.sql()和配置单元中给出不同的值

、、

我正在使用hive和spark开发一个AWS集群。前一天，当我在hive中的外部表上运行一些ETL pyspark脚本时，我遇到了一个奇怪的情况。我们有一个控制表，它有一个提取日期列。我们正在根据提取日期过滤来自临时表( hive中的托管表，但位置是s3存储桶)的数据，并将其加载到目标表，该目标表是包含位于s3存储桶中的数据的外部表。我们正在装入如下表格 spark.sql("INSERT OVERWRITE target_table select * from DF_made_from_stage_table") 现在，当我通过spark和直接配置单元CLI检查了目标表的

浏览 20提问于2019-04-28得票数 0

2回答

我需要在Spark中使用线程吗？

、

我正在运行一个Spark应用程序，它通过Spark SQL运行两个单独的配置单元选择查询，然后将每个查询的结果写入数据库。注意，我需要做一个DB upsert，所以不能使用内置的Spark JDBC。到目前为止，代码是这样的： res1 = spark.sql(query1).collect() res2 = spark.sql(query2).collect() res1.foreach(lambda row: updateTable1(row)) res2.foreach(lambda row: updateTable2(row)) 因为collect()是一个动作，所以我假设res1

浏览 0提问于2020-04-22得票数 0

1回答

MapR集群是否支持星火上的配置单元？

、、、

我想在spark上执行hive查询。目前我们使用mapreduce作为执行引擎。请务必让我知道spark是否支持在MapR集群上执行配置单元查询？之前，我使用Cloudera在spark engine上执行了hive查询。但对MapR不是很确定。

浏览 6提问于2016-09-28得票数 0

1回答

Mongodb地图减少与Apache星图减少

、、、

我有用例，在我的Mongodb中有3M记录。我想根据某些条件聚合数据。我发现有两种方法来完成它使用Mongodb映射约简函数查询通过将Mongodb连接到spark，使用Apache映射减少功能。我使用上述方法成功地执行了我的用例，并发现这两种方法的性能相似。我的查询是？ Mongodb和Apache是否使用相同的地图减少算法，而哪种方法(M.R使用Spark或原生Mongodb映射减少)更有效？

浏览 0提问于2016-12-22得票数 3

1回答

如何在spark中运行hive sql

、、、

添加文件s3://nouveau3/cleanser/cleanser.py CREATE EXTERNAL TABLE IF NOT EXISTS ext_tbl ( c STRING ) ROW FORMAT DELIMITED LINES TERMINATED BY '\n' LOCATION 's3-location' tblproperties ('skip.header.line.count'='1'); CREATE TABLE main_tbl (schema); INSERT INTO TABL

浏览 10提问于2018-02-16得票数 0