spark thrift_将Power BI连接到Spark thrift_Spark Thrift服务器排队查询 - 腾讯云开发者社区

linux、bash、shell-script、csv、uniq

通过下面的命令，我们可以从文件中打印重复行 uniq -d string file.txt 但我们怎样才能在csv文件上做到呢？我们只需要在csv文件的字段1,2上打印重复行--不包括字段3 FS - "，“ 例如： spark2-thrift-sparkconf,spark.history.fs.logDirectory,{{spark_history_dir}} spark2-thrift-sparkconf,spark.history.fs.logDirectory,true spark2-thrift-sparkconf,spark.history.Log.logDir

浏览 0提问于2017-08-22得票数 2

回答已采纳

1回答

不同端口上的SparkThrift服务器

apache-spark、apache-spark-sql

我正在尝试在不同的端口上运行Spark thrift服务器，比如12000。我引用了Spark sql文档和其他port.It，但我不能在不同的urls上运行Spark thrift服务器，也不能在端口10000上运行，因为它正在被Hive使用。我还引用了并进行了更改。已尝试从Spark_home/sbin>导出HIVE_SERVER2_THRIFT_PORT=12000启动Spark thrift。/ start -Thriftserver.sh 日志文件显示以下错误。错误thrift.ThriftCLIService:错误: org.apache.thrift.transport.

浏览 0提问于2015-04-17得票数 4

1回答

如何在非阻塞模式下启动spark (使用thrift服务器)，以便hive可以更新数据并将数据重新加载到spark中(查看表格)

hadoop、apache-spark、hive、amazon-emr

我们确实遇到了表查找的问题。我们需要同时从hive和spark (使用thrift服务器)访问表格。然而，我们的问题是在spark上运行spark和thrift服务器导致一个表的查找。我们在Amazon AWS EMR集群上运行，其中包含Hive、Spark和thrift Server2。我们希望使用hive更新s3存储，并定期在后台将这些聚合数据加载到spark中。同时，Spark总是加载了thrift服务器，并从s3加载了相同的数据，以便对这些数据进行实时聚合。Spark不需要对此数据的写访问权限。问题是在hive上运行周期性的所有数据加载任务会导致作业冻结。我们认为元存储可能被s

浏览 2提问于2015-12-22得票数 0

2回答

自定义星火在纱线上运行时找不到蜂巢数据库。

apache-spark、hive、apache-spark-sql、hadoop-yarn、hdp

按照来自的教程，在HDP中启动一个自定义版本的线上火花很好，如下所示： # download a current headless version of spark export SPARK_DIST_CLASSPATH=$(hadoop classpath) export HADOOP_CONF_DIR=/usr/hdp/current/spark2-client/conf export SPARK_HOME=<<path/to>>/spark-2.4.3-bin-without-hadoop/ <<path/to>>/spark-2.4.3-

浏览 1提问于2019-05-21得票数 0

1回答

将PHP应用程序连接到spark sql thrift服务器

php、thrift、apache-spark-sql

如何将PHP应用程序连接到spark sql thrift服务器？我们有一个hadoop集群，并在其上运行spark sql thrift服务器。从我们的java应用程序中，我们可以使用hive JDBC驱动程序连接到服务器并执行查询。但是，我们在PHP中开发的其他应用程序需要连接到spark sql thrift服务器。我们遵循了，但是当我们尝试在浏览器中打开脚本时，spark sql thrift服务器抛出了这个异常。 15/03/05 11:53:19 ERROR TThreadPoolServer: Error occurred during processing of mess

浏览 0提问于2015-03-05得票数 1

1回答

Spark SQL ODBC连接未连接

odbc、apache-spark、thrift

我已经使用以下命令构建了spark源 mvn -Pyarn -Phadoop-2.5 -Dhadoop.version=2.5.2 -Phive -Phive-1.1.0 -Phive-thriftserver -DskipTests clean package 我已经使用以下命令启动了thrift服务器 spark-submit --class org.apache.spark.sql.hive.thriftserver.HiveThriftServer2 --master local[*] file:///c:/spark-1.3.1/sql/hive-thriftserver/tar

浏览 1提问于2015-05-14得票数 0

1回答

thrift服务器的Spark上下文

apache-spark

到apache spark thrift服务器的每个jdbc连接都会创建一个单独的spark上下文吗？如果答案是“否”，那么如何为到thrift服务器每个JDBC连接创建一个单独的spark上下文。

浏览 0提问于2015-10-17得票数 0

1回答

Zeppeline -如何设置Zeppeline连接到远程sparkmaster？

apache-spark、apache-zeppelin

我在一组单独的主机上有5个节点的spark集群。我在一个单独的主机上安装了zeppeline，并连接了spark解释器来对spark集群执行查询。 Zeppeline 1.6版-安装在台式机上我都试过了。添加了"export MASTER= spark ://sparkmasterhost:7077“，并将spark解释器主变量设置为"spark://sparkmasterhost:7077” 当我运行"sc.version“时，我得到了这个错误。 org.apache.thrift.transport.TTransportException at org.apa

浏览 3提问于2016-01-31得票数 3

2回答

在Spark Thrift服务器中缓存DataFrame

apache-spark、apache-spark-sql、spark-thriftserver

我有一个Spark Thrift服务器。我连接到Thrift Server并获取Hive表的数据。如果我再次查询同一个表，它将再次将文件加载到内存中并执行查询。有没有办法使用Spark Thrift Server缓存表数据？如果是，请告诉我怎么做。

浏览 6提问于2017-08-16得票数 3

1回答

使用Spark thrift服务器的spark sql

scala、apache-spark、apache-spark-sql

我想使用JDBC类型的服务访问在spark中注册的表，使用spark提供的thrift服务。我在google上没有任何关于这方面的文档，有人能告诉我如何使用thrift服务器访问spark表吗？这些表在内存中的生命周期是多少，这些表是否会一直驻留在内存中，直到thrift服务器运行。

浏览 2提问于2015-08-05得票数 2

2回答

Spark Thrift服务器与Apache Thirft的关系

apache-spark

我阅读了，它告诉我服务器与有关，这是一种二进制通信协议。Spark Thrift服务器是Hive的接口，但是Spark Thrift服务器如何使用Apache Thrift通过二进制协议/rpc与Hive通信？

浏览 27提问于2017-08-14得票数 5

回答已采纳

1回答

如何将Tableau桌面连接到SparkSQL2.0中？

apache-spark、apache-spark-sql、tableau-api

我正在尝试从TableauDesktop10.1.1从OS连接到Spark (Spark2.0.0)。我已经安装了SimbaSparkODBC，Server已经启动并运行。但是，当我使用Spark连接器配置Tableau时，它并不连接。稍后，查询超时。当我检查日志时，我会看到以下消息。 16/11/17 17:01:26 ERROR TThreadPoolServer: Error occurred during processing of message. java.lang.RuntimeException: org.apache.thrift.transport.TTransportE

浏览 4提问于2016-11-17得票数 3

回答已采纳

1回答

在星火上，Alluxio帧大小()大于max()

java、apache-spark、thrift、alluxio

我在Alluxio和火花上有个奇怪的错误。我从Alluxio读了20.000个与火花有关的文件，而且它可以工作。但是我从Alluxio读了40.000个与火花有关的文件，这是行不通的。我使用Alluxio1.2，Spark1.6.0，并使用文件API：FileSystem fs = FileSystem.Factory.get(); AlluxioURI path = new AlluxioURI(/partition0); ...读取数据 16/08/19 16:08:40 INFO logger.type: Client registered with FileSystemMasterCl

浏览 0提问于2016-08-19得票数 1

回答已采纳

1回答

Spark Thrift服务器和ODBC

apache-spark、spark-thriftserver

我安装了Spark 2.2，但没有Hive，我想通过ODBC公开Spark表。我能够启动thrift服务器，显然没有错误，我的ODBC驱动程序能够连接到thrift服务器，但看不到任何Spark表。为了让ODBC应用程序访问我创建的Spark表，我是否需要安装并运行Hive？谢谢

浏览 3提问于2018-03-12得票数 0

1回答

火花节省服务器无法启动

hadoop、apache-spark、hive、spark-thriftserver

我正在使用以下命令在windows上运行带有Hive-1.2.1的spark 1.5.2节俭服务器-2.7.2 spark-submit --class org.apache.spark.sql.hive.thriftserver.HiveThriftServer2 --master yarn-client "C:\Spark\lib\spark-hive-thriftserver_2.10-1.5.2.jar" 它在异常下面停止， 16/04/11 12:31:00 INFO AbstractService: Service:HiveServer2 is started. 1

浏览 2提问于2016-04-11得票数 1

回答已采纳

1回答

Spark临时表的问题

apache-spark、apache-spark-sql

我用的是最新的HDP Sandbox (2.4.0.0-169)。我用Spark-shell (Spark Version 1.6.0)写了下面的代码。 var orcData = sqlContext.sql("select code from sample_07"); var paymentDataCache = orcData.cache; paymentDataCache.registerTempTable("paymentDataCache"); 按照以下命令启动thrift服务器和直线 1) export SPARK_HOME=/usr/hdp/2.

浏览 1提问于2016-05-12得票数 1

1回答

通过JDBC节俭在纱线上擦出火花？

apache-spark、hadoop-yarn、thrift

当通过Thrift接口执行查询时，我如何告诉它在YARN上运行查询？我正在尝试让Spark的JDBC/ODBC Thrift接口在YARN上运行Spark-SQL调用。这种组合似乎没有出现在文档中。Spark on YARN文档提供了一堆选项，但没有说明将它们放在哪个配置文件中，以便Thrift服务器可以选择它们。我看到了spark-env.sh中提到的一些设置(核心、执行器内存等)，但我不知道首先在哪里告诉它使用YARN。

浏览 14提问于2019-08-20得票数 0

1回答

DSE 4.7和spark sql驱动程序

apache-spark、datastax、datastax-enterprise、apache-spark-sql

我正在尝试使用这些链接，以使spark和tableau工作：在Tableau的DSE分析基础上运行spark。我所做的： DSE侧启用火花启动sudo dse start-spark-sql-thriftserver 我看到10000端口是通过启动火花sql-thriftserver监听的。迷途@dsenode01：~$ sudo netstat -alnpt区grep 10000 tcp 0 10000 0.0.0.0:10000 0.0.0.0:*听 5908/java 流浪者@dsenode01：~$ sudo ps -ef区grep 59

浏览 2提问于2015-06-15得票数 0

1回答

无法从直线访问Spark 2.0临时表

apache-spark、apache-spark-sql、spark-dataframe

在Spark 1.5.1中，我已经能够使用Thrift Server从Beeline访问spark-shell临时表。我可以通过阅读Stackoverflow上相关问题的答案来做到这一点。然而，在升级到Spark 2.0之后，我再也看不到来自Beeline的临时表了，以下是我正在遵循的步骤。我使用以下命令启动spark-shell： ./bin/spark-shell --master=myHost.local:7077 —conf spark.sql.hive.thriftServer.singleSession=true 一旦spark shell准备就绪，我将输入以下几行代码来启动t

浏览 16提问于2016-09-28得票数 2

2回答

%spark.r解释器在Zeppelin 0.6.1中不起作用

apache-spark、apache-spark-sql、sparkr、apache-zeppelin

我正在使用Hadoop纱线的Spark 1.6.2集群，Oozie。我已经安装了Zeppelin 0.6.1(带有所有解释器的二进制包: zeppelin-0.6.1-bin-all.tgz)。当我尝试通过%spark.r解释器使用SparkR脚本时， %spark.r # Creating SparkConext and connecting to Cloudant DB sc1 <- sparkR.init(sparkEnv = list("cloudant.host"="host_name","cloudant.username"=&

浏览 16提问于2016-08-25得票数 1

2回答

Spark Thrift服务器在通过JDBC传输之前将全部数据集加载到内存中

apache-spark、spark-thriftserver

Spark Thrift服务器试图在通过JDBC传输之前将完整的数据集加载到内存中，在JDBC客户端上，我收到错误： SQL Error: org.apache.spark.SparkException: Job aborted due to stage failure: Total size of serialized results of 48 tasks (XX GB) is bigger than spark.driver.maxResultSize (XX GB) org.apache.spark.SparkException: Job aborted due to stage

浏览 9提问于2018-11-01得票数 0

2回答

Cassandra读取了负的帧大小(-2062548992)！错误

cassandra、janusgraph

我想通过SparkGraphComputer进行JanusGraph的联机分析处理计算，但现在遇到了这个错误。有人能替我回答吗？我的存储后端是Cassandra，4000万个点和1.2亿个边。这是配置文件。 gremlin.graph=org.apache.tinkerpop.gremlin.hadoop.structure.HadoopGraph gremlin.hadoop.graphReader=org.janusgraph.hadoop.formats.cassandra.Cassandra3InputFormat gremlin.hadoop.graphWriter=org.ap

浏览 1提问于2018-11-15得票数 0

1回答

Spark Thrift服务器排队查询

apache-spark、spark-thriftserver

当并行查询命中Spark Thrift服务器时，在Spark UI --> JDBC/ODBC server中，它会将所有查询显示为已启动，但所有查询都会按顺序执行以下是Thrift Server启动脚本 start_thriftserver (){ sudo /usr/lib/spark/sbin/start-thriftserver.sh \ --master yarn \ --deploy-mode client \ --executor-memory 3200m \ --executor-cores 2 \ --driver-memory 4g \ --conf

浏览 16提问于2019-07-25得票数 1

0回答

ambari版本2.2.1.1中的Spark 2.0安装错误

apache-spark、hortonworks-data-platform、ambari

我正在尝试使用资源定义通过ambari (2.2.1.1版)安装spark 2.0。安装spark 2 thrift服务器时出现以下错误。你能帮帮我吗。 Traceback (most recent call last): File "/var/lib/ambari-agent/cache/common- services/SPARK2/2.0.0/package/scripts/spark_thrift_server.py", line 26, in <module> from resource_management.libraries.function

浏览 10提问于2016-07-12得票数 2

1回答

通过Knox连接到Spark thriftserver

apache-spark-sql、kerberos、knox-gateway

我正在尝试通过Kerberos ( SparkSQL发行版是HDP 2.4.2)保护的集群中的Knox连接到Hadoop (Spark1.6.2)。我们对Hive有相同的架构，它工作得很好。因为Spark使用的是同样的服务器，所以我认为做同样的事情是微不足道的，但事实并非如此。通过Knox连接时，Spark thriftserver抛出的错误是： 16/10/17 15:25:39 ERROR ThriftHttpServlet: Failed to authenticate with hive/_HOST kerberos principal 16/10/17 15:25:39 ERROR

浏览 3提问于2016-10-17得票数 1

1回答

使用Spark查询存储在HDFS中的数据的最佳方式是什么？

java、apache-spark、apache-spark-sql、spark-dataframe、spark-thriftserver

我想创建一个Java应用程序，使用Spark查询HDFS中的数据。到目前为止，我已经通过两种方法进行了测试：-对Thrift服务器公开的JDBC端点进行SQL查询(从默认配置开始)-使用spark dataset api 我的问题是，作为hadoop/spark的新手，这两种方法中哪一种最有效、最容易设置(没有默认配置)？据我所知，使用Thrift服务器需要配置和维护Thrift和Hive。另一方面，我预计使用dataset API会更慢，并且有更多的限制，将数据保留在内存中。

浏览 10提问于2018-02-11得票数 0

回答已采纳

1回答

如何在Power BI中定义与Spark Thrift的本地连接

apache-spark、powerbi、thrift

我正在尝试配置与Power BI中的Spark Thrift的本地连接。我可以使用Spark ODBC连接(本地主机:10000，机制用户名和Thrift传输SASL)。但我想使用火花连接器，因为它支持直接查询。 ? 我找不到如何定义连接字符串。尝试了几个像localhost:10000/default/;transportMode=http;ssl=true;user=...这样的东西但总是会得到错误 ERROR TThreadPoolServer:297 - Error occurred during processing of message. java.lang.Runtim

浏览 163提问于2019-05-07得票数 1

回答已采纳

1回答

连接到spark并在没有thrift服务器的情况下访问hive表

apache-spark、jdbc、spark-thriftserver

我正在编写一个Java Spark应用程序，它需要连接到hive，并获取一些基本的表信息，并查询该表的数据。我正在创建一个spark会话，并获得如下信息。但这使用的是thrift服务器。我想看看我是否可以在不使用thrift服务器的情况下做同样的事情。这是可能的吗?我该怎么做？我正在尝试编写一个JDBC客户端，它可以通过sparkSQL连接到spark来访问hive表，而不需要使用thrift服务器。请提供您对如何实现这一点的想法和建议。谢谢。 SparkSession spark = SparkSession .builder() .a

浏览 0提问于2018-05-11得票数 0

1回答

spark与哨兵的权限

apache-spark、hive、apache-spark-sql、privilege、apache-sentry

我正在尝试使用sentry访问spark，并通过hiveserver2( -hiveconf hive.server2.thrift.port)将thrift与节俭端口连接起来。但是，虽然我可以成功地限制用户对hive的权限，但我不能通过sentry限制使用spark访问权限。有人遇到过同样的问题吗？

浏览 2提问于2016-08-18得票数 3

1回答

同时运行多个Hive查询时的节俭驱动程序OutOfMemory

out-of-memory、thrift、apache-spark-2.0

我们使用Spark2来运行Hive查询。节俭是HDP 2.6的一部分，我们的火花版本是2.1.0.2.6.0.3-8。我们同时运行的查询越多，在驱动程序中遇到OOM的速度就越快。这些查询还包含联接和联合。从jstat看来没有内存泄漏，但是无论给驱动程序多少内存，似乎都是不够的。同时运行的查询越多，Thrift驱动程序开始执行完整GC的速度就越快，直到它崩溃，因为完整的GC不能清理旧内存(因为它正在使用)。 OOM从未发生在执行者中，只发生在驱动程序中。有没有人在火花问题上与之合作，并遇到这个问题？如果是这样的话，那么当同时运行几个查询时，如何才能配置Thrift驱动程序不使OOM崩溃？

浏览 2提问于2017-10-12得票数 3

2回答

从表中动态获取空列计数

hive、apache-spark-sql、hiveql

我使用datastax + spark集成和spark SQL节俭服务器，这为我提供了一个Hive SQL接口来查询Cassandra中的表。我的数据库中的表是动态创建的，我想要做的是根据表名在表的每一列中获取空值的计数。我可以使用describe database.table获取列名，但是在hive中，如何在另一个select查询中使用它的输出，该查询为所有列计数为null。更新1: Dudu解决方案的回溯运行查询错误: TExecuteStatementResp(status=TStatus(errorCode=0，errorMessage="org.apache.spa

浏览 7提问于2017-06-16得票数 8

1回答

Spark应用程序继续运行，似乎处于挂起状态- org.apache.spark.sql.hive.thriftserver.HiveThriftServer2

hadoop、apache-spark、hadoop-yarn、ambari

我在Hadoop集群中使用的是HDFS 2.7.3和Spark2 2.0.0。当我启动Spark2 Thrift服务器时，它成功地启动了，但从配置单元用户自动开始运行一个作业，它似乎永远挂起。如果我手动终止该作业，它将再次使用新的applicationId启动一个新作业。但是如果我停止Spark2 Thrift服务器，它就会终止作业。你能帮我理解一下这个问题吗？提前谢谢。

浏览 0提问于2017-04-21得票数 3

1回答

如何将火花放电连接到HiveThriftServer2？

apache-spark、pyspark、apache-spark-sql

我正在尝试将我的spark应用程序与从start-thriftserver.sh启动的thriftserver连接起来，但我总是得到一个TTransportException。我正在使用Spark3.3.0。通过Beeline连接到服务器没有问题。我正试图通过使用命令发射火星雨来连接亚稳态。 pyspark \ --conf spark.hadoop.hive.metastore.uris=thrift://localhost:10000 \ --conf spark.sql.hive.metastore.jars=maven \ --conf spark.sql.hive.metastor

浏览 9提问于2022-10-25得票数 0

回答已采纳

2回答

用Oracle表创建SparkSQL jdbc联邦失败时出现了奇怪的错误

oracle、apache-spark、hive、apache-spark-sql

我正在尝试创建hive表，它将指向oracle表，但是它在org.apache.spark.sql.AnalysisException中失败了。步骤：重建spark with hive, hive-thrift支持将oracle-db-connector.jar放在类路径中设置thrift server 使用beeline连接到它 beeline> !connect jdbc:hive2://localhost:10100 Connecting to jdbc:hive2://localhost:10100 创建hive table: CREATE TABLE oracle3_c

浏览 5提问于2016-09-20得票数 0

回答已采纳

1回答

火花执行器:初始堆大小无效：-Xms0M

java、apache-spark、jvm、apache-spark-sql

我已经将Spark配置为查询hive表。使用下面的命令运行/ODBC服务器： cd $SPARK_HOME ./sbin/start-thriftserver.sh --master spark://myhost:7077 --hiveconf hive.server2.thrift.bind.host=myhost --hiveconf hive.server2.thrift.port=9999 然后在Spark用户界面上检查，执行器启动失败并出现以下错误，JVM初始化失败是因为错误的-Xms： Invalid initial heap size: -Xms0M Error: Could

浏览 2提问于2016-01-29得票数 3

2回答

javax.security.sasl.SaslException: GSS初始化失败[由GSSException引起:未提供有效凭据

hive、hiveql、apache-spark-sql

当我尝试使用Spark SQL HiveContext连接到hive metastore时，我收到此错误。我在我的桌面上使用spark-submit命令在独立的集群上运行，而不是从hadoop集群。 <property> <name>hive.metastore.sasl.enabled</name> <value>true</value> </property> <property> <name>hive.server2.authentication</n

浏览 1提问于2015-08-25得票数 3

1回答

无法在google-cloud-dataproc中启动spark thrift服务器

apache-spark-sql、google-cloud-dataproc

我在google-cloud dataproc集群的10010端口启动spark sql的thrift服务器有困难，它失败了，出现以下错误，有人能帮我吗?，我试着更改端口号仍然没有成功。 sudo -u spark HIVE_SERVER2_THRIFT_PORT=10010 /usr/lib/spark/sbin/start-thrftserver.sh 日志如下： 16/11/30 23:47:16信息org.apache.hive.service.AbstractService:服务:节俭ThriftBinaryCLIService启动。16/11/30 23:47:16信息服务: or

浏览 2提问于2016-12-01得票数 1

1回答

与Spark Thrift服务器的通信是否以二进制模式安全传输？

ssl、thrift、thrift-protocol、spark-thriftserver

在我的组织中，我们有一个使用HTTP和SSL的Spark Thrift服务器设置，因为有一个基本假设，即二进制模式不是通过网络安全加密的，因此可能会泄露凭据或敏感的查询数据。我使用，scan阅读了一篇研究论文，并查看了Thrift协议规范以寻找一个明确的答案，但无济于事。似乎完全没有提到身份验证和加密意味着它应该由一个封装的网络层来处理？假设Spark Thrift服务器以二进制模式传输未加密或不安全的数据是否正确？

浏览 22提问于2019-08-09得票数 0

1回答

如何监控AWS EMR集群中托管的spark中的配置单元thrift服务器运行状况？

amazon-web-services、apache-spark、hive、amazon-emr、spark-thriftserver

我们使用JDBC连接到spark EMR集群上的hive thrift服务器。我们遇到了一些暂时性的问题，比如thrift服务器崩溃并需要手动重新启动。我们想知道是否有任何希望简单的方法让我们监控thrift服务器的健康状况？至少，我们希望在它出现故障时得到警报。如果有其他的服务器健康指标也会很好。

浏览 7提问于2018-12-13得票数 0

2回答

通过thrift服务器从web浏览器访问Spark RDDs - java

apache-spark、thrift、rdd

我们已经使用Spark 1.2.1和Java处理了我们的数据，并存储在Hive表中。我们希望通过web浏览器以RDDs的形式访问这些数据。我阅读了文档，并理解了完成任务的步骤。我无法找到通过thrift服务器与Spark SQL RDDs进行交互的方法。我找到的示例在代码中有以下行，但我在Spark 1.2.1Java API文档中找不到对应的类。 HiveThriftServer2.startWithContext 在github中，我看到了使用导入org.apache.spark.sql.hive.thriftserver的scala示例，但在Java API文档中没有看到这一点。不知

浏览 1提问于2015-04-24得票数 3

1回答

齐柏林飞艇1.5.1独立集群失败

apache-spark、apache-zeppelin

我正在运行以下程序：-星火独立集群(预构建：) - Zeppelin 0.5.0 (标记：) -OracleJDK8u66 我可以从任何一台星火集群机器启动一个火花外壳。我安装了齐柏林飞艇，如下所示()： git clone https://github.com/apache/incubator-zeppelin zeppelin cd zeppelin git checkout tags/v0.5.0 mvn install -DskipTests -Dspark.version=1.5.1 -Dhadoop.version=2.6.0 我已经将zeppelin-env.sh配置为： ex

浏览 4提问于2015-11-09得票数 0

1回答

熊猫UDF抛出不需要长度的错误

python、pandas、apache-spark、databricks

我有一个delta表，它包含来自kafka的节约数据，我正在使用一个UDF来反序列化它。当我使用常规UDF时，我没有问题，但是当我尝试使用Pandas时，我会遇到一个错误。运行良好，即ruglar。 def decoder(thrift_data): schema_file = thriftpy2.load("/dbfs/FileStore/schema_file.thrift") schema = schema_file.SchemaClass() decoded_payload = deserialize(schema, thrift_data, TCy

浏览 3提问于2022-03-25得票数 0

回答已采纳

1回答

为什么spark executor内核不等于spark web UI中的活动任务？

apache-spark、spark-thriftserver

我使用Spark 2.3 thrift服务器进行即席Sql查询。我的spark参数在spark-defaults.conf文件中设置如下： spark.executor.memory 24G spark.executor.cores 40 spark.executor.instances 3 然而，当我检查spark web ui时，spark核心与活动任务不相等，如图所示：活动任务数怎么会大于分配的核数？有什么想法吗？谢谢!

浏览 4提问于2018-05-02得票数 8

1回答

处理邮件时出现节俭传输错误

hadoop、cassandra、apache-spark、cassandra-jdbc

我运行的是cassandra 1.2.6和Apache Spark 0.8.0。在这里，我使用Spark的newAPIHadoopRDD从Cassandra创建了一个RDD。当我从spark appln运行作业时，我发现cassandra记录了以下错误消息 INFO 21:36:28,629 Listening for thrift clients... DEBUG 21:36:29,730 Disseminating load info ... DEBUG 21:36:57,844 Started replayAllFailedBatches DEBUG 21:36:57,845 for

浏览 7提问于2014-01-07得票数 5

1回答

crontab调用shell脚本获取导入错误

python、shell、cron

crontab脚本是:0 6 * * * cd /path/to/shell/script && sh script.sh script.sh调用python文件，如下所示： /opt/tiger/spark_deploy/spark-test/bin/spark-submit \ --master yarn \ --num-executors 200 \ --driver-memory 8g \ --executor-memory 10g \ --conf spark.hadoop.yarn.cluster.name=topi \ --conf spark.dynamicA

浏览 11提问于2019-07-04得票数 0

3回答

Simba Spark ODBC驱动程序无法连接，始终超时

odbc、hive、apache-spark、apache-spark-sql、isql

我有一个功能齐全的Apache Spark Hive ThriftServer 1.2.1，它是用beeline和SQL Developer (两者都可以工作)测试的。此服务器的配置如下所示： <property> <name>hive.server2.authentication</name> <value>NONE</value> </property> <property> <name>hive.metastore.schema.verificati

浏览 27提问于2015-04-03得票数 0

2回答

Spark (2.2)：使用结构化流对Kafka中的Thrift记录进行反序列化

scala、apache-spark、spark-streaming、thrift

我是spark的新手。我使用结构化流媒体从kafka中读取数据。我可以在Scala中使用以下代码读取数据： val data = spark.readStream .format("kafka") .option("kafka.bootstrap.servers", brokers) .option("subscribe", topics) .option("startingOffsets", startingOffsets) .load() 我在value列中的数据

浏览 1提问于2017-10-19得票数 2

1回答

在使用sbt构建scala项目时，在类路径上包含非托管jars

java、scala、apache-spark、sbt、sbt-assembly

我正在尝试构建一个旧项目。该项目依赖于在sparrow-1.0.jar中找到的java包我将jar复制到lib_managed/jars和lib目录，但是在编译时，我仍然得到一个缺少类路径的错误。 project/SparkBuild.sbt包含对lib目录的引用 unmanagedJars in Compile <<= baseDirectory map { base => (base / "lib" ** "*.jar").classpath }, 和./lib的内容 root@26eefef538b1:/sparrow/spark-

浏览 26提问于2019-04-12得票数 1

回答已采纳

1回答

无法打开到Cassandra的thrift连接

java、cassandra、apache-spark

我只想使用spark-cassandra-connector从一个键空间playerinfo访问一个表player。 import org.apache.commons.lang3.StringUtils; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; import org.apache.spark.api.java.function.Function; import com.data

浏览 1提问于2014-11-25得票数 2

2回答

在zeppelin scala中读取大型org.apache.thrift.transport.TTransportException文件时出现JSON错误

json、scala、apache-spark、apache-zeppelin

我正在尝试使用Zeppelin和Scala读取一个大的JSON文件(1.5 GB)。 Zeppelin在安装在Ubuntu操作系统上的本地模式下的SPARK上工作，虚拟机上有10 GB的RAM。我已经为spark.executor.memory分配了8 8GB 我的代码如下 val inputFileWeather="/home/shashi/incubator-zeppelin-master/data/ai/weather.json" val temp=sqlContext.read.json(inputFileWeather) 我收到以下错误 org.apache.thri

浏览 0提问于2016-04-25得票数 7