pyspark hive.table未读取配置单元表的所有行_正在读取pyspark中配置单元托管表的orc文件_使用spark从一个配置单元读取所有表，然后写入另一个群集上的另一个配置单元 - 腾讯云开发者社区

hive、pyspark、apache-spark-sql

我使用sqoop创建和导入hive表，并使用pyspark获取数据。该表由一个字符串字段、一个整型字段和多个浮点型字段组成。我可以通过hue hive sql查询获得整个数据。但是，当我使用pyspark sql编程时，可以显示非浮点型字段，而浮点型字段总是显示空值。色调配置单元sql结果： zeppelin pyspark输出： hive表的详细信息：

浏览 18提问于2017-06-29得票数 0

1回答

将PySpark从停靠容器连接到本地计算机的配置单元表

docker、hive、pyspark

我已经使用Pyspark构建了一个决策树模型，并希望使用docker容器部署该模型。我使用的是spark 1.6.0。数据存储在Hive表中，并位于我的本地计算机中。有没有一种方法可以将PySpark从我的停靠容器连接到我本地计算机中的配置单元表？我的配置单元表中的数据可能会更新，所以我不想挂载驱动器，或者只是将文件夹从本地复制到我的容器中，而是在PySpark和配置单元表之间建立连接。

浏览 7提问于2018-12-30得票数 0

1回答

使用配置单元元数据读取HDFS文件- Pyspark

python、dataframe、pyspark、apache-spark-sql、pyspark-sql

我是PySpark新手，正在尝试读取HDFS文件(上面创建了hive表)并创建PySpark数据帧。通过PySpark读取配置单元表非常耗时。有没有什么方法可以动态获取hive列名(用作dataframe中的模式)？我希望将文件位置、表名和数据库名作为输入传递给aa程序/函数，以便从配置单元元数据(可能是元数据xml)中获取模式/列名称，并作为dataframe返回。请指教

浏览 15提问于2019-03-06得票数 0

回答已采纳

1回答

从在azure云上运行的databricks向外部配置单元群集写入pyspark

pyspark、hive、azure-databricks、pyhive

我有在databricks中运行的pyspark笔记本。我使用pyhive中的'hive.Connection‘连接到外部配置单元群集。我的数据存储在spark数据帧中。我的问题是，如何将来自dataframes的数据写入Hive中的新表，该表位于databricks以外的不同集群中？谢谢

浏览 11提问于2020-09-26得票数 0

1回答

我是新来的火花，目前我正在处理从远程服务器连接的蜂巢数据库。我已经学习了许多关于如何将星星之火连接到hive的示例，而不是太多的工作。其中之一是使用下面的配置，但是，当将表提取到spark时，行值是列名。我的查询或火花配置有什么问题吗？ from pyspark import SparkContext, SparkConf from pyspark.sql import HiveContext, SparkSession spark = SparkSession \ .builder \ .master('yarn') \ .appName('C

浏览 1提问于2021-12-02得票数 0

1回答

创建不包含以逗号分隔的行格式的配置单元表格

hive

我有一个.CSV逗号分隔的文件 c1,c2,c3,c4 d1,d2,d3,d4 我的要求是创建一个外部配置单元表，该表只有一个名为item的字段，包含CSV文件的每一行，而不考虑逗号分隔的列。我必须使用create table的配置单元查询是什么？

浏览 2提问于2020-02-06得票数 0

2回答

如何避免AssertionError同时执行对Hive表的ORC格式的查询？

apache-spark、hive、pyspark、pyspark-sql、orc

我正在从PySpark运行一个简单的Hive查询，但是它会引发一个错误。这张表是ORC格式的。需要一些帮助。下面是代码 spark = SparkSession.builder.appName("Termination_Calls Snapshot").config("hive.exec.dynamic.partition", "true").config("hive.exec.dynamic.partition.mode", "nonstrict").enableHiveSupport().getOrCreate

浏览 9提问于2019-08-27得票数 1

回答已采纳

1回答

Pyspark :无法在Zeppilin实例中导入csv文件

csv、import、pyspark、apache-zeppelin

我无法运行以下代码行。 from pyspark.sql import SQLContext sqlContext = SQLContext(sc) df_t = sqlContext.read.format('com.databricks.spark.csv').options(header='true', inferschema='true').load('s3a://Bucket_name/Train - Copy.csv') 它抛出以下错误： AnalysisException: u'java.lang.Run

浏览 25提问于2019-02-21得票数 0

1回答

使用Pyspark读取拼图和ORC HDFS文件

pyspark

我用"Org.apache.hadoop.hive.ql.io.parquet.serde.MapredParquetInputFormat“格式创建了我的配置单元外部表，输出格式："Org.apache.hadoop.hive.ql.io.parquet.serde.MapredParquetOutputFormat". 如何使用Pyspark从hdfs读取这些配置单元表文件？

浏览 35提问于2021-07-09得票数 0

1回答

java.io.IOException:在Pyspark中写入大文件时流已损坏

apache-spark、pyspark、cloudera

我正在从SQL server中读取大约900万行的数据，并将其插入到我的datalake中已经存在的表中。这一过程处理的数据较少，约为100万。我对sql server使用基本的只读写模式： ? 我的Spark提交如下所示： ? 我的Pyspark配置： ? 我已经尝试重新分区并将内存增加到15，但仍然存在相同的问题。 java.io.IOException:流已损坏抱歉，我没有访问完整日志的权限

浏览 31提问于2020-07-24得票数 1

1回答

通过DataFrames读取蜂巢视图与蜂巢表时的性能考虑

apache-spark、hive、pyspark、apache-spark-sql、pyspark-sql

我们认为联合多个蜂箱表。如果我在pyspark中使用spark并读取该视图，那么与直接从表中读取相比，会出现任何性能问题。在单元格中，如果我们不将where子句限制在精确的表分区上，我们就有了所谓的完整表扫描。searching是否足够智能，可以直接读取具有我们正在寻找的数据的表，而不是搜索整个视图？请给我建议。

浏览 4提问于2019-10-22得票数 1

回答已采纳

3回答

星星之火DataFrame极限函数显示时间过长

python-3.x、pyspark、bigdata、data-science

import pyspark from pyspark.sql import SparkSession from pyspark.conf import SparkConf import findspark from pyspark.sql.functions import countDistinct spark = SparkSession.builder \ .master("local[*]") \ .appName("usres mobile related information analysis") \ .config("spark.subm

浏览 1提问于2019-02-10得票数 7

回答已采纳

2回答

如何有效地连接一个非常大的表和一个大表

apache-spark、pyspark、apache-spark-sql、pyspark-dataframes

我有两张桌子。这两个表都是以拼花数据格式存储的单元格中的外部表。从2015年开始，第一个表table_1每天有2.5亿个行。此表是基于create_date进行分区的。因此，每一个create_date，大约有2.5亿行。第二个表- table_2是delta表，平均行数约为150万行。两个表中都有一个公共列"lookup_id"。现在，我需要使用数据帧从table_1中获取table_2中的增量数据的所有列。我想做的事情如下 table_1=spark.table("table_1") table_2=spark.table("table_2&

浏览 0提问于2020-07-04得票数 1

回答已采纳

1回答

配置单元SerDe -外部表的每个文件一条记录

hive

如何在创建外部表时为每个文件指定一条记录。我所拥有的数据就是这种格式。每个文件一行，行的格式为compressed_ bytebuffer(jackson.write(java pojo)) 那么，我们如何指定配置单元应该将文件中的内容视为一条记录，并将其传递给我的SerDe。我查看了JSonSerde的代码，看起来如果我可以将整个blob放到我的SeDe序列化/反序列化方法中，那么我只需解压缩，剩下的JSonSerDe代码就可以很好地适用于我的情况。关于这种方法是否有效，有什么建议/想法吗？

浏览 0提问于2013-07-08得票数 0

1回答

将dynamodb表复制到配置单元的pyspark代码问题:不允许操作

hive、pyspark、amazon-dynamodb、amazon-emr

我正在尝试使用pyspark代码从aws emr上的Dynamodb创建一个外部配置单元表。当我在hive提示符上执行该查询时，它工作得很好，但当我将它作为pyspark作业执行时，它就失败了。代码如下： from pyspark import SparkContext from pyspark.sql import SparkSession import os spark = SparkSession.builder.enableHiveSupport().getOrCreate() spark.sql('use ash_data') spark.sql(

浏览 2提问于2019-05-10得票数 2

2回答

电火花电子病历和外部蜂箱/胶水--可以通过sqlContext丢弃但不能创建表。

apache-spark、pyspark、hive、amazon-emr、aws-glue

我正在从运行在EMR上的吡火花写一个数据到外部的蜂巢表。这项工作包括从外部单元表中删除/截断数据，将数据的内容写入上述表，然后将数据从单元写入DynamoDB。我想写到EMR集群上的一个内部表，但现在我希望以后的集群可以使用蜂箱数据。我可以直接写信到Glue目录，强迫它注册，但这比我需要做的还要远。所有组件都可以在给定的EMR集群上单独工作:我可以使用脚本或ssh和hive shell在EMR上创建外部单元表。这张桌子可以被雅典娜查询，也可以通过火星雨阅读。我可以创建一个dataframe并将数据插入到上述表中。然后，我可以使用hive将数据从hive表复制到DynamoDB表中。我想把所

浏览 4提问于2020-10-22得票数 0

回答已采纳

1回答

获取特定工作表上选定单元格的行索引(不是当前选定的单元格)

javascript、google-sheets

Google Sheets:我想要从特定的工作表中获取所选单元格的行索引(或内部值)，甚至是当前不在焦点中的工作表。比方说，我在工作表"A“中选择一个单元格，然后移动到工作表"B”。从这里，我想检索工作表"A“上的选定单元格行索引(或选定单元格内部的值)。因此，“获取活动单元格”或“获取当前单元格”的方法都不会起作用，因为这些方法只引用当前聚焦的工作表。我就是找不到任何解决办法。

浏览 1提问于2021-03-16得票数 0

1回答

HIve Alter commnad更改行格式

hadoop、hive、ddl、alter、bigdata

已在配置单元中创建不带行格式分隔选项的表。现在需要添加 rowformat delimited fileds terminated by ';' records terminated by '\n' 怎么做，请帮帮忙，谢谢。

浏览 5提问于2017-01-15得票数 0

1回答

如何从HDFS读取配置单元数据

python、hive、pyspark、pyspark-sql

我在HDFS hdfs://localhost:8020/user/ hive /warehouse中有配置单元仓库。我在hdfs中有一个数据库mydb，比如hdfs://localhost:8020/user/hive/warehouse/mydb.db 如何使用Pyspark创建表并向其中插入数据请给出建议

浏览 31提问于2018-01-23得票数 1

2回答

在查询中执行.show()时出错

python、apache-spark、hive、pyspark

我用docker创建了一个Hive容器，我创建了poke表，当我执行Select (一个after ()函数)时出现了这个错误。守则： from pyspark import SparkContext, SparkConf from pyspark.sql import SparkSession, HiveContext spark = SparkSession \ .builder \ .appName("Python Spark SQL Hive integration example") \ .config("hive.metasto

浏览 1提问于2018-04-25得票数 0

2回答

Spark SQL HiveContext - saveAsTable创建了错误的模式

hive、apache-spark、apache-spark-sql

我尝试将数据帧存储到Spark 1.3.0 (PySpark)中的持久化蜂窝表。这是我的代码： sc = SparkContext(appName="HiveTest") hc = HiveContext(sc) peopleRDD = sc.parallelize(['{"name":"Yin","age":30}']) peopleDF = hc.jsonRDD(peopleRDD) peopleDF.printSchema() #root # |-- age: long (nullable = true) #

浏览 0提问于2015-05-14得票数 9

回答已采纳

1回答

如果没有指定的分区路径，星火SQL将失败。

python、hadoop、apache-spark、hive、pyspark

我正在使用电子病历中的蜂巢Metastore。我能够通过HiveSQL手动查询表。但是当我在火花作业中使用相同的表时，它说输入路径不存在: s3:// 由: org.apache.hadoop.mapred.InvalidInputException:输入路径不存在引起的:s3://. 我在s3://..中删除了上述分区路径。但是它仍然在我的蜂巢中工作，没有在表级别上丢弃分区。但无论如何它在火花放电中都不起作用。这是我的完整代码 from pyspark import SparkContext, HiveContext from pyspark import SQLContext

浏览 0提问于2017-12-21得票数 0

1回答

在Databricks中将gzip文件另存为表

apache-spark、pyspark、apache-spark-sql、databricks

我想通过以下PySpark命令将gzip文件保存为Databricks中的配置单元表： df = spark.read.csv(".../Papers.txt.gz", sep="\t") df.write.saveAsTable("...") gzip文件Papers.txt.gz解压后重约60 it (这是一个很大的.txt文件，实际上取自here)，而Spark集群相当大(850 it，112个内核)。问题是，这需要很长时间才能保存为表(超过20分钟)，这使得我担心会导致集群崩溃而中止操作。这个请求看起来很标准，但是，这里有什么我应该

浏览 17提问于2021-10-26得票数 1

回答已采纳

2回答

正在读取pyspark中配置单元托管表的orc文件

apache-spark、hadoop、hive、pyspark

我正在尝试使用以下pyspark代码读取托管配置单元表的orc文件。 spark.read.format('orc').load('hive managed table path') 当我在获取的dataframe上执行打印模式时，如下所示 root |-- operation: integer (nullable = true) |-- originalTransaction: long (nullable = true) |-- bucket: integer (nullable = true) |-- rowId: long (nullable

浏览 40提问于2019-12-09得票数 2

1回答

从PySpark查询远程配置单元元存储区

apache-spark、pyspark、hive

我正在尝试使用用户名/密码/jdbc url查询PySpark中的远程配置单元元存储区。我可以很好地初始化SparkSession，但无法实际查询表。如果可能的话，我想把所有的东西都放在python环境中。有什么想法吗？ from pyspark.sql import SparkSession url = f"jdbc:hive2://{jdbcHostname}:{jdbcPort}/{jdbcDatabase}" driver = "org.apache.hive.jdbc.HiveDriver" # initialize spark = SparkS

浏览 14提问于2020-09-28得票数 0

2回答

Spark无法读取Orc表(返回空表)

python、apache-spark、orc

我是否需要做一些特别的事情才能用星火阅读兽人的桌子？我在txt和orc中有两个表副本。当阅读txt表时，一切都很好。在读取orc表时，我没有发现任何错误，但是spark返回了一个空表。下面是我在python中的代码： import pyspark CONF = (pyspark.SparkConf().setMaster("yarn-client")) sc = pyspark.SparkContext(conf = CONF) from pyspark.sql import HiveContext sq = HiveContext(sc) df = sq.sql(&#

浏览 3提问于2016-09-13得票数 2

1回答

Hive中可能存在多个fetch概念吗？

hive、query-optimization、hiveql

是否可以从Hive表中获取多条记录？例如:我在配置单元/文件表中有1000条记录，由于性能限制，我不想对配置单元/文件进行1000次命中。我知道这种技术在DB2中是可用的，但在Hive中不是很确定。或者，如果我们有更好的选择，可以在有限的时间内访问数据库/文件来获取配置单元中的所有行，请让我知道。

浏览 0提问于2020-08-28得票数 1

1回答

统计SPARKSQL中的重复行数

pyspark、apache-spark-sql、spark-dataframe、pyspark-sql

我有一个要求，我需要计算配置单元表的SparkSQL中的重复行数。 from pyspark import SparkContext, SparkConf from pyspark.sql import HiveContext from pyspark.sql.types import * from pyspark.sql import Row app_name="test" conf = SparkConf().setAppName(app_name) sc = SparkContext(conf=conf) sqlContext = HiveContext(sc) df =

浏览 3提问于2018-02-01得票数 11

回答已采纳

1回答

在现有交互式databricks集群的dbfs上执行pyspark代码

apache-spark、pyspark、databricks、azure-databricks

我正在处理Azure Databricks。目前我的Pyspark项目在'dbfs‘上。我配置了一个spark-submit作业来执行我的Pyspark代码(.py文件)。然而，根据Databricks文档，spark-submit作业只能在新的自动化集群上运行(可能是设计出来的)。有没有办法在现有的交互式集群上运行我的Pyspark代码？我还尝试在%sh单元格中的notebook中运行spark-submit命令，但没有使用。

浏览 4提问于2020-05-22得票数 0

1回答

S3和Spark:文件大小和文件格式的最佳实践

apache-spark、amazon-s3、pyspark

我需要读取数据(来自一个包含5列的RedShift表，表的总大小约为500 job 1tb)，通过PySpark将数据从PySpark读入Spark，以完成每天的批处理任务。是否有任何最佳做法：我如何用S3存储数据的首选文件格式？(格式是否重要？) 最佳文件大小？任何资源/链接，可以指出我的正确方向，也将发挥作用。谢谢!

浏览 1提问于2019-07-10得票数 1

回答已采纳

1回答

如何使用PySpark对Delta文件的分区进行动态插入覆盖？

apache-spark、pyspark、azure-databricks、delta-lake、table-partitioning

我是pyspark的新手，正在寻找动态覆盖增量分区的方法。从其他在线可用的资源中，我可以看到spark通过将以下conf设置为" dynamic“来支持动态分区。 spark.conf.set("spark.sql.sources.partitionOverwriteMode"，“动态”) 但是，当我尝试用数据帧覆盖partitioned_table时，pyspark (databricks)中的以下代码行覆盖了整个表，而不是增量文件上的单个分区。 data.write.insertInto("partitioned_table"，overwrite =

浏览 3提问于2020-06-08得票数 1

1回答

Windows (Spyder)：如何使用pyspark读取csv文件

apache-spark、pyspark、databricks

我使用以下代码读取csv文件 import os import sys os.environ["SPARK_HOME"] = "D:\ProgramFiles\spark-2.1.0-bin-hadoop2.7" os.environ["PYLIB"] = os.environ["SPARK_HOME"] + "/python/lib" sys.path.insert(0, os.environ["PYLIB"] +"/py4j-0.10.4-src.zip") sys.path.

浏览 0提问于2017-03-05得票数 2

1回答

来自配置单元查询的持久PySpark数据帧

python、hadoop、apache-spark、pyspark

我正在从一个Hive表中获取一些数据： df = sqlContext.sql('select shubiru, date from thebigtable bt where bt.num > 10 ') df.show() # here the query is processed and the results shown 而且它运行得很好。现在我想在df上操作，但每次我在df上执行操作时，它都会再次对Hive运行查询： import pyspark.sql.functions as func from datetime import datetime from py

浏览 1提问于2016-03-29得票数 1

1回答

用于游戏设计器的数据驱动工具

game-design、xml、data-driven

我正在寻找一个软件，我的游戏设计师可以使用设置怪物的特点。就像所有怪物类型中的一行(以及添加新类型的能力)，所有“模板”中的一列(普通的，小的，大的，治疗者).和新的)，在它们之间的每个单元格中(比如在excel中)，比如僵尸鼠，就会有数据可以存储，比如惠普、速度、图像等。我曾经尝试过在excel扩展表中这样做，并在.csv / .xml中导出，但是我只能在excel中每个单元格拥有一个信息(实际上是.ods)。如果它也是免费的，那就好了。博士，我需要一个工具，我的非编程的游戏设计者可以用它来保存数据，并且我可以从中获取数据。谢谢!

浏览 0提问于2013-06-12得票数 -2

1回答

将配置单元表卸载到。使用Spark或pyspark或python的dat文件

python、pyspark、apache-spark-sql、hiveql

我目前正在使用hql将数据从配置单元表卸载到文本文件中。因为它花费了太多的时间。我想去spark或pyspark.I。我是spark/ please的新手。你能帮我解决这个问题吗?我正在使用下面的查询来卸载 beeline --outputformat=dsv --silent=true - e 'select * from <tablename>' > /dir/samplefile.txt 请让我知道任何其他性能调整以及。

浏览 11提问于2019-10-04得票数 0

1回答

使用vba锁定单元格

excel、vba

如何使用VBA锁定单元格？我看到要锁定单元格，您需要保护工作表，但是它锁定了所有我想要锁定的单元格(我的代码)。 Private Sub Workbook_Open() If Environ$("computername") = "09-PC-0154" Then PCdeposito = "F:" Else PCdeposito = "\\09-PC-0154" Ruta = Me.Path If Me.Name = Form62 Then Worksheets("Hoja1

浏览 20提问于2022-09-15得票数 0

2回答

如何在新的spark会话中再次读回spark表？

python、apache-spark、pyspark、apache-spark-sql

我可以在表创建后立即读取它，但是如何在另一个spark会话中再次读取它呢？给定代码： spark = SparkSession \ .builder \ .getOrCreate() df = spark.read.parquet("examples/src/main/resources/users.parquet") (df .write .saveAsTable("people_partitioned_bucketed")) # retrieve rows from table as expected spark.sql("

浏览 0提问于2018-01-24得票数 5

2回答

星火作业中不存在蜂窝表。

python、hadoop、apache-spark、hive、pyspark

我正在使用电子病历中的蜂巢Metastore。我可以通过HiveSQL或SparkSQL手动查询表。但是当我在星火作业中使用相同的表时，它会说表或视图找不到 File "/usr/lib/spark/python/lib/pyspark.zip/pyspark/sql/utils.py", line 69, in deco pyspark.sql.utils.AnalysisException: u"Table or view not found: `logan_test`.`salary_csv`; line 1 pos 21; 'Aggregate

浏览 1提问于2017-12-20得票数 3

回答已采纳

4回答

想出以矩阵形式处理巨型数据的数据结构(可以把它想象成一个excel表)

algorithm、excel、memory、data-structures

问题是要想出一个可以与巨大的excel工作表一起工作的数据结构(显然不适合主内存) 假设下面的内容是excel表格的一部分，其中e表示一个空单元格。 A B C D ... 1 3 9 e e ... 2 e e e e ... 3 e e 5 e ... 4 e e e e ... 5 e e 6 e ... 因此，数据结构应该允许我将excel表存储到内存中(我们知道只有excel表中的值才能放入主内存)，并支持以下操作 getByColumn(Column col); -给出某一列的所有值，比如C列的5,6 getByRow(Row row); -给出某一行的所有值，比如第

浏览 1提问于2012-10-01得票数 0

1回答

如何在火花表上创建修改后的日期列？

database、pyspark、triggers、bigdata、delta-lake

我需要用'modifiedDate‘列在Pyspark中创建delta表。行更新时，修改time的值应更改为当前时间。我曾想过要做一个触发器，但却找不到任何关于在带有delta表的Pyspark中使用触发器的信息。我该怎么做？

浏览 1提问于2022-01-30得票数 1

回答已采纳

1回答

Spark DataFrame“限制”函数显示结果花费了太多时间

bigdata、apache-spark、pyspark

浏览 0提问于2019-02-11得票数 3

1回答

齐柏林飞艇/星火: org.apache.spark.SparkException:无法运行程序"/usr/bin/"：error=13，无权限

apache-spark、pyspark、apache-zeppelin

我试图在Debian 9上使用Zeppelin 0.7.2和Spark2.1.1进行基本的回归。这两个齐柏林飞艇都安装在/usr/local/这意味着/usr/local/ zeppelin /和/usr/local/火星中。齐柏林飞艇也知道正确的SPARK_HOME。首先，我加载数据： %spark.pyspark from sqlalchemy import create_engine #sql query import pandas as pd #sql query from pyspark import SparkContext #Spark DataFrame from pyspar

浏览 2提问于2017-08-16得票数 1

回答已采纳

3回答

启动Cassandra python设置

python、apache-spark、pyspark、cassandra、spark-cassandra-connector

我试着用火花做一些简单的计算卡桑德拉表，但我是相当迷路。我正试着跟随：因此，我正在运行PySpark shell:与 ./bin/pyspark \ --packages com.datastax.spark:spark-cassandra-connector_2.11:2.0.0-M3 但我不知道从这里开始该怎么安排。我如何让星火知道我的卡桑德拉星系团在哪里？我已经看到了CassandraSQLContext可以用于这一点，但我也读到这是不可取的。我读过这样的文章：但如果我用 import com.datastax.spark.connector._ Python说它找不到模块。

浏览 6提问于2017-03-05得票数 1

回答已采纳

1回答

GCP节点中没有启动新SparkSession的资源

python、apache-spark、pyspark、google-cloud-dataproc、namenode

我正在处理一个用例，在这个用例中，我必须处理大量数据(多个表)，并试图将其作为批处理作业提交给Dataproc集群(PySpark)。我的代码看起来像这样 from pyspark import SparkContext from pyspark.sql import SQLContext from pyspark.sql import SparkSession def readconfig(): #code to read a yaml file def func(filename, tabname): sc = SparkContext("local",

浏览 4提问于2020-06-20得票数 1

1回答

在PySpark中，为什么数据帧聚合在Kerberized源表上比相同的查询内聚合工作得更好？

pyspark、kerberos

我使用Cloudera发行版Spark 2.1.0在多节点集群上操作，它的配置单元分区是Kerberized的。我的查询相当复杂(三个表，包含两个连续聚合的嵌套子查询)，在写入PySpark数据帧之前，我在SQL中运行聚合步骤时遇到了GSSException问题。对dataframe的操作需要30到45分钟，并尝试将dataframe缓存或写入到parquet调用完整的谱系，并带有Kerberos警告： 18/08/21 19:58:48 WARN security.UserGroupInformation: PriviledgedActionException as:our_user (au

浏览 3提问于2018-08-23得票数 0

4回答

无法访问pyspark中的本地文件。

apache-spark、pyspark

我试图在Yarn框架上以客户端模式读取本地文件。我也无法在客户端模式下访问本地文件。 import os import pyspark.sql.functions as F from os import listdir, path from pyspark import SparkConf, SparkContext import argparse from pyspark import SparkFiles from pyspark.sql import SparkSession def main(): spark = SparkSession \ .builder \

浏览 1提问于2018-10-18得票数 1

回答已采纳

2回答

我的spark代码没有使用Yarn aws EMR中所有可用的执行器

python、amazon-web-services、apache-spark、pyspark、emr

我已经编写了在本地运行的Spark代码。我已经创建了一个用户定义的函数，该函数需要应用于通过交叉连接从本地文件读取的两个表创建的数据帧。不知何故，我正在应用的用户定义函数没有使用，它没有被分发。我已经在所有节点上安装了所需的python包。使用spark-submit，我已经指定了内核和内存的数量。这是我的代码： spark = SparkSession.builder.appName("WordSimilarities").enableHiveSupport().getOrCreate() spark.sparkContext.parallelize(range(1,100

浏览 2提问于2018-01-09得票数 1

1回答

Pyspark -用pysaprk中的第一个单词替换2个或更多连续单词

python、dataframe、pyspark

我有一个超过10000行的pyspark数据帧。我想用第一次出现的单词替换连续的单词。我希望这是在pyspark中完成的。这是包含单词列表的pyspark表。每个单词列表都与每个日期相关。 --------------------------------------------------------------------------------- | event_dt | words | ---------------------------------------

浏览 14提问于2020-10-31得票数 0

1回答

PySpark无法通过sparkContext/hiveContext读取Hive事务表？我们可以使用Pyspark更新/删除蜂箱表数据吗？

apache-spark、hadoop、hive、pyspark、pyspark-sql

我尝试过使用PySpark访问Hive事务表(它在HDFS上有底层的增量文件)，但是我无法通过sparkContext/hiveContext读取事务表。 /麦迪姆/德尔塔0117202_0117202 /麦迪姆/德尔塔0117203_0117203

浏览 5提问于2019-08-01得票数 1

回答已采纳

1回答

对于同一外部表，Count(*)在spark.sql()和配置单元中给出不同的值

apache-spark、hive、pyspark

我正在使用hive和spark开发一个AWS集群。前一天，当我在hive中的外部表上运行一些ETL pyspark脚本时，我遇到了一个奇怪的情况。我们有一个控制表，它有一个提取日期列。我们正在根据提取日期过滤来自临时表( hive中的托管表，但位置是s3存储桶)的数据，并将其加载到目标表，该目标表是包含位于s3存储桶中的数据的外部表。我们正在装入如下表格 spark.sql("INSERT OVERWRITE target_table select * from DF_made_from_stage_table") 现在，当我通过spark和直接配置单元CLI检查了目标表的

浏览 20提问于2019-04-28得票数 0