在Spark SQL中合并-如果与源不匹配，则_如何确保在SQL Server中执行合并期间执行插入时不匹配？ - 腾讯云开发者社区

apache-spark、apache-spark-sql、mobius

我是Java和Spark的新手，我发现了一个令人印象深刻的库，它为Spark提供了，它允许我们使用C#与SparkSQL一起工作。我在一个具有ODBC和OPC接口的自定义数据存储中有一些大量的过程数据。我们希望将此数据公开给Apache Spark，以便我们可以使用Apache Zeppelin等工具对此数据运行分析查询因为我的自定义存储上没有jdbc接口，所以我正在考虑创建c#代码，以便使用可用的ODBC接口从自定义数据存储中提取数据，并使用historyDataFrame.RegisterTempTable("mydata");将其提供给spark。我可以创建一个示例

浏览 5提问于2016-01-05得票数 2

2回答

使用pyspark重新分区失败并出现错误

pyspark、apache-spark-sql、parquet

我有实木地板在s3文件夹与下面的镶木地板的column.Size大约是40MB。 org_id, device_id, channel_id, source, col1, col2 目前分区位于3列org_id device_id channel_id上我想要将分区更改为source, org_id, device_id, channel_id.，我正在使用pyspark从s3读取文件并将其写入s3存储桶。 sc = SparkContext(appName="parquet_ingestion1").getOrCreate() spark = SparkSession(s

浏览 0提问于2020-04-29得票数 1

1回答

如何在火花流中丢弃重复

apache-spark、databricks、spark-structured-streaming、delta-lake

我有一个流作业，它将数据流到databricks中的delta湖中，我试图在流中删除重复的数据，这样我的delta数据就没有重复。到目前为止，我的情况如下： inputPath = "my_input_path" schema = StructType("some_schema") eventsDF = ( spark .readStream .schema(schema) .option("header", "true") .option("maxFilesPerTrigger&#

浏览 0提问于2019-09-17得票数 0

1回答

合并两个不同的电子表格数据库数据

sql、database、excel

新手在这里做一些事情complicated..not确定如何开始和什么是最好的way..looking的一些建议和提示因此，我们有2个系统使用MS Dynamics POS 2009运行，并在电子表格中提取所有数据(库存/库存)。这两个dbo具有几乎相同的项目，但是因为它们是分开运行的，所以所有的命名和部件号都是不同的格式。我需要创建一个数据库(一个excel文件)从这两个。零件编号的部分匹配将被识别并“合并”(保留sheet1中的零件编号和描述，并更新库存(sheet1库存+sheet2库存) 问题是部件号是以完全不同的风格(由不同的人)书写的，并且只能通过部分匹配(我猜部件号中的最后3

浏览 2提问于2016-10-01得票数 0

1回答

pysprak -微批处理流式处理增量表作为源，对另一个增量表执行合并- foreachbatch未被调用

pyspark、delta-lake

我已经创建了一个增量表，现在我正尝试使用foreachBatch()将数据合并到该表中。我关注了这个example。我在google cloud的dataproc image 1.5x中运行这段代码。 Spark版本2.4.7 Delta版本0.6.0 我的代码如下所示： from delta.tables import * spark = SparkSession.builder \ .appName("streaming_merge") \ .master("local[*]") \ .config("spark.sql.

浏览 38提问于2021-02-12得票数 0

2回答

从火花数据中插入卡桑德拉表会导致org.codehaus.commons.compiler.CompileException:文件“generated.java”错误

java、apache-spark、cassandra、datastax-java-driver、spark-cassandra-connector

我使用的是星星之火-sql.2.4.1v，datastax-java-cassandra-connector_2.11-2.4.1.jar和java8。我创建cassandra表如下所示： create company(company_id int PRIMARY_KEY, company_name text); JavaBean如下所示： class CompanyRecord( Integer company_id; String company_name; //getter and setters //default & parametarized constructors

浏览 2提问于2019-10-28得票数 1

1回答

带逆匹配的grep -A -只输出后字段中的非匹配

text-processing、sed、grep、text-formatting

我有一个文件，打印出多次出现的'200 OK‘。我只对在模式‘命令’之后最后出现的'200 OK‘感兴趣。在我的特定文件中，“命令”打印100次。看起来是这样的： otherdata 200 OK otherdata 200 OK COMMAND 200 OK 所以我用命令。 grep -A1 COMMAND file | grep -v '200 OK' 这给了我以下输出： COMMAND xxxxx PASSWORD xxxxxx -- COMMAND xxxxx PASSWORD xxxxxx 513 unknown user account -- C

浏览 0提问于2016-09-01得票数 1

回答已采纳

2回答

在T中使用的'when‘关键字是什么？

sql-server、tsql、keyword

在T中使用的when关键字是什么？ when 注意：我试着在网上搜索这个。“谷歌”)。然而，由于“什么时候”这个词无处不在，我找不到一个很好的解释。此外，SQL关键字列表中没有包含“when”，所以列表不是详尽无遗的，也不是to特有的(也可能是在to/SSMS的“更新”版本中添加的)。链接到这个特定的SQL关键字站点：

浏览 0提问于2019-06-12得票数 2

回答已采纳

3回答

如何在Databricks中的Iceberg表上执行Spark语句？

azure、apache-spark、apache-spark-sql、databricks、iceberg

我试图在Databricks环境中设置Apache，并在Spark中执行MERGE语句时遇到错误。这个代码： CREATE TABLE iceberg.db.table (id bigint, data string) USING iceberg; INSERT INTO iceberg.db.table VALUES (1, 'a'), (2, 'b'), (3, 'c'); INSERT INTO iceberg.db.table SELECT id, data FROM (select * from iceberg.db.table)

浏览 6提问于2021-06-08得票数 2

1回答

火花:如何从函数结果中合并给定条件的两个数据帧？

scala、apache-spark、dataframe、apache-spark-sql、transpose

如何将dataFrameToAdd添加到dataFrameMain中，条件是dataFrameToAdd.lable != dataFrameMain.label，距离res小于0.0002？ case class Schema(name: String,label: String, lat: Double, lon: Double) val dataFrameMain = sc.parallelize(Array( Schema("recordA","house",54.78049,-1.57679 ), Schema("recordB",&

浏览 5提问于2016-03-11得票数 1

回答已采纳

1回答

通过sql merge更新表不工作

sql、sql-server

我有三张桌子。图书本表包含所有书籍及其相关信息。 id title author description 1 Lord of the Rings J.R.R. Tolkien .... 2 A Game of Thrones George R.R. Martin .... 范畴此表包含所有现有的图书类别。 id product 1 Science-Fiction 2 Thriller 3 Fantasy 4 Action 5

浏览 7提问于2017-11-07得票数 0

1回答

拿走。postgres中文本中的特定字符串

postgresql

我有一个问题:下面是存储在Postgres表列中的错误消息，从这个字符串中我只想提取字符串的一部分，在postgres中可以这样做吗？我希望看到odoo.exceptions.ValidationError：(‘没有找到MO/10881的模板！’，没有)‘只是这个部分。通常，所有以odoo.exceptions.ValidationError开头的文本:直到结束我该怎么做呢？有什么想法或建议吗？ 'Traceback (most recent call last): File "/opt/src/addons_OCA/queue/queue_job/controlle

浏览 2提问于2022-05-19得票数 0

回答已采纳

1回答

Apache未将UTF-16数据文件导入Server

python、sql-server、apache-spark、azure-sql-database

我使用Apache Spark connector将数据文件中的数据导入到Azure SQL Server。它适用于utf-8文件。但是对于UTF-16文件，我得到了以下错误，尽管在Spark和目的Server表中列及其总数完全相同误差错误: java.sql.SQLException: Spark和Server表有不同的列数问题：我可能做错了什么，我们如何解决这个问题？我尝试过来自在线的各种建议，但仍然没有成功。 from pyspark.sql.functions import * df = spark.read.option("multiline",

浏览 1提问于2022-05-27得票数 0

1回答

无法将spark数据框列与df.withColumn()合并

python、apache-spark、apache-spark-sql、pyspark

我正在尝试合并两个不同数据类型的列。在下面的代码片段中，为了简单起见，我从相同的数据帧中选取了列。 from pyspark.sql import SQLContext, Row from pyspark.sql.types import * from datetime import datetime a=sc.parallelize([('ship1',datetime(2015,1,1),2,3.,4.),('ship1',datetime(2015,1,2),4,8.,9.),('ship1',datetime(2015,1,3),5,

浏览 6提问于2015-10-28得票数 4

3回答

java.lang.ClassNotFoundException: text.DefaultSource

java、scala、maven、apache-spark、intellij-idea

我有一个scala应用程序。我使用Intellij的想法。我用它做了一个可执行文件-jar，但是当我试图通过windows控制台启动它时，会出现一个错误，就是缺少某个类。我找不到问题，因为我已经在我的.pom文件中添加了它。另外，当我查看.jar内部时，我看到了这个类的库： .jar中所需的库：我试着使用这两种插件:maven-着色器插件和maven-程序集插件，结果是相同的。我试图通过Intellij中的项目结构->库在类路径中显式地设置这个库：思想上的类路径：。任何帮助都将不胜感激！这是我的代码： import org.apache.spark.broadcast.B

浏览 2提问于2016-11-06得票数 2

1回答

为什么AWS上的Spark与AbstractMethodError失败？

python、apache-spark、apache-spark-sql、aws-glue、apache-spark-xml

我有一个用Python编写的AWS Glue作业，它引入了火花xml库(通过依赖的jars路径)。我使用的是火花-xml_2.11-0.0.jar。当我试图将我的DataFrame输出到XML时，我会得到一个错误。我使用的代码是： applymapping1.toDF().repartition(1).write.format("com.databricks.xml").save("s3://glue.xml.output/Test.xml"); 我得到的错误是： "/mnt/yarn/usercache/root/appcache/applicati

浏览 0提问于2018-02-06得票数 4

2回答

scala.MatchError:在Dataframes

java、scala、apache-spark、spark-streaming、apache-spark-sql

我有一个Spark (version 1.3.1)应用程序。在其中，我试图将一个Java bean RDD JavaRDD<Message>转换为Dataframe，它有许多不同数据类型的字段(整数、字符串、列表、地图、双数据)。但是当我在执行我的代码的时候。 messages.foreachRDD(new Function2<JavaRDD<Message>,Time,Void>(){ @Override public Void call(JavaRDD<Message> arg0, Time

浏览 6提问于2015-06-12得票数 0

回答已采纳

1回答

SQL:如何通过检查一个表中的重复项来插入/更新多个表？

sql、sql-server、sql-server-2008

MS SQL:我希望根据以下条件在表中插入/更新表中的数据。我已经尝试过使用IF EXISTS，如下所示。如果我在这里错了，有没有人可以纠正我，或者给我一个更好的替代方案？ IF NOT EXISTS (select 1 from TableA where col1 in (select col1 from tableA)) BEGIN INSERT INTO TableA SELECT * FROM TableB WHERE some condition DELETE FROM TableB WHERE some condition DELETE l FROM TableC

浏览 4提问于2017-08-22得票数 0

回答已采纳

1回答

为什么elasticsearch 5.5.0在提交给纱线集群时AbstractMethodError失败了？

apache-spark、elasticsearch、apache-spark-sql、apache-spark-2.2

我写了一份星火作业，主要目的是写到专家系统中，然后提交，问题是当我把它提交到星星团时，火花回馈。错误用户类抛出异常: org.elasticsearch.spark.sql.DefaultSource.createRelation(Lorg/apache/spark/sql/SQLContext;Lorg/apache/spark/sql/SaveMode;Lscala/collection/immutable/Map;Lorg/apache/spark/sql/Dataset;)Lorg/apache/spark/sql/sources/BaseRelation；：java.lang.A

浏览 1提问于2017-08-04得票数 1

1回答

阿波罗服务器v2 - GraphQL解析器未被调用

node.js、graphql、react-apollo、apollo-server、express-graphql

我是graphql世界的新手，我正在尝试使用阿波罗服务器v2设置多个模块化模式和解析器。我注意到一种奇怪的行为，我对我的解决程序的顺序有问题。在行Object.assign({}, propertiesResolver, agreementsResolver)中，propertiesResolver定义的所有解析器都不会被调用，因为它是按解析器顺序排列的第一个解析器。如果我交换了像Object.assign({}, agreementsResolver, propertiesResolver)这样的两组解析器，那么现在agreementsResolver定义的解析器就不会被调用。我是否遗漏

浏览 3提问于2019-09-28得票数 1

回答已采纳

2回答

在执行NullPointerException ()时触发收集

scala、apache-spark、nullpointerexception、apache-spark-sql、spark-dataframe

我正在尝试在我的开发环境中使用独立安装的Spark 2.2进行一些测试。我使用databricks库读取csv文件，然后创建临时视图。在我使用spark.sql()运行select语句之后。如果我在该DataFrame上执行collect()或任何其他稍后需要生成执行器操作，我将收到NullPointerException。我使用spark-shell BTW。这是我使用的代码： val dir = "Downloads/data.csv" val da = spark.read.format("com.databricks.spark.csv").opt

浏览 0提问于2017-09-13得票数 0

2回答

如何在没有异常的情况下，用更改的模式从Spark写入Kafka？

scala、apache-spark、apache-kafka、parquet、databricks

我正在从Databricks加载拼花文件到Spark： val dataset = context.session.read().parquet(parquetPath) 然后，我执行如下一些转换： val df = dataset.withColumn( columnName, concat_ws("", col(data.columnName), lit(textToAppend))) 当我试图将它保存为JSON到Kafka (而不是回到地板！)： df = df.select( lit("da

浏览 2提问于2018-06-14得票数 4

回答已采纳

1回答

Spark SQL中Group By子句的底层实现

apache-spark、apache-spark-sql

Spark SQL中Group By子句的底层实现是什么？我知道Spark支持下面两种类型的Group by操作，即GroupByKey和ReduceByKey。ReduceByKey是一种map side reduce，它提供了比GroupByKey更好的性能。在我们的应用程序代码中，我们在Spark Dataframe上使用Spark SQL，而不是直接创建RDDs。所以，我想到了这个问题，Spark SQL中的GroupBy是做GroupByKey还是ReduceByKey，还是别的什么。

浏览 0提问于2019-08-30得票数 1

1回答

如何将包含struct的数据帧写入cassandratable

scala、apache-spark、cassandra、spark-cassandra-connector

浏览 3提问于2019-04-16得票数 0

1回答

星火AQE后洗牌分区合并不能像预期的那样工作，甚至在某些分区中使数据倾斜。为什么？

apache-spark、apache-spark-sql、spark-kafka-integration、spark3

我在spark上使用全局排序，当我启用AQE和洗牌后合并时，排序操作后的分区分布比以前更加糟糕。 "spark.sql.adaptive.enabled" -> "true", "spark.sql.adaptive.coalescePartitions.enabled" -> "true", "spark.sql.adaptive.advisoryPartitionSizeInBytes" -> "256mb", "spark.sql.ad

浏览 6提问于2021-07-03得票数 3

回答已采纳

2回答

插入或更新行的SSIS任务

sql-server、ssis、foreach-loop-container

当我从数据源获得一些行时，我应该使用哪种SSIS任务，然后在目标中插入新行，或者在存在的情况下更新该行。我考虑使用SQL任务来获取结果集中的行，然后使用for循环容器。但我不知道如何继续下去。

浏览 3提问于2014-08-08得票数 1

回答已采纳

1回答

与星火DataSource API V2蜂巢串流水槽发生故障的抵消

scala、apache-spark、hive、apache-spark-sql、spark-streaming

我使用接收器将Spark2.3结构化流DataFrame保存到带有的Hive表中。代码如下。 val df = spark.readStream.format("socket").option("host", "localhost").option("port", 19191).load().as[String] val query = df.map { s => val records = s.split(",") assert(records.length >= 4) (rec

浏览 0提问于2018-05-23得票数 1

回答已采纳

1回答

我们如何看待同一个函数的不同实现

scala、apache-spark

我想了解如何在Scala中实现相同方法。 def createDataFrame[A <: Product](data: Seq[A])(implicit evidence$3: reflect.runtime.universe.TypeTag[A]): org.apache.spark.sql.DataFrame def createDataFrame(rdd: org.apache.spark.api.java.JavaRDD[_],beanClass: Class[_]): org.apache.spark.sql.DataFrame def createDataFrame(row

浏览 0提问于2020-07-19得票数 0

回答已采纳

3回答

Spark SQL2.0:使用有效PostgreSQL查询的NullPointerException

postgresql、scala、apache-spark、apache-spark-sql

我有一个有效的PostgreSQL查询:当我在PSQL中复制/粘贴它时，我得到了想要的结果。但是当我使用Spark SQL运行时，它会导致一个NullPointerException。以下是导致错误的代码片段： extractDataFrame().show() private def extractDataFrame(): DataFrame = { val query = """( SELECT events.event_facebook_id, events.name, events.tariffrange, even

浏览 1提问于2016-10-05得票数 3

2回答

如何使用pyspark执行CQL查询

apache-spark、pyspark、cassandra、spark-cassandra-connector

我想使用PySpark.But执行Cassandra CQL查询，我没有找到执行它的方法。我可以将整个表加载到dataframe并创建临时视图并查询它。 df = spark.read.format("org.apache.spark.sql.cassandra"). options(table="country_production2",keyspace="country").load() df.createOrReplaceTempView("Test") 请建议任何更好的方法，以便我可以在PySpark中执

浏览 17提问于2020-07-22得票数 0

1回答

H2为从官方H2站点复制的SQL或update查询提供语法错误。

merge、syntax、h2、upsert

我想在H2数据库上运行一个新插入查询，所以当匹配时，更新时不匹配，而不是insert。我有表:创建表TESTTABLE (名称VARCHAR2(100) NULL，NUMBER1 INT，NUMBER2 INT，)；第一排:彼得1 2 我尝试了从官方H2站点复制这些代码： MERGE INTO TESTTABLE AS T USING DUAL ON NAME = 'Peter' WHEN NOT MATCHED THEN INSERT VALUES ('Peter3', 1, 2) WHEN MATCHED THEN UPDATE SET

浏览 1提问于2019-07-18得票数 0

回答已采纳

8回答

为什么格式(“kafka”)以“未能找到数据源:kafka”而失败。(即使是uber-jar)？

apache-spark、apache-spark-sql、spark-structured-streaming、uberjar

我在Spark2软件包2.2.0中使用了HDP-2.6.3.0。我正在尝试使用结构化流API编写Kafka使用者，但是在将作业提交到集群后，我得到了以下错误： Exception in thread "main" java.lang.ClassNotFoundException: Failed to find data source: kafka. Please find packages at http://spark.apache.org/third-party-projects.html at org.apache.spark.sql.execution.datasou

浏览 19提问于2017-12-28得票数 24

回答已采纳

1回答

当函数处理多个匹配的情况时是如何工作的？

apache-spark、apache-spark-sql

spark when函数是否一致地返回第一个匹配项？例如, val df = spark.sql("SELECT 1 as a") df.withColumn("a",when($"a">0,1).when($"a">0.5,2)).show() 它总是一致地返回第一个“when”匹配吗？或者更好的做法是这样做： df.withColumn("a",when($"a">0,1).otherwise(when($"a">0.5,2)).show() 使用什么

浏览 1提问于2019-11-28得票数 1

2回答

写入Delta表时检测到的架构不匹配- Azure数据库

scala、azure-databricks、delta-lake

我试着把"small_radio_json.json“装到三角湖桌上。在这段代码之后，我将创建表。我尝试创建Delta表，但得到了错误“写入Delta表时检测到的架构不匹配”。它可能与events.write.format("delta").mode("overwrite").partitionBy("artist").save("/delta/events/")的分区有关。如何修复或修改代码。 //https://learn.microsoft.com/en-us/azure/azure-databricks

浏览 1提问于2020-03-29得票数 9

回答已采纳

1回答

数据库连接失败，没有FileSystem for with : abfss

apache-spark、azure-databricks、databricks-connect

我已经设置了，这样我就可以在本地开发并且获得Intellij的好处，同时利用Azure上一个大型星火集群的功能。当我想读或写到Azure数据湖spark.read.csv("abfss://blah.csv)时，我得到以下信息 xception in thread "main" java.io.IOException: No FileSystem for scheme: abfss at org.apache.hadoop.fs.FileSystem.getFileSystemClass(FileSystem.java:2586) at org.apa

浏览 2提问于2020-02-28得票数 4

回答已采纳

1回答

如何最好地处理模式冲突，将MongoRDD转换为DataFrame？

mongodb、apache-spark、apache-spark-sql、schema、case-class

我正在尝试从mongo数据库中读取一些文档，并在spark中解析模式。到目前为止，我已经成功地从mongo读取并使用由case类定义的模式将结果mongoRDD转换为DataFrame，但是有一种情况是，mongo集合有一个包含多个数据类型的字段(字符串数组和嵌套对象数组)。到目前为止，我只是将字段解析为一个字符串，然后使用spark的from_json()来解析新模式中的嵌套对象，但是我发现当一个字段不符合模式时，它返回模式中所有字段的null -而不仅仅是不符合的字段。是否有一种方法来解析这一点，以便只有与模式不匹配的字段才会返回null？ //creating mongo test da

浏览 6提问于2020-03-04得票数 1

回答已采纳

2回答

在雪花中查找从表中返回唯一行的所有列

python、sql、snowflake-cloud-data-platform、snowflake-schema

有办法做到这一点吗？我正在处理雪花表，其中大部分没有在ddl中定义主键。而且，由于主键不是在雪花中强制的，所以它有重复的记录。是否有任何方法获取获取唯一记录的所有列名。我的表有30多个列，识别返回唯一行的列是一项麻烦的任务，因为我必须检查不同的列名，然后匹配表中的行总数。就像。总行数(*)= 50 1,2,3,4,5,6,7,8,9 Distinct 1返回20行Distinct of col1，col2返回30Distinct of col1，col2 col7返回50行我必须手动获取列名，然后将其与总记录相匹配。有什么方法可以不逐一检查每个列或列的组合就得到列名吗？如果有人能

浏览 4提问于2022-07-24得票数 0

1回答

Spark 2.3大型SparkSQL查询的内存泄漏

apache-spark

运行CDH 5.14.4集群和Spark 2.3 Release 4 CDS。当从Spark应用程序(客户端模式)提交一个相当大的spark SQL作业时，在少数执行器上遇到一些java.lang.OutOfMemoryError错误。这个错误与底层的数据量无关，因为我能够在100或100万条记录中看到这个错误。SQL相当庞大，因为它执行大量复杂的条件语句和表达式。但是，当我在本地模式下运行应用程序时，而不是以yarn作为主模式，执行过程很顺利。请立即向这里的社区寻求帮助。 # # java.lang.OutOfMemoryError: GC overhead limit exceede

浏览 108提问于2019-02-08得票数 0

2回答

使用2.8.0HadoopAWSJAR时无法使用spark从s3读取数据，使用HadoopAWS2.7.3无法将增量表写入s3

apache-spark、hadoop、amazon-s3、aws-java-sdk、delta-lake

当我使用HadoopAWSJAR2.8.0时，我无法从spark访问s3。基本上，我希望从s3生成一个(拼图)文件，并将它写成s3中的一个增量表。 //Spark shell command spark-shell --packages org.apache.hadoop:hadoop-aws:2.8.0,io.delta:delta-core_2.11:0.5.0,com.amazonaws:aws-java-sdk:1.10.4 sc.hadoopConfiguration.set("fs.s3a.access.key", "xxx") sc.hadoop

浏览 0提问于2020-04-15得票数 0

1回答

为什么斯派克应用程序以"ClassNotFoundException: FailtFindDataSource: jdbc“作为uber与sbt程序集一起失败？

scala、apache-spark、sbt、apache-spark-sql、sbt-assembly

我试图使用sbt 1.0.4和sbt-程序集0.14.6来组装一个Spark应用程序。星火应用程序在IntelliJ IDEA或spark-submit中启动时运行良好，但如果我使用命令行(在Windows 10中运行cmd)运行组装的uber-jar： java -Xmx1024m -jar my-app.jar 我得到以下例外：线程“主”java.lang.ClassNotFoundException中的异常:未能找到数据源: jdbc。请在找到包裹星火应用程序如下所示。 package spark.main import java.util.Properties

浏览 1提问于2017-12-21得票数 4

回答已采纳

1回答

无法在Spark2.0中的Dataset[(scala.Long，org.apache.spark.mllib.linalg.Vector)]上运行LDA

scala、apache-spark、apache-spark-mllib

我正在关注关于LDA示例的教程视频，我得到了以下问题： <console>:37: error: overloaded method value run with alternatives: (documents: org.apache.spark.api.java.JavaPairRDD[java.lang.Long,org.apache.spark.mllib.linalg.Vector])org.apache.spark.mllib.clustering.LDAModel <and> (documents: org.apache.spark.rdd.RDD

浏览 0提问于2016-08-06得票数 3

回答已采纳

1回答

Azure数据库INFORMATION_Schema

apache-spark-sql、databricks、azure-databricks、information-schema

我正在使用，需要有一种方法来找出哪些列在几个表中被允许为NULL。对于MySQL，有一个众所周知的Information_Schema，它不存在于Databricks中。我现在的想法是使用Spark从那里创建一个模式。我现在想知道这是否是生成信息模式的等效方式？我的方法是这样的： df = spark.sql("Select * from mytable") df.schema 任何评论都将不胜感激！

浏览 7提问于2022-04-27得票数 1

回答已采纳

2回答

无法在文件中转换拼花列，预期: bigint，查找: INT32

apache-spark、pyspark、amazon-emr、parquet、aws-glue

我有一个带有tlc列的胶水表，它的数据类型是Bigint。我试图使用PySpark执行以下操作：读取Glue表并将其写入dataframe 与另一个表，将结果数据写入S3 path 我的代码看起来是： df = spark.sql('select tlc from monthly_table') df.createOrReplaceTempView('sdc') df_a = spark.sql('select tlc from monthly_table_2') df_a.createOrReplaceTempView('abc&#

浏览 4提问于2020-03-24得票数 10

1回答

运行AWS glue studio ETL脚本时出现ARN角色授权错误

amazon-web-services、amazon-redshift、aws-glue、aws-glue-data-catalog

py4j.protocol.Py4JJavaError: An error occurred while calling o85.getDynamicFrame. : java.sql.SQLException: Exception thrown in awaitResult: at com.databricks.spark.redshift.JDBCWrapper.com$databricks$spark$redshift$JDBCWrapper$$executeInterruptibly(RedshiftJDBCWrapper.scala:133) at com.dat

浏览 16提问于2021-08-26得票数 0

3回答

火花-卡桑德拉-连接器火花误差

scala、apache-spark、cassandra、datastax

我试图与卡桑德拉-梅索斯-火花一起工作，我想问一下是否有人能帮我解决这个错误，我用了火花2.2试连接器1.6.11和其他，但我不知道为什么我要得到这个。环境： spark-2.3.0-bin-hadoop2.7.tgz datastax:spark-cassandra-connector:2.0.7-s_2.11 scala 11 Mesos簇 Python应用程序代码： import sys from pyspark import SparkContext, SparkConf from pyspark.sql import SQLContext sp_c

浏览 2提问于2018-04-07得票数 0

1回答

联合多点火花数据

python、apache-spark、pyspark、apache-spark-sql、pyspark-sql

我有大约10,000个不同的Spark需要使用union进行合并，但是union需要很长的时间。下面是我运行的代码的一个简单示例，dfs是我希望在其上使用union的数据仓库的集合： from functools import reduce from pyspark.sql import DataFrame dfOut = reduce(DataFrame.unionAll, dfs) 当我把100到200的数据合并起来的时候，它似乎是相当快的.但是，当我增加要合并的数据文件数时，运行时间将呈指数增长。对提高效率有什么建议吗？非常感谢!

浏览 0提问于2019-08-20得票数 0

2回答

Apache火花中的数据集

java、apache-spark、spark-dataframe

Dataset<Tweet> ds = sc.read().json("path").as(Encoders.bean(Tweet.class)); ds.show(); JavaRDD<Tweet> dstry = ds.toJavaRDD(); System.out.println(dstry.first().getClass()); Caused by: java.util.concurrent.ExecutionException: org.codehaus.commons.compiler.CompileException: File '

浏览 1提问于2018-04-29得票数 2

回答已采纳

1回答

星星星火-Scala在加载类文件时无效依赖项

scala、apache-spark

键入在加载类文件“SQLImplilis.class”时检测到的缺失或无效依赖项。无法访问包org.apache.spark.sql中的类型编码器，因为缺少它(或它的依赖项)。检查生成定义中缺少或冲突的依赖项。(使用-Ylog-classpath重新运行以查看有问题的类路径。)如果“SQLImplicits.class”是针对不兼容的org.apache.spark.sql版本编译的，则完全重建可能会有所帮助。SparkScala未知Scala问题。描述资源路径位置类型丢失或在加载类文件“Package.class”时检测到的无效依赖项。无法访问包org.apache.spark.sql中

浏览 2提问于2017-01-26得票数 1

1回答

什么时候(如果曾经)在失败的情况下修改流查询的检查点元数据？

scala、apache-spark、spark-structured-streaming

我对星火检查站持怀疑态度。我有火花流应用程序，我使用以下方法管理检查点n HDFS： val checkpointDirectory = "hdfs://192.168.0.1:8020/markingChecksPoints" df.writeStream .foreachBatch { (batchDF: DataFrame, batchId: Long) => batchDF .write .cassandraFormat( "table&#

浏览 3提问于2019-11-25得票数 1

回答已采纳

1回答

编译时引起assemblyMergeStrategy的scala.MatchError

scala、sbt、sbt-assembly

我是sbt/装配新手。我正在尝试解决一些依赖问题，似乎唯一的方法是通过自定义合并策略。但是，每当我尝试添加合并策略时，我都会得到一个看似随机的编译MatchError： [error] (*:assembly) scala.MatchError: org/apache/spark/streaming/kafka/KafkaUtilsPythonHelper$$anonfun$13.class (of class java.lang.String) 我显示了这个卡夫卡库的匹配错误，但是如果我完全取出这个库，我会在另一个库上得到一个MatchError。如果我取出所有的库，我就会在我自己的代码中得

浏览 0提问于2016-04-08得票数 2

回答已采纳