Spark (Databricks)来自SQL的非托管表不处理标头

sql、apache-spark、databricks

正在尝试使用SQL API从CSV文件在Spark (Databricks)中创建非托管表。但是第一行没有被用作标题。图2显示了使用Dataframe API创建非托管表时第一行是正确的。该Dataframe是从同一csv文件加载的。但是，图1显示，从SQL中的CSV文件数据源创建非托管表时，不会将第一行作

浏览 26提问于2021-07-15得票数 1

回答已采纳

4回答

Databricks删除增量表？

databricks、delta-lake

如何在Databricks中删除增量表？我在文档里找不到任何信息...也许唯一的解决方案是使用魔术命令或dbutils删除文件夹‘delta`中的文件： %fs rm -r delta/mytable?编辑：为了清楚起见，我在这里举了一个非常基本的例子。,StructField("number", IntegerType())]) df = spark

浏览 93提问于2019-11-22得票数 8

回答已采纳

1回答

将最新数据从ADLS2 blob存储获取到装载在Azure DataBricks中的表

azure-blob-storage、azure-databricks、azure-data-lake-gen2

我已经使用挂载路径在Azure DataBricks中创建了一个非托管表，如下所示：挂载路径来源为ADLS Gen2中存储的拼图文件。我看到如果底层数据在ADLS Ge

浏览 18提问于2020-05-22得票数 0

2回答

如何删除非托管增量湖表

databricks、azure-databricks、delta-lake

我正在尝试删除使用writestream创建的增量湖表。我尝试删除表，但失败了df.writestream().outputmode("append").format("delta").start("/mnt/mytable") spark.sql("drop table '/mnt/mytable&#

浏览 2提问于2019-08-22得票数 2

2回答

Hive托管表拖放不会删除HDFS上的文件。有什么解决办法吗？

hadoop、hive、hdfs、azure-databricks

当从单元中删除托管表时，hdfs中的相关文件不会被删除(在azure-databricks上)。我得到了以下错误： SimbaSparkJDBCDriver错误处理查询/语句。错误代码: 0，SQL状态: org.apache.spark.sql.AnalysisException:无法创建托管表(‘schema.XXXXX’)。关联的location('dbfs:/

浏览 0提问于2019-03-18得票数 3

1回答

保存模式(‘覆盖’)设置的星火DataFrame时，“关联位置已经存在”

apache-spark、apache-spark-sql

mode('overwrite')操作期间设置saveAsTable()： 'spark_no_bucket_table1') table('`spa

浏览 35提问于2022-11-15得票数 2

回答已采纳

2回答

火花上的Scala数据分析

scala、csv、apache-spark、dataframe、rdd

我是Scala新手，我必须使用Scala和Spark的SQL、Mllib和GraphX来对巨大的数据集进行一些分析。我想做的分析是：我

浏览 2提问于2016-09-25得票数 3

4回答

单元管理表与外部表:位置目录

hadoop、hive

其中一本书- Hadoop在实践中说创建外部(非托管)表时，Hive将位置关键字指定的目录中的数据保持不变。但是，如果要执行相同的CREATE命令并删除外部关键字，表将是一个托管表，而Hive将将位置目录的内容移动到/user/hive/仓库/stock中，这可能不是您所期望的行为。我创建了一个带有LOCATION关键字的托管</

浏览 3提问于2015-07-09得票数 6

2回答

Databricks中的错误:您似乎试图从广播变量、操作或转换引用SparkContext

pyspark、azure-databricks、multiprocess

我试图在databricks std集群中运行以下代码。(sql_script): return 0它给了我错误：我希望将多个sql脚本提交给transform函数，它只是在脚本上执行spark.sql()。想法是拥有来自<

浏览 10提问于2022-06-05得票数 0

3回答

在Azure Synapse专用/无服务器SQL池中使用增量表

sql、azure、pyspark、azure-synapse、delta-lake

我目前是一名初级数据开发人员，最近看到一篇文章说Azure Synapse现在可以从Delta表创建SQL表。我尝试从Delta lake Storage V2中的delta表创建一个SQL表，但是当使用'PARQUET‘作为文件格式并使用通配符读取文件时，该表被填充了额外的冗余数据(来自文件夹中所有快照的所有数据我尝试为我的表创建一个外部文件格式，但是

浏览 3提问于2021-02-26得票数 3

1回答

Spark Scala -将数据帧保存为带有标题的文本文件

scala、apache-spark

DataFrameWriter csv方法生成带有标头的csv部件文件.option("header","true").option("delimiter", "\t")Databrick的spark-csv也可以处理带有头文件的csv文件，但

浏览 2提问于2018-10-06得票数 0

2回答

如何在蔚蓝数据库中重命名数据库？

apache-spark-sql、databricks、azure-databricks

我试图在中重命名一个数据库，但是我得到了以下错误： %sql ALTER DATABASEinventory MODIFY NAME = new_inventory; 请解释这个错误是什么意思“输入‘alternative没有可行的选择”，我如何解决它？

浏览 4提问于2021-03-05得票数 4

1回答

用于Azure存储的PowerBI中的查询筛选

azure、apache-spark-sql、powerbi、powerbi-desktop

我一直在尝试寻找我们是否在PowerBI中为Azure Storage提供了Direct Query的选项？我的PowerBI确实显示了在Import和Direct Query之间进行选择的选项，但它没有提供编写任何查询的选项。我做了一些搜索&发现了一个旧的帖子，它没有yet.This的想法也在上制定，但似乎还没有任何更新。我在别处找不到这个是否可用。有没有人有什么最新的想法？我想编写Spark SQL，基本上是为了从Azu

浏览 8提问于2020-05-13得票数 0

2回答

将熊猫数据附加到数据库中现有的表中

python、pandas、apache-spark、pyspark、databricks

我想在databricks中的现有表(12列)中添加一个熊猫数据(8列)，并填充其他4列无法与None值匹配的列。我已经试过了：spark_df.write.mode("append").insertInto("my_table") ParseException：“\n不匹配的输入”：‘期望(第1行，po

浏览 3提问于2019-11-18得票数 1

4回答

将数据从blob存储复制到sqlDatabase (到多个表中)

azure、azure-data-factory

我正在尝试使用Azure DataFactory将blob存储中的数据读入SQL数据库。我让这个过程可以使用copy活动很好地工作，现在我尝试将数据插入到多个相互关联的表中(privateKey，foreignKey)。例如，要更新Table，我需要知道表所有者中是否存在所有者。我无法找到一个详细的解释，如何去做！有谁有经验给我指点？谢谢

浏览 1提问于2019-10-22得票数 1

1回答

如何在Azure Delta湖上创建外部表(类似于Hive)

azure-databricks、azure-data-lake、delta-lake

如何在Azure数据湖存储上创建外部Delta表？我目前正在从事一个迁移项目(从Pyspark/Hadoop到Azure)。我找不到很多关于在Azure中创建非托管表的文档。下面是它的样子->>> df1 = spa

浏览 3提问于2022-03-30得票数 0

6回答

未能为数据源加载类: com.databricks.spark.csv

apache-spark

我的build.sbt文件有以下内容：libraryDependencies += "com.databricks" % "spark-csv_2.10" % "1.1.0" 我在独立集群模式下运行Spark，我的SparkConf是SparkConf().setMaster("spark://ec2-[ip].compute-

浏览 5提问于2015-07-23得票数 6

1回答

Schema文件定义

java、apache-spark、schema、parquet

我有一个简单的火花应用程序，目的是读取分隔文本文件，并将它们保存为拼花格式。到目前为止，我已经看过的示例要么是从标题行推断模式，要么是在代码本身中定义模式。如何才能做到这一点？import org.apache.spark.SparkConf; import org.apache.spark.Spar

浏览 5提问于2017-04-13得票数 0

1回答

是否有一个等同于“优化”的方法，允许从中的非托管表中删除副本

sql、apache-spark、databricks

我想从一个非托管表中删除重复的行。，我知道有一些命令，比如，df.dropduplicates()，，可以处理dataframes，但是有一个命令可以对底层数据执行同样的操作吗？因此，例如，优化工作如下：spark.sql("OPTIMIZE <TABLE>") 是否有类似于：spark.sql("DELETE DUPLICATES <TABLE>")之

浏览 3提问于2021-07-08得票数 0

回答已采纳

3回答

是否有可能插入临时表的火花？

apache-spark、temporary

我使用ApacheSpark2.4使用Databricks测试了下面的查询：create temporary view temp_view_t不可能插入spark中的临时表吗？如何在spark sql中创建临时数

浏览 2提问于2020-03-30得票数 4

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Databricks删除增量表？

将最新数据从ADLS2 blob存储获取到装载在Azure DataBricks中的表

如何删除非托管增量湖表

Hive托管表拖放不会删除HDFS上的文件。有什么解决办法吗？

保存模式(‘覆盖’)设置的星火DataFrame时，“关联位置已经存在”

火花上的Scala数据分析

单元管理表与外部表:位置目录

Databricks中的错误:您似乎试图从广播变量、操作或转换引用SparkContext

在Azure Synapse专用/无服务器SQL池中使用增量表

Spark Scala -将数据帧保存为带有标题的文本文件

如何在蔚蓝数据库中重命名数据库？

用于Azure存储的PowerBI中的查询筛选

将熊猫数据附加到数据库中现有的表中

将数据从blob存储复制到sqlDatabase (到多个表中)

如何在Azure Delta湖上创建外部表(类似于Hive)

未能为数据源加载类: com.databricks.spark.csv

Schema文件定义

是否有一个等同于“优化”的方法，允许从中的非托管表中删除副本

是否有可能插入临时表的火花？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐