如何在databricks notebook中的变量中存储spark数据帧模式？_如何在spark数据帧/spark sql中读取带模式的json_Pyspark: Jupyter Notebook中的spark数据帧列宽配置 - 腾讯云开发者社区

apache-spark、azure-databricks

使用spark scala azure databricks。我有一个包含100+列的数据帧(Df1)。我需要创建另一个数据帧(Df2)，并希望它也有相同的模式。如何将df1的模式存储到变量中并应用于df2 val inputDF = Seq(("00163E0F765C1ED79593228BF70CEE41" ,&quo

浏览 18提问于2019-10-11得票数 0

1回答

用于Azure数据库的DevOps作业

azure、azure-devops、azure-databricks

我正在尝试在Azure Databricks上实现DevOps。我已经完成了databricks、notebooks和dbfs文件的devops实现。我确实有许多databricks作业在我的集群上按计划运行。其中一些作业指向notebook文件，少数作业指向dbfs位置中的jar文件。有没有办法在azure databricks作业上实现devops过程，以便DEV中的任何作业中</em

浏览 3提问于2020-11-27得票数 2

2回答

什么是Apache Spark* (SQL)中的Catalyst Optimizer？*

pyspark、pyspark-sql

我想知道更多关于在Apache ( PySpark )中使用Catalyst Optimizer的信息，在pyspark数据帧中使用Catalyst Optimizer是可能的。

浏览 23提问于2019-05-18得票数 1

1回答

如何在Databricks中读取/加载本地文件？

apache-spark、apache-spark-sql、databricks、azure-databricks、pyspark-dataframes

除了导航到Databricks上的“Data”>“Add Data”之外，是否还可以读取位于本地计算机中的文件。在我过去使用Databrick的经验中，当使用s3存储桶时，我能够通过如下方式指定路径来读取和加载数据帧： df = spark.read.format('delta').load('<path>')有没有办法使用databricks</em

浏览 132提问于2020-10-30得票数 2

1回答

将HDFS上文件夹中的多个逗号分隔文件加载到pyspark dataframe第一个文件有标题

pyspark

该文件夹的内容包括： _SUCCESSpart-00001part-00048 这些文件为csv格式。第一个文件part-00000具有头文件。其余的文件则不需要。当我读取文件时，我使用以下命令： spark.read.load( format='com.databricks.spark.csv',读取除第一个文件之外的所有文件时出现此错误，因为第一个文件包含标头完全错误

浏览 59提问于2021-04-25得票数 0

回答已采纳

2回答

在Databricks中导入笔记本

python、python-import、databricks、databricks-connect

我想使用databricks-connect直接从VS code中编码和运行/测试所有东西，以避免与Databricks web IDE打交道。对于基本的笔记本，它工作得很好，但我想对多个笔记本做同样的事情，并使用导入(例如，在另一个笔记本中使用import config-notebook )。然而，在VS代码中，import another-notebook工作得很好，但在数据库中却不起作用。据我所知，<

浏览 45提问于2021-10-19得票数 1

4回答

如何在pyspark中加载databricks包dbutils

pyspark、databricks

call last): NameError: name 'dbutils' is not defined 那么，有没有办法通过包含databricks包来在pyspark中运行它，就像导入一样？感谢您的帮助

浏览 13提问于2018-08-17得票数 7

3回答

无法在jupyter笔记本中导入sparkdl

apache-spark、pyspark、deep-learning、jupyter-notebook

我正在尝试使用jupyter notebook中的spark deep learning library()。当我尝试在jupyter notebook中“导入sparkdl”时，我得到了错误“找不到模块”。当我在cli中运行以下命令时我可以在spark

浏览 0提问于2019-03-27得票数 2

1回答

将数据从Azure Synapse中的Apache Spark写入SQL DW

azure-databricks、azure-synapse

当我从Databricks向Azure中的SQL DW写入数据时，我使用以下代码：这不适用于Synapse Notebook中</

浏览 30提问于2021-06-10得票数 1

回答已采纳

3回答

不将Spark* Dataframe转换为Pandas的方法*

python、pandas、pyspark、databricks

有没有办法在不将数据帧转换为pandas的情况下绘制Spark dataframe中的信息？# df = some Spark data frame df.plot()

浏览 17提问于2019-07-30得票数 8

1回答

Delta Lake表元数据

delta-lake

Delta Lake在哪里存储表元数据信息。我在我的独立机器上使用的是spark 2.6(不是Databricks)。我的假设是，如果我重启spark，在delta中创建的表将被删除(尝试使用Jupyter notebook)。但事实并非如此。

浏览 31提问于2020-07-21得票数 1

回答已采纳

2回答

如何在Databricks笔记本中使用气流变量？

pyspark、airflow、databricks、azure-databricks

我有一个从Airflow DAG调用的Databricks PySpark笔记本。我通过转到Admin - Variables在Airflow中创建了一个变量，并添加了一个键-值对。我找不到在Databricks中使用该气流变量的方法。编辑以添加我的代码示例。"token": token} 和这里定义的运算符 opr_submit_run = DatabricksSubmitRunOperator(

浏览 42提问于2021-07-13得票数 2

回答已采纳

2回答

将一个Databricks笔记本导入到另一个错误

python、pandas、jupyter-notebook、databricks、azure-databricks

我正尝试在Databricks中运行另一个Jupyter Notebook。NotebookB中的第一行代码如下(所有标记都显示在数据库中，没有任何问题)：我在我的Jupyter Notebook

浏览 2提问于2019-09-12得票数 1

4回答

Spark sql中的变量

apache-spark、apache-spark-sql、databricks

因为在SQL Server中，我们可以像declare @sparksql='<any query/value/string>'一样声明变量，但是在spark sql中可以使用什么替代方法。

浏览 541提问于2020-11-26得票数 3

2回答

Databricks Delta和Hive事务表

apache-spark、hive、databricks、delta-lake

我从两个来源看到，现在你不能以任何有意义的方式与Spark的HIVE事务表进行交互。我看到Databricks发布了一个名为的事务性功能。现在可以使用此功能读取配置单元事务性表吗？

浏览 0提问于2018-12-13得票数 2

2回答

Databricks:如何在%SQL查询中获取当前用户

sql、get、identity、databricks、delta-lake

在DATABRICKS DELTA数据库中，由于用户组的更改，在相同的表中有关于不同用户组的信息。我的意思是，所有组中的所有用户都使用同一个表。%sql CREATE VI

浏览 3提问于2020-04-01得票数 3

1回答

数据库+ ADF + ADLS2 + Hive = Azure Synapse

azure、apache-spark、azure-sql-database、azure-databricks、azure-synapse

我没有使用Azure Synapse的经验，但我的理解是，这与SQL中的Databricks、ADF、ADLS2和Hive是相同的，它们都位于一个不同名称的工作区中。我说错了吗？

浏览 2提问于2021-11-12得票数 1

回答已采纳

2回答

通过Python中的Databricks* api读取Databricks表？*

python-3.x、pyspark、databricks

使用Python-3，我试图将Excel (xlsx)表与Databricks中相同的星火表进行比较。我希望避免在Databricks中进行比较。因此，我正在寻找一种通过Databricks api读取星火表的方法。这个是可能的吗？我怎样才能继续读一张桌子: DB.TableName？

浏览 8提问于2021-03-19得票数 1

回答已采纳

2回答

在spark中，如何从没有列名的CSV文件创建带模式的dataframe？

csv、apache-spark、dataframe、schema

我有一个只有数据但没有列名的CSV文件，现在我想用这个CSV文件的数据在Spark中创建一个数据帧，并为它创建模式(列名和数据类型)。我的代码如下： import org.apache.spark.sql.SQLContext val employee = sqlContext.read.format(&q

浏览 52提问于2019-02-26得票数 0

2回答

从Databricks连接到Sybase

azure、sybase、azure-databricks、sap-iq

从Databricks连接到Sybase的最佳方法是什么？> %sql> CREATE TABLE sybase_table> OPTIONS

浏览 5提问于2019-12-21得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云