来自ADLS文件的Databricks作业小部件

基础概念

ADLS（Azure Data Lake Storage）是微软Azure云平台上的一种存储服务，专门用于存储大规模数据集。Databricks是一个基于Apache Spark的分析平台，提供快速的数据处理和分析能力。Databricks作业小部件（Job Widget）是Databricks中的一个功能，允许用户通过可视化界面提交和管理Spark作业。

类型

Databricks作业小部件主要分为以下几类：

作业提交小部件：用于提交Spark作业。
作业监控小部件：用于监控正在运行的作业状态。
作业历史小部件：用于查看历史作业的执行情况。

应用场景

数据处理：从ADLS中读取数据，进行清洗、转换和分析。
机器学习：使用Databricks进行模型训练和评估。
实时分析：从ADLS中读取实时数据流，进行实时分析和处理。

常见问题及解决方法

问题1：无法从ADLS读取数据

原因：可能是权限问题或ADLS配置错误。

解决方法：

确保ADLS账户和Databricks集群之间的权限配置正确。
检查ADLS的存储账户密钥和端点是否正确配置。

# 示例代码：读取ADLS中的数据
from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName("Read from ADLS") \
    .config("fs.adl.oauth2.access.token.provider.type", "ClientCredential") \
    .config("fs.adl.oauth2.client.id", "<client_id>") \
    .config("fs.adl.oauth2.credential", "<client_secret>") \
    .config("fs.adl.oauth2.refresh.url", "https://login.microsoftonline.com/<tenant_id>/oauth2/token") \
    .getOrCreate()

df = spark.read.csv("adl://<storage_account>.azuredatalakestore.net/<file_path>")
df.show()

问题2：作业提交失败

原因：可能是作业配置错误或资源不足。

解决方法：

检查作业配置，确保所有参数正确。
增加集群资源，如增加工作节点数量或调整节点规格。

# 示例代码：提交Databricks作业
from databricks_sdk import DatabricksClient

client = DatabricksClient(host="<databricks_host>", token="<databricks_token>")

job_id = client.jobs.create_job(
    name="My Job",
    existing_cluster_id="<cluster_id>",
    notebook_params={"input_path": "/path/to/input"},
    notebook_task={"notebook_path": "/path/to/notebook"}
)

client.jobs.run_now(job_id=job_id)

参考链接

页面内容是否对你有帮助？

有帮助

没帮助

来自ADLS文件的Databricks作业小部件

、、、

那么，现在如何从位于ADLS容器中的CSV或文件名中获取此值，并在databricks下拉小部件中使用它，这样用户就不会自由地输入不需要处理或仅限于处理的批处理is？所以基本上，我想给用户提供需要处理的批处理的选项，而不是整个字段来键入他想要的任何内容。

浏览 79提问于2021-08-16得票数 1

1回答

如何在Azure Databricks上提交自定义spark应用程序？

、、、

我已经创建了一个小应用程序，它以一定的时间间隔提交spark作业并创建一些分析报告。这些作业可以从本地文件系统或分布式文件系统(文件系统可以是HDFS、ADLS或WASB)读取数据。我是否可以在Azure databricks群集上运行此应用程序？该应用程序在HDInsights集群上运行良好，因为我可以访问节点。我将我的可部署jar放在一个位置，使用start-script启动它，类似地，我也可以使用我准备<em

浏览 11提问于2019-05-23得票数 1

1回答

如何在databricks pyspark中创建日志文件(path sohuld be ADLS)

、、

我已经在databricks中写了一个pyspark作业。我的目标是将信息、异常和错误保存到日志文件中。此日志文件应存在于ADLS中。有人能在这方面给我一些指导吗？

浏览 0提问于2019-06-28得票数 0

1回答

Delta Gen2和ADLS Gen2事务

、、、、

我们在ADLS Gen2上运行一个Delta湖，有大量的表和火花作业。星火作业在Databricks中运行，我们将ADLS容器安装到DBFS (abfss://delta@<our-adls-account>.dfs.core.windows.net/silver)中。这个设置已经稳定了几个月，但上周，我们看到存储帐户内的事务突然增加，特别是在ListFilesystemDir操作中：我们增加了一些

浏览 4提问于2021-05-12得票数 3

1回答

Spark Databricks本地文件API

、、、、

我正在尝试构建在spark DataBricks中完成的处理的摘要/报告。我遇到了下面的一段代码，它允许将数据写入dbfs和ADLS(通过挂载点)，但当我将代码打包到jar中并尝试将其作为DataBricks作业执行时，问题出现了，我得到了文件未找到异常，现在想知道如何在不使用notebooks的情况下将数据写入存储。writer.close() 我偶然发现了来自DataBricks的DB

浏览 0提问于2019-11-27得票数 0

1回答

将增量湖文件从一个存储移动到另一个存储

、、

我需要将delta文件移动到另一个订阅的新blobstore。你知道最好的方法是什么吗？我正在将它们移动到ADLS存储，我认为以前的存储只是Gen2存储。该增量湖由databricks作业每小时更新一次(但如果需要，我可以暂停这些作业)。大小约为3TB-5TB，我最初考虑暂停所有作业，然后使用azcopy移动文件并将作业指向那里。但我想看看其他可能在传输速度和成本方面更好的选择。

浏览 14提问于2020-07-12得票数 0

1回答

如何使用Azure Databricks和data Factory创建通用的数据转换管道

、、、

我需要创建一个GUI来获取一些用户输入，他们也可以从GUI导入CSV文件。导入文件后，我希望使用Azure databricks(pyspark)对该文件进行数据转换，并将转换后的数据存储在某个位置，以便用户可以下载转换后的数据。我想知道如何使它成为一个通用的管道，这样组织中的任何人都可以上传他们的文件(它可以有不同的列和数据类型)，databricks执行转换并存储结果。对于所有

浏览 30提问于2020-08-28得票数 0

2回答

如何使用python遍历ADLS文件夹？

、、、、

我使用下面的代码片段使用python遍历dbfs中的文件夹和文件： for file in filestot_contrast_rolled_sh = tot_contrast_rolled_sh.append(df, sort=False) 我想实现上面的功能与python和熊猫，但文件夹位于adls，我应该如何继续这一点？

浏览 10提问于2022-09-21得票数 0

1回答

用于ADLS DevOps资源的Azure Gen2 CI/CD管道

、、、

我正在为所有资源创建CI/CD管道，如ADF、DataBricks和ADLS Gen2。我已经在ADF和Databricks上完成了CI/CD，但是看不到在ADLS资源上实现CI/CD的方法。是否有办法在ADLS gen2资源上实现azure devops /CD管道?如果不可能使用直接方法，那么一旦必须存储在ADLS中的文件在github存储库中可用，是否有方法将这些文件部

浏览 3提问于2021-07-03得票数 1

回答已采纳

1回答

以存储帐户为数据层的Azure数据库

、、

我刚刚开始进行数据分析，需要使用来分析大容量的数据。在计划使用Databricks笔记本进行分析时，我遇到了不同的存储选项来加载数据( a) DBFS --来自Databricks的默认文件系统b) Azure data Lake (ADLS)和c) Azure看起来，项目(b)和(c)可以挂载到工作区中，以检索用于分析的数据。在Databricks上下

浏览 0提问于2021-05-26得票数 1

回答已采纳

1回答

在不将文件移动到Azure Databricks文件系统的情况下，解压Azure数据湖Gen1中的文件的最简单和最好的方法是什么？

、

在不将文件移动到Azure Databricks文件系统的情况下，解压Azure数据湖Gen1中的文件的最佳方法是什么？目前，我们正在使用Azure databricks进行计算，而用于storage.We的ADLS有限制将数据移动到DBFS中。已在DBFS中装载ADLS，不确定如何继续

浏览 31提问于2019-06-20得票数 2

1回答

如何从Azure函数调用Azure数据库中的作业/任务

、、、、

我需要开发一个事件驱动的管道，它应该在ADLS2文件到达时触发，即ABFS。在文件到达时，我需要触发集群上的4个后续Spark作业。对于编排Spark，我可以使用Databricks作业作为选项，这样就可以在管道中触发作业。但是，只有在文件到达后才能触发第一个作业。一种解决方案可能是使用Azure Databricks来基于存储事件触发器组件来编排整个流程，但是仅仅因为基于事件<

浏览 9提问于2022-06-22得票数 -1

回答已采纳

1回答

如何将dbfs文件和文件夹上传到数据库中的ADLS？

、、、

我计划停止使用dbfs，而是开始使用ADLS，我尝试将我的文件和文件夹移动到ADLS，然后使用ADLS路径访问databricks中的文件。怎样才能做到这一点？

浏览 12提问于2022-07-20得票数 0

1回答

当CSV文件驻留在ADLS中时如何在HTML报表(Python)中创建csv文件URL链接

、、、

我有一个csv文件在Azure数据湖存储，我需要创建一个HTML报告使用Azure数据砖笔记本(Python)，我应该提供这个CSV文件链接，用户可以点击和下载。例如:我试图在我的HTMl中包含下面的代码，但这并没有帮助 <a href='abfss://testingZone@testingZone.dfs.core.windows.net/Test/Input

浏览 3提问于2022-10-07得票数 0

回答已采纳

2回答

对于Delta Lake的真空操作，Databricks集群是否需要始终保持正常运行？

、、、

我正在使用Azure Databricks和集群的最新运行时。我对德尔塔湖的真空操作有些困惑。我们知道我们可以对删除的数据设置保留时间，但是，对于实际数据在保留期结束后要删除的数据，我们是否需要在整个保留期内保持群集运行？

浏览 53提问于2020-11-27得票数 0

回答已采纳

1回答

为什么数据库Python不能从我的Azure Datalake存储Gen1中读取？

、、、、

我正在尝试使用语法(受mydir/mycsv.csv启发)从Databricks笔记本中读取Azure数据湖存储Gen1中的文件。(10).to_csv("/dbfs/processed.csv") 我的客户端123abc-1e42-31415-9265-12345678csv文件时，当我在Databricks记事本

浏览 0提问于2019-07-25得票数 3

1回答

如何将远大期望保存到Azure Data Lake或Blob Store

、、

我正在尝试用下面这行代码将great_expectations的expectation_suite保存到Azue ADLS2或Blob store中。abfss://polybase@mipolybasestagingsbox.dfs.core.windows.net/test/newdata/loggingtableupdate.json' 下面是成功的，但我不知道expectation套件保存到了哪里： ge_df.save_expectation_suite('gr

浏览 7提问于2021-07-09得票数 1

回答已采纳

3回答

尝试访问Azure数据库中的Azure DBFS文件系统时安装错误

、、、

我能够建立到我的数据库filestore DBFS的连接并访问文件。用Pyspark读取、写入和转换数据是可能的，但是当我尝试使用本地Python (如pathlib或OS模块)时，我无法通过DBFS文件系统的第一级。但是，如果我执行os.listdir('\dbfs\mnt\my_fs\')，它将['mount.err']作为返回值返回我正在使用Python在

浏览 3提问于2019-11-22得票数 7

回答已采纳

1回答

具有ADLS Gen 2安全访问的Azure数据库

、、、

实际上，工程团队正在构建由Azure Databricks (Jobs API)运行并调度的数据摄取管道(作为python文件，而不是笔记本)。也许是非常规的，但我们这边没有问题。 The running ：我们的数据科学团队运行在Databricks笔记本上，并且还需要访问由ADLS 2支持的数据表，因此它们也必须进行身份验证。因此，他们感到沮丧的是，在升级到生产时，他们必须做一个小的调整，这将允

浏览 4提问于2020-12-02得票数 0

2回答