将文件导入databricks notebook时出现问题

将文件导入 Databricks Notebook 时出现问题

Databricks 是一种基于 Apache Spark 的云计算平台，用于大数据处理和分析。在导入文件到 Databricks Notebook 的过程中，可能会出现一些常见的问题和解决方法。

问题：文件导入失败，显示错误消息 "FileNotFoundError"。解决方法：请确保文件路径和文件名正确，并且文件存在于指定的路径。还要确保文件的权限设置正确。
问题：导入的文件格式不受支持。解决方法：Databricks 支持导入多种格式的文件，包括 CSV、JSON、Parquet、Avro 等。请检查文件的格式，并确保选择正确的导入函数或方法。
问题：文件过大，导入速度较慢。解决方法：对于大型文件，可以考虑使用分布式存储系统（如 Hadoop HDFS 或 Amazon S3）来存储文件，并利用 Spark 进行并行处理和导入。这样可以加快导入速度并提高处理效率。
问题：导入的文件包含无效的数据或格式错误。解决方法：在导入文件之前，可以预先检查文件的内容和格式。例如，对于 CSV 文件，可以使用 pandas 库或 Spark 的数据源 API 来加载和验证数据。如果存在无效的数据，可以采取相应的清洗或转换操作。
问题：导入的文件需要进行转换或解析。解决方法：根据文件的特定格式，可以使用相应的转换工具或库来解析文件。例如，对于 JSON 文件，可以使用 Spark 的 JSON 数据源 API 或相关的 JSON 解析库进行解析。
问题：导入的文件包含敏感数据。解决方法：对于包含敏感数据的文件，建议进行数据加密或匿名化处理，以确保数据的安全性。可以使用加密算法或数据掩码技术来实现数据保护。

腾讯云相关产品推荐：

对于大数据处理和分析，腾讯云提供了弹性 MapReduce（EMR）服务，它是一种大数据处理平台，支持 Spark 和 Hadoop 等开源框架。了解更多信息：弹性 MapReduce (EMR)
如果需要存储和管理大量结构化或非结构化数据，腾讯云的对象存储服务（COS）是一个理想的选择。了解更多信息：对象存储 (COS)
如果需要进行机器学习和深度学习任务，腾讯云的机器学习平台（Tencent Machine Learning）提供了丰富的工具和资源。了解更多信息：机器学习平台 (Tencent Machine Learning)

请注意，以上推荐的产品仅为示例，并非云计算品牌商。根据实际需求和场景，可以选择适合的云计算服务提供商和相应产品。

如何将ADLS gen2文件夹/文件名动态传递到ADF或Databricks中的数据库笔记本

、、

我正在使用ADF中的Databricks Notebook活动来转换ADLS gen2文件夹中的文件。这个文件夹是动态的，并且每天都会创建一个新的文件夹。因此，我希望Databricks Notebook活动每天动态拾取foldername，以处理该文件夹中的文件。我们可以在ADF或Databricks Notebook活动中执行此操作吗？

浏览 1提问于2020-08-26得票数 0

2回答

从存储帐户创建Azure databricks笔记本

、、、

我们在blob中的Azure存储帐户中存储了python脚本。我们希望在azure databricks集群中部署/创建此python脚本(作为notebook)，以便稍后我们可以运行Azure数据工厂管道，并且管道可以执行在databricks中创建/部署的notebook。我们只希望在blob中可用时创建/部署此脚本一次。我试着在网上搜索，但找不到合适的解决方案。是否可以从存储帐户部署/创建笔记本？如果是，是如何实现的？谢谢。

浏览 21提问于2021-05-28得票数 1

1回答

DataBricks在每个python笔记本的前面增加#魔术

、、、

我的设置包括连接到Azure DataBricks的git存储库，这允许在PyCharm中开发databricks python笔记本，在DataBricks UI中推送并运行更新的笔记本。每当我从WebUI更改笔记本文件并执行提交时，笔记本文件中的所有行都会加上#魔术： # Databricks notebook source %pip install -r "../requirements.txt" import os 变成： # Databricks notebook source # MAGIC %pip install -r "../requirement

浏览 9提问于2022-05-23得票数 1

2回答

如何在IPython笔记本中加载jar依赖项

、、、

鼓励我尝试使用spark-csv来读取PySpark中的.csv文件。我发现有几篇文章描述了如何使用，比如但是我无法通过在启动过程中包含.jar文件或包扩展名来初始化ipython实例，这可以通过spark-shell来完成。也就是说，它不是 ipython notebook --profile=pyspark 我试过了 ipython notebook --profile=pyspark --packages com.databricks:spark-csv_2.10:1.0.3 但它不受支持。请给我建议。

浏览 1提问于2015-11-25得票数 8

1回答

如何在Databricks笔记本中导入自定义库？

、

我在Databricks 中的集群上上传了一个jar库，但是我无法从Databricks笔记本中导入这个库或使用这个库的方法。我一直无法找到论坛或文档来解决这个问题，所以我不确定这一点是否可行。我能够在Databricks中将jar文件作为作业运行，只是无法将jar库导入到Notebook中来运行它。我还尝试使用%sh魔术命令运行jar文件，但收到了以下JNI error Error: A JNI error has occurred, please check your installation and try again Exception in thread "main

浏览 6提问于2021-12-30得票数 1

1回答

Azure函数与databricks笔记本通信错误

、、、

我把azure函数和databricks笔记本连接起来，从笔记本中提取数据。直到2月7日，它才开始正常工作，但后来我开始得到一个错误，没有一个合理的错误代码。我已经附加了堆栈跟踪和错误消息。还提供了代码中实际错误的屏幕截图。任何帮助都是非常感谢的。 WorkflowException: com.databricks.NotebookExecutionException: FAILED Caused by: NotebookExecutionException: FAILED at com.databricks.workflow.WorkflowDriver.run(Workflow

浏览 11提问于2022-02-11得票数 0

回答已采纳

1回答

Databricks python notebook执行的日志文件

、、

我正在使用databricks，并在python notebook中编写代码。最近我们在prod中部署了它。然而，有时笔记本电脑会出现故障。我正在寻找notebook命令执行日志文件，但是在databricks中没有生成日志文件的选项。我希望将日志文件存储在带有时间戳的DBFS中，以便在失败时可以参考这些日志文件。我们有什么办法可以做到这一点吗？提前感谢您的帮助。

浏览 41提问于2019-09-26得票数 1

1回答

(Azure Data管道)用于特定文件夹中的每个笔记本

、、

如何创建一个ForEach活动：获取Databricks中特定文件夹工作区中存在的所有笔记本的列表。执行每本笔记本因为目前，我正在为每个Notebook添加一个Notebook活动，然后一个接一个地连接它们。但是这种工作效率不高，因为当在Databricks中创建新的Notebook时，我必须记住更新Azure Synapse Data中的管道执行。谢谢。

浏览 3提问于2022-11-22得票数 0

回答已采纳

1回答

要生成databricks记事本URL以发送警报

、、

def _get_dbutils(): try: import IPython ip_shell = IPython.get_ipython() if ip_shell is None: raise _NoDbutilsError return ip_shell.ns_table["user_global"]["dbutils"] except ImportError: raise _NoDbutilsError except Key

浏览 12提问于2021-12-06得票数 1

2回答

路径包含空名称

、、、

我正在运行以下任务，以将笔记本上传到Azure DevOps发布管道的Databricks： databricks workspace mkdirs //build databricks workspace import --language PYTHON --format SOURCE --overwrite _databricks/notebook/$(notebook_name)-$(Build.SourceVersion).py //build/$(notebook_name)-$(Build.SourceVersion).py 但是获取错误：(//build/helloworld-

浏览 0提问于2020-05-16得票数 0

2回答

如何在Databricks笔记本中使用气流变量？

、、、

我有一个从Airflow DAG调用的Databricks PySpark笔记本。我通过转到Admin - Variables在Airflow中创建了一个变量，并添加了一个键-值对。我找不到在Databricks中使用该气流变量的方法。编辑以添加我的代码示例。 notebook_task = { 'notebook_path': '/Users/email@exaple.com/myDAG', 'base_parameters': { "token": token } } 和这里定义的

浏览 42提问于2021-07-13得票数 2

回答已采纳

2回答

未找到模块:com.databricks#spark csv_2.10；1.5.0

、、

为了以表格格式读取CSV文件，我在木星中尝试了以下内容。 pyspark --packages com.databricks:spark-csv_2.10:1.5.0 然后，我在日志中得到了以下错误，有关日志的更多详细信息，“我在下一个注释中分别列出了” :::: WARNINGS module not found: com.databricks#spark-csv_2.10;1.5.0 “我检查了火花-csv_2.10-1.5.0.jar”和“Common-CSV-1.1.jar”已经存在。如果我忽略了警告，在运行以下命令时，我得到了"NameError: name‘sc“未定义的

浏览 1提问于2018-11-21得票数 0

2回答

Azure Databricks with Github

、、、

我正在使用Databricks notebook，并将其与GitHub同步。我们是在Github repo的两个不同分支上工作的两个成员。当我们在该笔记本上运行Azure数据工厂活动时，它运行该笔记本的最新版本。既然我们不能控制从外部执行的Notebook版本，那么使用GitHub作为版本控制的目的是什么呢？如果许多开发人员提交了他们的更改，但在EOD上，我们需要执行主分支更改，这是最稳定的更改。

浏览 15提问于2018-08-20得票数 4

2回答

在Databricks中导入笔记本

、、、

我正在使用databricks-connect和VS Code为Databricks开发一些python代码。我想使用databricks-connect直接从VS code中编码和运行/测试所有东西，以避免与Databricks web IDE打交道。对于基本的笔记本，它工作得很好，但我想对多个笔记本做同样的事情，并使用导入(例如，在另一个笔记本中使用import config-notebook )。然而，在VS代码中，import another-notebook工作得很好，但在数据库中却不起作用。据我所知，Databricks中的替代方案是%run "another-note

浏览 45提问于2021-10-19得票数 1

1回答

气流状态-任务立即进入'up_for_retry‘状态('start_date’是1天前)。

、、

我不知道我是否缺乏气流调度器的知识，或这是否是一个潜在的缺陷从气流。情况如下：我的守护进程的开始日期设置为"start_date": airflow.utils.dates.days_ago(1),i，将上传到气流扫描DAGs的文件夹中，然后打开dag (默认情况下是“关闭”)，正在执行中的任务立即进入“up_for_retry”，您不会真正看到已经尝试过的before.airflow Version Info：Version : 1.10.14。它运行在蔚蓝使用芹菜执行器和Redis任务实例详细信息如下： Task Instance Details Dependencie

浏览 12提问于2021-05-17得票数 0

2回答

每个管道的数据库作业集群，而不是每个笔记本活动

、、、

我正在不同的Databricks笔记本中转换数据(读取、转换和写入ADLS)。我将这些笔记本合并在一个DataFactory管道中： Notebook 1 --> Notebook 2 --> Notebook 3 --> Notebook 我已经从DataFactory创建了到我的数据库的连接，并将它添加到我的笔记本活动中。每当管道被触发时，我想启动Databricks集群。总的来说，这一切都很好。但是Databricks为每个笔记本活动启动了一个工作集群，这需要花费太多的时间，而且对我来说似乎是不必要的。是否有可能在管道开始时启动一个集群，然后在所有笔记本完成后关闭它？

浏览 0提问于2019-02-22得票数 1

回答已采纳

2回答

是否在数据工厂的特定分支中调用Databricks notebook？

、、、、

我正在使用新的Databricks Repos功能，在notebook活动的Data Factory UI中，您可以浏览Databricks工作区并选择Repos > username > project > folder > notebook。是否可以在Data Factory的特定分支中调用Databricks notebook？

浏览 17提问于2021-09-27得票数 2

回答已采纳

1回答

Databricks Notebook - Microsoft Azure -连接到群集时自动完成不起作用

、、、、

Databricks Notebook - Microsoft Azure -当databricks notebook附加到群集时，自动完成不起作用。有没有人可以分享一些解决这个问题的建议？编辑过的我有几个集群，我发现自动补全的这种行为并不只适用于其中一个集群！什么时候会发生这种情况，有什么建议吗？

浏览 5提问于2020-04-23得票数 0

1回答

用于Azure数据库的DevOps作业

、、

我正在尝试在Azure Databricks上实现DevOps。我已经完成了databricks、notebooks和dbfs文件的devops实现。我确实有许多databricks作业在我的集群上按计划运行。其中一些作业指向notebook文件，少数作业指向dbfs位置中的jar文件。有没有办法在azure databricks作业上实现devops过程，以便DEV中的任何作业中的任何更改都将调用构建管道，并在PROD databricks实例中部署相同的作业。首先，我想知道是否有可能在azure databricks作业上实现devops。感谢任何线索！

浏览 3提问于2020-11-27得票数 2

1回答

Azure数据库-在CI/CD过程中需要更换Notebook中的密码

、、、、

我有一个要求，我从数据库笔记本中基于密钥保管库的秘密作用域获取秘密。我有用于开发和生产Azure资源的秘密，例如数据湖Gen2的开发和生产实例。现在，我有了一个CI/CD管道，它按原样将Notebook从dev部署到production databricks文件夹。但是，我不知道如何在部署时替换Notebook中的秘密名称，以便dev中的databricks Notebook指向开发资源，而production中的secret指向生产资源。要实现这一点，我需要覆盖CI/CD管道中的秘密名称或其他设计来实现这一点。同样也需要一个解决方案。感谢任何线索。提前感谢

浏览 16提问于2020-12-28得票数 1

回答已采纳

0回答

在dataFrame中使用databricks改变JSON文件的最终结构？

、、

我正在使用python中的Databricks将JSON文件的最终结构更改为dataFrame。要在Databricks中读取它，可以使用： df = sqlContext.sql("SELECT * FROM people") 在使用Jupyter notebook时，您可以使用以下命令轻松完成此操作： df = spark.read.json('people.json', schema = final_struc) 但它在databricks中是如何工作的？

浏览 3提问于2017-06-08得票数 1

回答已采纳

1回答

通过terraform或powershell触发天蓝色数据库、笔记本或作业

、、、、

我试图自动化创建蓝色数据库的过程与集群，笔记本和作业，并运行笔记本，通过地形。我所拥有的代码创建了上述资源。但我无法通过地形运行笔记本或作业。 provider "databricks" { azure_workspace_resource_id = azurerm_databricks_workspace.example.id } resource "azurerm_resource_group" "example" { name = "example-resources" location = "

浏览 8提问于2022-08-20得票数 0

1回答

浅谈dbutils.notebook.run在Azure数据库中的应用

、

我在尝试执行以下操作时出错了。我不知道会是什么. jobStartTime = datetime.strftime(datetime.now(), "%Y-%m-%dT%H:%M:%S%Z") dbutils.notebook.run("/yptoCommon/LogPowerBI", 60, { "jobStartTime": jobStartTime, "NoteBook": "Oeps", "AllFiles": "10", "ProcessedFiles":

浏览 4提问于2020-03-11得票数 0

回答已采纳

1回答

如何向databricks notebook发送参数？

、

I使用以下代码触发databricks notebook： TOKEN = "xxxxxxxxxxxxxxxxxxxx" headers = {"Authorization": "Bearer %s" % TOKEN} data = { "job_id": xx, "notebook_task": { "base_parameters": { "param1":"key1", "

浏览 13提问于2021-11-01得票数 1

2回答

Azure :以编程方式指定笔记本路径，其中包含dbutils.notebook.run中的特殊字符“dbutils.notebook.run”

、

我有一个databricks笔记本，它有以下一行： dbutils.notebook.run(f"{notebooks_base_path}/test_notebook", 60, {}) "notebooks_base_path“参数的值字符串是工作区中现有的根路径，其值为："/base/oracle/dim/ops$test” 执行它时，收到与解析记事本路径相关的异常： com.databricks.WorkflowException: com.databricks.NotebookExecutionException:失败:未找到笔记本: /base/or

浏览 10提问于2022-02-21得票数 1

2回答

如何将笔记本从本地计算机导入Azure Databricks门户？

、、、

如何在Azure Databricks中从本地导入笔记本？我在本地机器上有DBC格式的示例笔记本，我需要通过notebook Rest API导入。 curl -n -H "Content-Type: application/json" -X POST -d @- https://YOUR_DOMAIN/api/2.0/workspace/import <<JSON { "path": "/Users/user@example.com/new-notebook", "format": "SOURCE&

浏览 5提问于2017-12-08得票数 0

1回答

在Databricks python notebook中，如何导入与file2不同的目录下的file1对象？

、、

注意:我在web上做了这个研究，但他们都指向了在prem/desktops上工作的解决方案。这个案例在databricks笔记本上，我参考了databricks帮助指南，但找不到解决方案。亲爱的所有人，在我的本地桌面上，我曾经通过引用对象的绝对路径从其他python文件导入对象，例如 “从dir.dira.dir0.file1导入*” 但在Databricks python notebook中，我发现很难破解这一步，因为需要2个小时。任何帮助都是非常感谢的。下面是我的命令如何显示，从dbfs.Shared.ABC.models.NJ_WrkDir.test_schdl导入* 我也尝试了

浏览 21提问于2019-12-21得票数 0

2回答

如何在笔记本之外使用DataBricks dbutils jar？

、、

在eclipse或任何其他DataBricks中都需要使用IDE dbutils库。在notebook之外的SecretUtil应用编程接口中不能使用像dbutils.secrets.get这样的方法。在这个场景中，我们可以使用com.databricks jar

浏览 1提问于2019-08-19得票数 4

2回答

每次启动Data bricks群集时，它都会安装所有软件包

、

我一直在使用Python/ R开发Databricks notebook。一旦工作完成，我们需要终止集群，以节省相关成本。(因为我们正在使用机器)。因此，如果我们想要在任何笔记本上工作，我们还必须启动集群。我已经看到，在集群中重新安装这些包需要花费很多时间。有没有办法避免每次启动集群时都安装？

浏览 0提问于2019-04-01得票数 1

1回答

dbutils.notebook.run不选择保存在DBFS位置上的运行笔记本

、

我将我的databricks工作区目录(/Users/xyz/)内容导出到databricks的特定位置，例如/dbfs/tmp，其中包含几个python笔记本和脚本，然后尝试调用以下代码从导出的位置运行名为xyz.py的python笔记本，如下所示： dbutils.notebook.run("/dbfs/tmp/xyz", timeout_seconds=1200) OR dbutils.notebook.run("dbfs:/tmp/xyz", timeout_seconds=1200) OR dbutils.notebook.run(".

浏览 26提问于2020-06-05得票数 2

2回答

从回购数据库中的另一个笔记本中运行一个笔记本

、

我有一个笔记本功能，在一个回购文件夹，我试图运行在另一个笔记本。通常我可以这样运行：%run /Users/name/project/file_name 因此，我将这两个文件(function_notebook、processed_notebook)克隆到Databricks中的Repo中。当我试图复制刚才复制的路径时，会出现以下选项：Copy File Path relative to Root 但是，在Workspace用户文件夹中，选项是Copy File Path 显然，我不太理解相对路径和工作区路径之间的区别。如何运行已克隆在回购协议中的笔记本? 层次结构： RepoName

浏览 9提问于2021-07-06得票数 4

回答已采纳

2回答

检索数据库作业数据

、

我通过Azure拥有一个Databricks工作区，我使用Databricks Job运行一些创建文件的python脚本。我想知道我是否能够检索在作业完成后创建的这些文件。在Azure中的中，我看到一个与databricks工作区相关联的存储帐户，在容器中有一个“作业”条目。当我试图访问它时，我会得到一个DenyAssignmentAuthorizationFailed错误。我是组织管理员，所以获得正确的权限不应该是个问题，尽管我不知道为什么我已经没有访问权限了，并假设这是数据库的事情。我尝试过谷歌搜索和查看Azure的文档，但是关于databricks乔布斯或它的数据存储的文档却少得令人

浏览 10提问于2022-11-23得票数 0

回答已采纳

1回答

Databricks notebook %run relative path，3 level deep无效

、

我需要使用相对路径运行databricks notebook 3文件夹，但它不起作用。这是一个限制吗？如果我指定了完整路径，它就会起作用。这是我测试过的： %run ./folder/notebook - WORKS %run ../folder/notebook - WORKS %run .../folder/notebook -不工作

浏览 2提问于2021-09-06得票数 1

回答已采纳

2回答

是否撤消databricks notebook中已删除的单元格？

、

当我们删除databricks notebook中的命令单元格时，有什么方法可以恢复它吗？我在databricks中看不到任何撤销已删除单元格的建议。databricks版本为v2.99。 ? ?

浏览 14提问于2019-06-26得票数 0

1回答

仅当排定为作业时，才跳过Databricks notebook命令

、、、

我有一个databricks笔记本，其中包含一些代码(Python)，可以将文件从dbfs上传到SharePoint位置。notebook在独立执行时运行正常，并且文件已上载，但当我尝试使用ADF或Databricks作业安排它时，用于SharePoint上载的命令被跳过。其他命令执行正常。我正在使用O365 REST Python客户端进行Sharepoint上传。我不确定是不是我选择的库导致了这种情况的发生。有没有人遇到过类似的情况？

浏览 22提问于2021-08-23得票数 1

1回答

Scala/Spark中的图形帧错误

、、、

我在Scala 2.11中将以下代码行写入Databricks： import org.graphframes._ val user_ridotto = sqlContext.sql("SELECT * FROM userRidotto") var users_1 = user_ridotto.select("user_id", "name", "city", "num_fr", "fans", "review_count", "importance").wi

浏览 2提问于2017-10-16得票数 1

2回答

在特定单元格后停止执行Databricks notebook

我在Databricks notebook上尝试了sys.exit(0)(Python代码)和dbutils.notebook.exit()。但这两种选择都不起作用。请建议在Databricks notebook中的特定单元格之后停止代码执行的任何其他方法。

浏览 20提问于2021-02-19得票数 1

2回答

以变量为参数的Powershell - JSON字符串

、、、

我正在尝试在PowerShell中使用Databricks CLI。我需要将JSON字符串作为参数传递。我有两个变量- job_id等于10，parameterValue等于some string。我使用了4种不同的组合，但仍然得到一个错误的Error: JSONDecodeError: Expecting property name enclosed in double quotes: line 1 column 2 (char 1) 使用的代码： databricks jobs run-now --job-id $job_id --notebook-params "{"

浏览 16提问于2021-10-26得票数 1

1回答

使用Airflow使用PySpark代码执行Databricks笔记本

、、、

我使用的是气流、数据库和PySpark。我想知道，当我想通过气流执行Databricks笔记本时，是否可以添加更多的参数。我在Python中使用了名为MyETL的下一个代码： def main(**kwargs): spark.sql("CREATE TABLE {0} {1}".format(table, columns)) print("Running my ETL!") if __name__== "__main__": main(arg1, arg2) 我想要定义运行有更多params的Da

浏览 0提问于2019-06-25得票数 2

回答已采纳

1回答

如何在databricks notebook任务中将列表作为参数发送？

、、

我正在使用Databricks Resi API在现有集群中使用notebook_task创建作业，并获取job_id。然后调用run-now api来触发作业。在这一步中，我想通过notebook_params发送一个list作为参数，它抛出一个错误，说“字段值需要非数组”。有没有什么方法可以将列表作为参数发送到作业？我也尝试过在base_params中发送列表参数，但出现了相同的错误。 user_json={ "name": job_name,

浏览 3提问于2019-06-07得票数 1

2回答

向将来的序列添加重试，以便在Scala中并行运行Databricks笔记本

、、、、

我使用Databricks中的以下代码来说明如何在Scala，https://docs.databricks.com/notebooks/notebook-workflows.html#run-multiple-notebooks-concurrently中并行运行它的笔记本。我正在尝试添加重试功能，如果序列中的一个笔记本失败，它将根据我传递给它的重试值重试该笔记本。以下是Databricks的并行notebook代码： //parallel notebook code import scala.concurrent.{Future, Await} import scala.concur

浏览 21提问于2020-07-10得票数 2

回答已采纳

1回答

如何使用API将Notebook写到Databricks？

我可以使用这里介绍的API将数据文件写入Databricks： https://docs.databricks.com/dev-tools/api/latest/index.html https://docs.databricks.com/dev-tools/api/latest/dbfs.html 我有几个要写入Databricks实例的笔记本。在API文档中，我看不到如何做到这一点。有没有办法使用Rest API将Notebook写入Databricks实例？这些文档记录在哪里？

浏览 28提问于2020-12-18得票数 1

2回答

与数据库连接等效的本地数据库sc.broadcast()

、、

我正在将一些代码从Databricks notebook本地转移到Jupyter notebook。以下在Databricks Notebook中工作的代码不能在本地工作。 res = sc.broadcast(spark.read.table(my_table)) 以下是我的本地代码： from pyspark.sql import SparkSession spark = SparkSession.builder.getOrCreate() res = sc.broadcast(spark.read.table(my_table)) 出现以下错误： -----------------

浏览 49提问于2020-03-18得票数 1

回答已采纳

2回答

Airflow on_success_callback和on_failure_callback不使用data bricks笔记本电脑

、

我想自定义我的DAG，以便在成功或失败时调用datarbicks笔记本。我根据成功/失败案例创建了两个不同的函数来调用databricks notebook。成功或失败回调函数正在调用，但数据库notebook未执行。以下是示例代码。 def task_success_callback(context): """ task_success callback """ context['task_instance'].task_id print("success case") dq_n

浏览 119提问于2021-01-12得票数 1

回答已采纳

1回答

databricks-cli:在bash脚本中运行作业时的JSONDecodeError

、、、

我正在尝试使用Linux服务器上的bash脚本中的notebook参数运行Databricks作业。我正在按照docs的说明进行操作，并且我已经验证了这些命令在终端中是否正常工作。下面是我的脚本： #!/bin/bash ### this commands works in terminal but not when running script databricks jobs run-now --job-id 1 --notebook-params '{"param1":"value1"}' ### this command works

浏览 23提问于2019-05-08得票数 1

1回答

我可以运行Jupyter Notebook而不是Databricks吗？

、、、

是否可以在不调用DB集群的情况下在Jupyter Notebook上运行Databricks中的代码？我知道有一个VScode的应用程序，但我想试试Jupyter Notebook。我想要在我的计算机上运行所有的单元(使用本地处理)，当它完成后，我只需要将它转移到Databricks。这样，我就不会在测试代码上消耗集群。

浏览 11提问于2020-07-14得票数 0

回答已采纳

3回答

如何在数据库笔记本中读取.shp文件

、、

我正在解决一个问题，我需要在地图上绘制输出。在过去，我可以使用geopandas来做到这一点。但是，这在databricks-notebook中不起作用。我试着寻找替代方案，但在网上找不到。我看过的页面：在第二个链接中，它提到我们可以通过scala阅读.shp for，但是它没有提到sc在ShapefileReader.readToGeometryRDD中代表什么？ %scala var spatialRDD = new SpatialRDD[Geometry] spatialRDD = ShapefileReader.readToGeometryRDD(sc, "/ml/b

浏览 35提问于2021-10-28得票数 0

3回答

无法在jupyter笔记本中导入sparkdl

、、、

我正在尝试使用jupyter notebook中的spark deep learning library()。当我尝试在jupyter notebook中“导入sparkdl”时，我得到了错误“找不到模块”。当我在cli中运行以下命令时 pyspark --packages databricks:spark-deep-learning:1.5.0-spark2.4-s_2.11 我可以在spark shell中导入sparkdl并使其正常工作。如何在jupyter notebook中使用这个库？

浏览 0提问于2019-03-27得票数 2

1回答

将数据从Azure Synapse中的Apache Spark写入SQL DW

、

当我从Databricks向Azure中的SQL DW写入数据时，我使用以下代码： example1.write.format("com.databricks.spark.sqldw").option("url", sqlDwUrlSmall).option("dbtable", "SampleTable12").option("forward_spark_azure_storage_credentials","True") .option("tempdir", tempDir).m

浏览 30提问于2021-06-10得票数 1

回答已采纳

1回答

数据库从存储库中的python库导入/复制数据

、、、、

在尝试使用databricks的新repo功能实现解决方案时，我面临着一个小小的挑战。我在一个需要能够使用python和pyspark代码的interdisziplinairy项目中工作。python团队已经构建了一些库，这些库现在也希望被pyspark团队使用(例如预处理等)。我们认为使用新的repo功能将是一个很好的折衷方案，可以轻松地进行协作。因此，我们将python源代码添加到所有库文件中，以便它们可以在数据库中轻松更改(由于##开发尚未完成，代码也将由pyspark团队更改)。不幸的是，在databricks工作区中直接从repo中“导入”库模块时，我们遇到了麻烦。让我用一个简单的

浏览 0提问于2021-04-30得票数 2