如何在Databricks pyspark notebook中包含额外的库/包？_如何在R包描述的Remotes字段中包含包含空格的本地存储库？ - 腾讯云开发者社区

、

我们经常需要在pyspark中导入一些额外的库，Databricks为练习pyspark提供了一个很好的环境，但是，在那里安装所需的库是可能的吗？如果是，如何？或者，是否有使用非内置库/包的变通方法？谢谢。

浏览 21提问于2020-02-01得票数 0

回答已采纳

4回答

如何在pyspark中加载databricks包dbutils

、

我试着用pyspark运行下面的代码。call last): NameError: name 'dbutils' is not defined 那么，有没有办法通过包含databricks包来在pyspark中运行它，就像导入一样？感谢您的帮助

浏览 13提问于2018-08-17得票数 7

2回答

如何在IPython笔记本中加载jar依赖项

、、、

鼓励我尝试使用spark-csv来读取PySpark中的.csv文件。我发现有几篇文章描述了如何使用，比如ipython notebook --profile=pysparkipython notebook --profile=pyspark --packages c

浏览 1提问于2015-11-25得票数 8

2回答

我想使用databricks-connect直接从VS code中编码和运行/测试所有东西，以避免与Databricks web IDE打交道。对于基本的笔记本，它工作得很好，但我想对多个笔记本做同样的事情，并使用导入(例如，在另一个笔记本中使用import config-notebook )。然而，在VS代码中，import another-notebook工作得很好，但在数据库中却不起作用。据我所知，<

浏览 45提问于2021-10-19得票数 1

3回答

无法在jupyter笔记本中导入sparkdl

、、、

我正在尝试使用jupyter notebook中的spark deep learning library()。当我尝试在jupyter notebook中“导入sparkdl”时，我得到了错误“找不到模块”。当我在cli中运行以下命令时我可以在spark shell如何在jupyter <e

浏览 0提问于2019-03-27得票数 2

1回答

如何在数据库中执行Legacy Scala代码库

、、

我有许多遗留scala包/代码库，需要迁移到Databricks。目前，这些scala包被转换为jar文件，这些jar文件从shell脚本中调用。我可以在Databricks中运行scala，但是如何在pyspark中调用包文件/ scala代码库呢？这有可能吗?如果是的话，我该怎么做？

浏览 4提问于2022-09-22得票数 1

1回答

访问导入到databricks notebook的自定义python包中的databricks密钥

、、

我们有一个托管在私有bitbucket存储库上的自定义python包，它可以通过%pip install git+https//...安装在任何databricks笔记本电脑上。当函数在本地运行时，这是通过配置文件处理的，但如果函数在databricks上运行，我们希望将这些凭据存储在databricks secret (作用域)中。然而，尝试做一些像这样的事情 from pyspark.cont

浏览 22提问于2021-04-14得票数 0

2回答

如何与PySpark、SparkSQL和Cassandra合作？

、、、

我有点困惑于不同的演员在这个故事: PySpark，SparkSQL，卡桑德拉和火星雨-卡桑德拉连接器。显然，没有SparkSQL是绝对没有理由工作的，特别是如果连接到卡桑德拉。.cc.setKeyspace("mykeyspace") val dataframe = cc.sql("SELECT count(*) FROM

浏览 7提问于2016-02-28得票数 1

1回答

数据库从存储库中的python库导入/复制数据

、、、、

在尝试使用databricks的新repo功能实现解决方案时，我面临着一个小小的挑战。我在一个需要能够使用python和pyspark代码的interdisziplinairy项目中工作。python团队已经构建了一些库，这些库现在也希望被pyspark团队使用(例如预处理等)。我们认为使用新的repo功能将是一个很好的折衷方案，可以轻松地进行协作。因此，我们将python源代码添加到所有库文件<e

浏览 0提问于2021-04-30得票数 2

1回答

使用databricks-连接调试运行其他笔记本的笔记本

、、、

我能够使用visual studio代码从我的Linux Centos VM连接到Azure Databricks集群。下面的代码甚至可以毫无问题地运行 from pyspark.sql import SparkSession print因为%run字符串是注释的，所以# python没有执行它。因此，我尝试包含dbutils.notebook.run('pathofnotebook&#x

浏览 34提问于2021-10-07得票数 3

回答已采纳

3回答

在Pyspark中添加python外部库

、

我使用的是pyspark (1.6)，我想使用databricks:spark-csv库。为此，我尝试了不同的方法，但都没有成功pyspark --jars THE_NAME_OF_THE_JAR df = sqlContext.read.formatorg.apache.spark.sql.execution.datasources.ResolvedDataSource$.lookupDataSource(ResolvedDa

浏览 1提问于2017-05-19得票数 2

1回答

加载程序集时出现的U- SQL问题

、、

我正在尝试对Json的文件执行一些操作，为此在简单的Json上运行一个测试。我得到了错误，不能理解是什么问题。 // A."endOffset": 644 ] } I already register the assemblies to my account 这是Json文件的简单内容

浏览 14提问于2021-08-12得票数 0

1回答

如何使用Mobius在数据库中调用notebook或从C#运行作业？

、、、

我是Databricks.Is新手，有没有可能从C#发送通过API (如Mobius)的代码来在数据库中运行作业？你能给我一些代码示例吗？例如，如果我想在notebook中运行一些包含NoSql代码的作业。谢谢。

浏览 16提问于2019-03-13得票数 1

1回答

数据库访问本地笔记本

我在Databricks上创建了一些笔记本，我想访问它们。

浏览 6提问于2021-04-13得票数 1

回答已采纳

1回答

Pytest在Databricks repo中运行时不输出junitxml

、、

我们有一个数据库平台，其中的repos和文件在repos中被启用。因此，我们可以在repos中包含.py文件，这些文件可以由Databricks笔记本调用。我们目前正在测试在Databricks集群上运行单元测试的可行性，而不是在Git / CI环境中使用(PySpark)映像。Databricks中的回购看起来像| - mycode.py |

浏览 1提问于2022-06-29得票数 0

1回答

Spark Databricks本地文件API

、、、、

我正在尝试构建在spark DataBricks中完成的处理的摘要/报告。我遇到了下面的一段代码，它允许将数据写入dbfs和ADLS(通过挂载点)，但当我将代码打包到jar中并尝试将其作为DataBricks作业执行时，问题出现了，我得到了文件未找到异常，现在想知道如何在不使用notebooks的情况下将数据写入存储。writer.close() 我偶然发现了来自DataBricks的DButils，但还没

浏览 0提问于2019-11-27得票数 0

1回答

使用Airflow使用PySpark代码执行Databricks笔记本

、、、

我使用的是气流、数据库和PySpark。我想知道，当我想通过气流执行Databricks笔记本时，是否可以添加更多的参数。if __name__== "__main__":我想要定义运行有更多params的Databricks笔记本的其他任务参数，我想添加方法的名称和这些方法的参数例如，当我想在气流中的DAG中注册

浏览 0提问于2019-06-25得票数 2

回答已采纳

2回答

如何使用pyspark将blob字符串转换为文件

、、、、

我有一个pyspark笔记本，我正在阅读azure event-hub消息，其中一个字段是一个字符串，它是oracle数据库中的blob字段和文件。我正在尝试将字符串转换为文件、二进制文件，然后写入azure中的blob存储，但我不能这样做。如何将字符串转换为文件？

浏览 0提问于2019-08-26得票数 0

1回答

如何在数据库运行时更新库？

、、、

我有一些代码片段需要使用比Databricks运行时版本中当前提供的版本更高的库版本来运行。我有一个由mlflow记录的外部文件，其中包含运行某些代码所需的Python库和版本的集合，我需要确保在运行Databricks笔记本中的单元之前正确安装这些库。我知道，只需在单元格中执行%pip install就可以升级到所需的

浏览 2提问于2022-05-25得票数 1

1回答

用Pyspark内核读取Jupyter notebook中的Spark Avro文件

、、

当我转到我的目录并执行以下操作时但是，我不想在每次打开pyspark笔记本时都给包下命令。例如，如果我必须使用Spark-csv包，我就会这样做在终端中，它打开了一个jupyter笔记本电脑与火花-csv封装。我不需要特别为spark-csv给出包命令。我已经在配

浏览 10提问于2017-02-07得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云