希望你们都做得很好。
我们目前正在探索在DataBricks中使用PySpark加载SQL Server表的方法。我们有不同的来源,包括文件和表格。我们使用python作为基础,因为它更容易与其他现有的代码库链接。
问题01:
建议我们使用Spark Connector连接到SQL Server (本地和云)?
https://docs.microsoft.com/en-us/azure/sql-database/sql-database-spark-connector
上面来自MS的链接清楚地表明Scala是一个依赖项。上面的连接器可以只与Scala一起使用吗?它也可以和Python一起使用吗?如果是这样,我们如何调用其中的驱动程序和方法。
问题2:
在python代码中包含/导入/访问库、JAR文件中的驱动程序或其他Maven库的最佳方式是什么?在python中,我们通常有一个模块,我们可以从中导入所需的库。假设我们使用Maven坐标和其他独立JAR在Databricks中安装了几个库,如何在Python脚本中访问它们。
我希望上面的细节是足够的。我提前感谢你们所有人的帮助和建议。干杯..。
发布于 2020-05-02 04:49:08
看起来有人找到了解决方案,但没有Databricks上下文。请参阅下面的堆栈溢出帖子:How to use azure-sqldb-spark connector in pyspark
在此期间,请您对以下UserVoice功能请求进行投票和评论:Implement python bindings for azure-sqldb-spark connector目前正在审查中。
有关目前支持的内容,请参阅Alberto对以下Srack Overflow帖子的回答:How to connect Azure SQL Database with Azure Databricks
https://stackoverflow.com/questions/61145417
复制相似问题