我正在努力学习星火,数据库和Azure。
我正在尝试使用Pyspark从Databricks访问GEN2。我找不到合适的方法,我相信这很简单,但我失败了。
目前,我每次收到以下信息:
Unable to access container {name} in account {name} using anonymous
credentials, and no credentials found for them in the configuration.我已经运行了GEN2 +,我有一个SAS_URI要访问。
到目前为止,我尝试的是:(基于这个链接:https://learn.microsoft.com/pl-pl/azure/databricks/data/data-sources/azure/adls-gen2/azure-datalake-gen2-sas-access):
spark.conf.set(f"fs.azure.account.auth.type.{STORAGE_ACCOUNT_NAME}.dfs.core.windows.net", {SAS_URI})
spark.conf.set(f"fs.azure.sas.token.provider.type.{STORAGE_ACCOUNT_NAME}.dfs.core.windows.net", {SAS_URI})然后接触到数据:
sd_xxx = spark.read.parquet(f"wasbs://{CONTAINER_NAME}@{STORAGE_ACCOUNT_NAME}.dfs.core.windows.net/{proper_path_to_files/}")发布于 2021-10-05 13:51:03
您的配置不正确。第一个参数应该设置为SAS值,而第二个参数是返回SAS令牌的Scala/Java类的名称,您不能只使用带有SAS信息的URI,您需要实现一些自定义代码。
如果您想使用wasbs协议访问Azure博客存储,虽然它可以用于访问ADLS Gen2 (不建议使用),但是您需要使用blob.core.windows.net而不是dfs.core.windows.net,并且还需要设置纠正Azure Blob访问的火花属性。
发布于 2021-10-05 13:56:24
下面的更常见的过程是:使用带有Azure服务主体的Azure 2.0访问Azure数据湖存储Gen2
https://stackoverflow.com/questions/69447499
复制相似问题