在databricks中使用pyspark将多个json文件从blob存储读取到dataframe - 腾讯云开发者社区

pyspark、azure-databricks、azure-log-analytics

我希望将Azure数据从looking导出到存储帐户，并使用PySpark将JSON文件读入Databricks。 Log导出的blob路径包含一个等于(=)号，使用该路径时Databricks抛出和异常。 WorkspaceResourceId=/subscriptions/subscription-id/resourcegroups/<resource-group>/providers/microsoft.operationalinsights/workspaces/<workspace>/y=<four-digit numeric year>/m=&l

浏览 4提问于2021-12-22得票数 -1

1回答

与数据库兼容的Azure文件共享解决方案

azure、blob、databricks、azure-files

我正在工具/服务的Azure生态系统中寻找一个文件共享解决方案。当前的需求是能够从运行在Databricks中的脚本编写数千个文件(每周3-4 000个)，到允许其他几个非技术用户访问的存储解决方案。生成报告的脚本是Python，而不是PySpark，尽管它确实在databricks中运行(在它之前有许多PySpark作业)。存储解决方案必须允许： 1)用Python编写/保存excel和html文件。 2)用户一次查看和下载多个文件(我相信这会破坏Blob存储？) 谢谢!

浏览 0提问于2020-05-21得票数 0

回答已采纳

1回答

Pyspark:从blob存储加载一个zip文件

python、azure、pyspark、databricks

我正在使用Pyspark尝试从blob存储区读取zip文件。我想在加载文件后将其解压缩，然后将解压缩的CSV写回blob存储。我遵循这个指南，它解释了如何解压缩文件一次读：但这并不能解释我是如何从blob中读到拉链的。我有以下代码 file_location = "path_to_my.zip" df = sqlContext.read.format("file_location").load 我希望这样可以以df的形式将zip加载到databricks，然后按照本文的建议解压缩，将csvs加载到dataframe，然后将数据返回到blob。对于如何使用p

浏览 3提问于2020-04-21得票数 1

1回答

数据库中的DataFrame.show()抛出错误

python、pyspark、azure-databricks、azure-sqldw、azure-synapse

我正在尝试使用Azure数据库从Azure数据仓库获取数据。连接部分很好，因为我可以看到在DataFrame中返回的行，但是当我试图在DataFrame中保存或显示记录时，它会引发错误。以下是我尝试过的： df = spark.read \ .format("com.databricks.spark.sqldw") \ .option("url", sqlDwNew) \ .option("tempDir", temDir_location) \ .option("forwardSparkAzureStorageCred

浏览 7提问于2020-08-11得票数 0

回答已采纳

2回答

在数据库上运行时将PySpark标准输出和标准错误日志保存到云对象存储中

python、apache-spark、pyspark、azure-blob-storage、azure-databricks

我正在标准databricks集群上运行我的PySpark数据管道代码。我需要将所有Python/PySpark标准输出和标准错误消息保存到Azure BLOB帐户中的文件中。当我在本地运行Python代码时，我可以看到所有的消息，包括终端中的错误，并将它们保存到日志文件中。对于PySpark数据管道代码，如何使用Databricks和Azure BLOB实现类似的功能呢？这能办到吗？ (非常感谢:)

浏览 14提问于2022-07-05得票数 0

1回答

如何将Spark (在DataBricks中)写入Blob存储(在Azure中)？

pyspark、apache-spark-sql、databricks、azure-blob-storage、azure-databricks

我在DataBricks工作，在那里我有DataFrame。 type(df) Out: pyspark.sql.dataframe.DataFrame 我唯一想要的是，将这个完整的星火数据写入一个中。我找到了的帖子。所以我尝试了那个密码： # Configure blob storage account access key globally spark.conf.set( "fs.azure.account.key.%s.blob.core.windows.net" % storage_name, sas_key) output_container_path

浏览 4提问于2020-03-26得票数 1

回答已采纳

1回答

使用Databricks将文件从Azure Blob存储上传到SFTP位置？

python、scala、azure、pyspark、azure-databricks

我有一个场景，需要将文件从Azure Blob Storage复制到Databricks中的SFTP位置是否有使用pySpark或Scala实现此场景的方法？

浏览 3提问于2020-09-08得票数 1

回答已采纳

2回答

寻找处理从Azure Blob到Azure SQL DB的数以万计JSON的替代解决方案

azure、etl、pipeline、databricks

目前，我已经开发了一些管道，可以利用Azure DataBricks的编排功能和Azure DataBricks来执行以下操作.我在实时的基础上接收数以万计的单个记录json文件到Azure Blob，在15分钟的基础上，我检查文件夹中的任何新文件，一旦发现我使用Databricks将它们加载到dataframe中，并将它们加载到SQL DB中的单个文件中，然后让其他ADF作业触发存储过程，然后将我的数据转换为最终的SQL表.我们希望摆脱Databricks，因为我们并不是为了它的真正功能而使用它，但是我们当然要支付Databricks的费用。寻找关于其他解决方案的想法，以便定期(即15分钟)

浏览 5提问于2020-06-24得票数 1

回答已采纳

1回答

用Azure Synapse分析笔记本将数据写入Azure数据湖存储第二代

apache-spark、pyspark、azure-synapse

我正在使用笔记本连接到一个RESTful api，并将json文件写入2。电火花代码： import requests response = requests.get('https://api.web.com/v1/data.json') data = response.json() from pyspark.sql import * df = spark.read.json(sc.parallelize([data])) from pyspark.sql.types import * account_name = "name of account" cont

浏览 5提问于2021-09-15得票数 6

1回答

如何通过pyspark检查blob是否存在

python、blob、databricks

我试图在databricks上的python代码中抓取一个blob存储文件，如果它存在的话。如何通过pyspark检查是否存在？

浏览 0提问于2019-04-02得票数 0

1回答

使用Pyspark从REST API获取数据到Spark Dataframe

apache-spark、pyspark

我正在构建一个数据管道，它使用json格式的RESTApi数据并推送到Spark Dataframe。Spark版本: 2.4.4 但是得到的错误是 df = SQLContext.jsonRDD(rdd) AttributeError: type object 'SQLContext' has no attribute 'jsonRDD' 代码： from pyspark import SparkConf,SparkContext from pyspark.sql import SparkSession from urllib import urlopen

浏览 27提问于2020-06-24得票数 2

回答已采纳

1回答

将广播变量(databricks)中的数据写入azure blob

python、pyspark、azure-blob-storage、databricks、large-files

我从其中下载了一个url (它是JSON格式的)，使用Databricks： url="https://tortuga-prod-eu.s3-eu-west-1.amazonaws.com/%2FNinetyDays/amzf277698d77514b44" testfile = urllib.request.URLopener() testfile.retrieve(url, "file.gz") with gzip.GzipFile("file.gz", 'r') as fin: json_bytes = fin.read()

浏览 3提问于2022-04-22得票数 0

1回答

火花:火花-csv花了太长时间

csv、apache-spark、pyspark

我正试图使用Databricks DataFrame包和，从EMR集群上的S3上的CSV源创建一个 from pyspark.sql import SQLContext sqlContext = SQLContext(sc) df = sqlContext.read.format('com.databricks.spark.csv').options(header='true').load('s3n://h2o-airlines-unpacked/allyears.csv') df.first() 这不会在4m3.xlarge的集群上终止。我

浏览 0提问于2015-08-28得票数 3

2回答

如何将单元格访问到数据帧中

python、pyspark、apache-spark-sql、pyspark-sql

尝试从DataFrame获取值时出现问题我在Databricks中使用pyspark，我尝试将行数作为一个值来进行一些计算我做了什么： f=sqlContext.sql('SELECT COUNT(*) AS COUNTF FROM SOOMLA') #It´s a dataframe 现在我想将这个数字作为一个值放到DataFrame中进行计算，我已经尝试过了： f['COUNTF'].iloc[0] 但是我得到了： Out[158]: Column<b'COUNTF[iloc][0]'> 我怎样才能得到这个439016392的

浏览 1提问于2019-05-29得票数 0

3回答

如何从Azure Databricks将JSON写入Azure队列

azure、azure-servicebus-queues、azure-databricks

我正在尝试从BLOB读取JSON文件，并将该文件写入Azure队列。读取部分运行良好，但在写入时会抛出错误。我已经尝试了要写入的队列文件夹的URL，作为.save()的参数。下面是我的代码： storage_account_name="mrktmabcdestaaue" storage_account_access_key="myurl==" file_location="wasbs://myfolder@mrktmabcdestaaue.blob.core.windows.net/input.json" file_type="jso

浏览 0提问于2019-10-30得票数 2

1回答

如何使用Azure Databricks和data Factory创建通用的数据转换管道

azure、azure-data-factory、azure-web-app-service、azure-databricks

我需要创建一个GUI来获取一些用户输入，他们也可以从GUI导入CSV文件。导入文件后，我希望使用Azure databricks(pyspark)对该文件进行数据转换，并将转换后的数据存储在某个位置，以便用户可以下载转换后的数据。我想知道如何使它成为一个通用的管道，这样组织中的任何人都可以上传他们的文件(它可以有不同的列和数据类型)，databricks执行转换并存储结果。对于所有这些活动，我希望利用Azure平台。

浏览 30提问于2020-08-28得票数 0

1回答

为什么Azure数据库需要在Azure中的临时存储中存储数据

azure-databricks、azure-synapse

我学习了关于用azure databricks进行数据转换的教程，它说在将数据加载到蔚蓝突触分析中之前，由azure databricks转换的数据在加载到蔚蓝突触分析之前先保存在azure blob存储中的临时存储中。为什么需要在加载到蓝突触分析之前将其保存到临时存储中？

浏览 5提问于2020-08-01得票数 2

回答已采纳

1回答

在木星笔记本中使用PySpark读取XML

python、xml、apache-spark、pyspark

我试图读取XML文件：df = spark.read.format('com.databricks.spark.xml').load('/path/to/my.xml')并获得以下错误： java.lang.ClassNotFoundException: Failed to find data source: com.databricks.spark.xml 我试过：使用 $spark_HOME/bin/spark shell-软件包com.databricks:spark-xml_2.12:0.10.0 配置为：set jar_path = f'{S

浏览 2提问于2020-09-18得票数 2

1回答

使用Synapse Analytics将数据写入SQL专用数据库

pyspark、apache-spark-sql、azure-synapse

我想从Azure dataframe Gen2中加载一个数据文件，并将其写入我在Synapse中创建的一个专用数据库中。我就是这样做的： df = spark.read.format("delta").load(BronzePath) df.write.format("com.databricks.spark.sqldw").option("url", jdbcUrl).save() 我有以下错误： java.lang.ClassNotFoundException: Failed to find data source: com.databri

浏览 0提问于2021-10-26得票数 2

回答已采纳

1回答

如何将.html文件从增量位置复制到Databricks中的blob存储

python、apache-spark、azure-blob-storage、databricks、azure-databricks

我需要将文件从delta位置移到blob存储中，如果可以在databricks中显示相同的html文件，那就太好了。如何在databricks中显示存储在增量位置的HTML内容？

浏览 17提问于2022-08-26得票数 0

回答已采纳

2回答

Databricks dbutils未显示特定文件夹下的文件夹列表

python、databricks、azure-databricks

浏览 4提问于2021-12-24得票数 3

回答已采纳

2回答

Azure Blob存储和Azure数据库之间的高效数据检索过程

azure、pyspark、azure-blob-storage、databricks、azure-databricks

我正在设计一个新的数据景观，目前正在开发我的概念证明。在这里，我使用以下架构: Azure functions --> Azure event hub --> Azure Blob storage --> Azure factory --> Azure databricks --> Azure SQL server。目前我正在努力的是关于如何优化“数据检索”来支持我在Azure Databricks上的ETL进程的想法。我正在通过前面的通道处理按分钟汇总到Azure blob存储的事务性工厂数据。因此，我每天有86000个文件需要处理。实际上，这需要处理大量

浏览 24提问于2021-05-10得票数 1

回答已采纳

4回答

Databricks删除增量表？

databricks、delta-lake

如何在Databricks中删除增量表？我在文档里找不到任何信息...也许唯一的解决方案是使用魔术命令或dbutils删除文件夹‘delta`中的文件： %fs rm -r delta/mytable? 编辑：为了清楚起见，我在这里举了一个非常基本的例子。示例： #create dataframe... from pyspark.sql.types import * cSchema = StructType([StructField("items", StringType())\ ,StructField("numbe

浏览 93提问于2019-11-22得票数 8

回答已采纳

1回答

JDBC databricks到databricks连接

python、jdbc、pyspark、databricks、azure-databricks

我希望从一个不同的databricks实例连接到一个databricks实例中的一个增量湖。我已经从downloads 下载了sparksimba jar。当我使用以下代码时： result = spark.read.format("jdbc").option('user', 'token').option('password', <password>).option('query', query).option("url", <url>).option('drive

浏览 0提问于2021-07-13得票数 1

1回答

无法从azure blob存储容器中读取xlsx文件到pyspark数据帧

apache-spark、pyspark、azure-blob-storage、databricks、azure-databricks

我正在尝试将数据从Azure存储容器加载到Azure Databricks中的Pyspark数据框架。当我读取txt或CSV文件时，它正在工作。但是，当我试图读取.xlsx文件时，我会得到以下问题。 ApacheSpark3.2.0，Scala2.12 下面是我正在执行的步骤 spark.conf.set("fs.azure.account.key.teststorage.blob.core.windows.net", "**********************") 它起作用了 df = spark.read.format("csv").op

浏览 11提问于2022-05-12得票数 0

1回答

通过databricks列出azure存储帐户中的所有容器

azure、azure-blob-storage、databricks、azure-databricks

我想动态地从databricks获得azure订阅中的所有存储帐户和容器。因此，我可以在容器中查看每个文件，并获得文件及其大小，就像我前面所做的那样。现在，我希望动态地将我的存储帐户和容器设置为从databricks环境中处理。

浏览 8提问于2021-12-20得票数 2

回答已采纳

3回答

在将运行时7.3LTS(Spark3.0.1)升级到9.1LTS(Spark3.1.2)后创建PySpark数据库时json文件中的重复列抛出错误

json、apache-spark、pyspark、databricks、delta-lake

问题陈述:在升级Databricks运行时版本时，复制列在创建dataframe时抛出错误。在较低的运行时，会创建dataframe，并且由于下游不需要重复列，因此它只是在select中被排除在外。文件位置:存储在ADLS Gen2 (Azure)上的Json文件。集群模式:标准代码:我们在中阅读它，如下所示。 intermediate_df = spark.read.option("multiline","true").json(f"{path}/IN-109418_Part_1.json") json文件是嵌套的，其中一个是tags，它是

浏览 1提问于2021-11-16得票数 2

回答已采纳

1回答

将spark ML模型保存在azure blobs中

azure、pyspark、azure-blob-storage、databricks

我尝试将pyspark中的机器学习模型保存到azure blob。但这给出了错误。 lr.save('wasbs:///user/remoteuser/models/') Illegal Argument Exception: Cannot initialize WASB file system, URI authority not recognized.' 也试过了， m = lr.save('wasbs://'+container_name+'@'+storage_account_name+'.blob.core.windo

浏览 0提问于2018-10-08得票数 3

1回答

Azure数据库中的ML Spark作业

azure、azure-hdinsight、azure-databricks

目前我们在Azure HDInsight集群中使用ML pyspark作业(版本:HDI3.6)。有没有可能在Azure Databricks中使用相同的pyspark作业而不做太多更改？提前感谢！

浏览 0提问于2019-02-22得票数 0

1回答

如何从pyspark dataframe中更快地保存csv文件？

python、apache-spark、hadoop、pyspark

我目前在本地的windows10系统上使用pyspark。pyspark代码运行得相当快，但将pyspark数据帧保存为csv格式需要花费大量时间。我正在将pyspark数据帧转换为pandas，然后将其保存到csv文件中。我还尝试使用write方法来保存csv文件。 Full_data.toPandas().to_csv("Level 1 - {} Hourly Avg Data.csv".format(yr), index=False) Full_data.repartition(1).write.format('com.databricks.spark.

浏览 126提问于2019-08-01得票数 5

1回答

将Azure存储中的多个json文件读入Python数据

python、azure-blob-storage、azure-storage

我正在使用下面的代码将json文件从Azure存储读入Python中的dataframe。 from azure.storage.blob import BlobServiceClient, BlobClient, ContainerClient import json import json import pandas as pd from pandas import DataFrame from datetime import datetime import uuid filename = "raw/filename.json" container_name="

浏览 1提问于2022-07-13得票数 0

回答已采纳

2回答

各种火花操作的索引超出界限

azure、pyspark、apache-spark-sql、azure-databricks

我正在研究一些数据(~200 on )，使用spark在蔚蓝数据库中使用。我能够读取数据集(从blob存储)并以各种方式修改它。然而，每次我试图存储它，无论是通过.saveAsTable()或.csv()等，我都会得到这个错误。在使用.select() (和其他各种函数)时，我也得到了它，如堆栈跟踪中所示。任何关于哪里可能出错的建议，我们都会非常感激！注意到我不是火花，天蓝色或巨蟒专家，所以越明确越好:) 编辑代码返回此错误的示例：示例1 df=spark.read.csv(f"wasbs://{container}@{storage_account_name}.blob.cor

浏览 10提问于2022-08-08得票数 0

回答已采纳

2回答

将Python编写到Azure中

python、azure、azure-storage、azure-blob-storage

关于从Azure blob存储读取和写入Python对象，我有两个问题。有人能告诉我如何将Python数据作为csv文件直接写入Azure Blob而不需要在本地存储它吗？我试着使用create_blob_from_text和create_blob_from_stream函数，但它们都不起作用。将dataframe转换为string并使用create_blob_from_text函数将文件写入blob，但作为普通字符串而不是csv。 block_blob_service.create_blob_from_text('test'，'OutFilePy.csv&#

浏览 5提问于2018-04-25得票数 14

回答已采纳

1回答

如何在databricks中使用pyspark将所有行数据从spark dataframe获取到文件

python、pyspark、apache-spark-sql、azure-databricks

我正在尝试从spark dataframe中获取所有行数据到databricks中的一个文件中。我能够用很少的计数将df数据写到文件中。假设我在df中得到的计数是100，那么在文件中它的计数是50，所以它跳过了data.How。我可以在不跳过数据的情况下，将完成的数据从dataframe加载到文件中。我已经创建了一个udf，udf将打开文件并将数据附加到其中。我在spark sql df中调用了该udf。有人能在这个问题上帮我吗？

浏览 1提问于2020-09-30得票数 0

2回答

将Pyspark的Dataframe转换为scala数据帧

python、azure、scala、dataframe、databricks

在Databricks下，我使用此命令从Python Dataframe创建dataframe %python wordsDF = sqlContext.createDataFrame(pandasDF). 我想将数据发送回Azure Datalake Gen2，并且我想使用Scala dataframe。如何从Pyspark返回/转换Dataframe到scala Dataframe？ ?

浏览 36提问于2021-10-05得票数 0

1回答

当将数据文件导出到csv或txt文件时，Pyspark为什么需要类型file？

python、apache-spark、pyspark、databricks

在社区版的Databricks中，我使用Python2.7和Spark2.2.1。我有一个Pyspark数据格式"top100m"： In: type(movie_ratings_top100m) Out: pyspark.sql.dataframe.DataFrame 其中有3个数字类型列： In: top100m.printSchema() Out: root |-- userId: long (nullable = true) |-- itemId: long (nullable = true) |-- userPref: double (nullable = tr

浏览 0提问于2018-03-27得票数 1

回答已采纳

1回答

如何使用pyspark和/或databricks实用程序在S3目录中创建文件名列表

python、amazon-s3、pyspark、databricks

我需要将文件从一个S3存储桶目录移动到另外两个存储桶目录。我必须在Databricks笔记本上执行此操作。如果该文件有json扩展名，我将移动到jsonDir。否则，我会搬到otherDir去。大概我会用pyspark和databrick utils (dbutils)来做这件事。我不知道S3存储桶的名称，只知道它的相对路径(称之为MYPATH)。例如，我可以这样做： dbutils.fs.ls(MYPATH) 它列出了S3目录中的所有文件。不幸的是，使用dbutils，您可以一次移动一个文件或移动所有文件(没有通配符)。我的程序的主要部分是： for file in fileList:

浏览 21提问于2021-10-08得票数 0

回答已采纳

1回答

为什么从databricks火花记事本( hadoop fileUtils)到DBFS挂载位置的写入速度比写入DBFS根位置慢13倍？

apache-spark、hadoop、databricks、azure-databricks

Databricks笔记本需要2个小时才能写到/dbfs/mnt (blob存储)。同样的工作需要8分钟才能写入/dbfs/FileStore。我想了解为什么在这两种情况下写性能是不同的。我还想知道/dbfs/FileStor使用哪个后端存储？我知道DBFS是可伸缩对象存储之上的一个抽象。在这种情况下，对于/dbfs/mnt/ and存储和/dbfs/FileStore/都需要相同的时间。问题陈述：源文件格式：.tar.gz Avg尺寸: 10 mb tar.gz文件数:1000个每个tar.gz文件包含大约20000个csv文件。要求:解压tar.gz文件，并将tar.gz文件写

浏览 7提问于2022-04-22得票数 1

回答已采纳

2回答

如何使用Spark从本地驱动程序节点读取csv文件？

csv、apache-spark、pyspark

我不得不将文件从Amazon解压缩到我的驱动程序节点( S3集群)，我需要将所有这些csv文件作为加载，但是当我试图从驱动程序节点加载数据时，我发现了下一个问题： PySpark： df = self.spark.read.format("csv").option("header", True).load("file:/databricks/driver/*.csv") ‘路径不存在:文件:/文件夹/*..csv’ 我尝试使用dbutils.fs.mv()将所有这些文件移动到dbfs，但是我运行的是一个Python，我不能使用dbutils()

浏览 1提问于2019-10-24得票数 1

6回答

如何在Pyspark中定义一个空的dataframe并将其附加到相应的dataframe？

pyspark、pyspark-sql

所以我想从一个目录中读取csv文件，作为pyspark dataframe，然后将它们附加到单个dataframe中。而不是像我们在熊猫身上做的那样，在pyspark中得到替代方案。例如，在熊猫中，我们这样做： files=glob.glob(path +'*.csv') df=pd.DataFrame() for f in files: dff=pd.read_csv(f,delimiter=',') df.append(dff) 在Pyspark中，我已经尝试过了，但没有成功 schema=StructType([]) union_d

浏览 5提问于2017-04-10得票数 11

1回答

流式作业失败-状态架构不兼容问题

apache-spark-sql、spark-structured-streaming

我的流作业现在失败了，错误如下，流作业几乎工作了2个月，而且它是完全无状态的转换，只需要将新行追加到目标增量表中。在流式传输之前，我手动提供了csv文件的模式，甚至验证了流式作业模式和下游表模式都与数据类型完全匹配。不确定，为什么即使在无状态转换中，我也会得到下面的错误。任何帮助都将不胜感激。 File "/databricks/spark/python/lib/py4j-0.10.9-src.zip/py4j/java_gateway.py", line 2442, in _call_proxy return_value = getattr(self.pool[obj_id

浏览 2提问于2021-06-11得票数 1

2回答

将Spark (pyspark.pandas.Dataframe)从Azure DataBricks导出到Excel文件

python、pandas、azure、pyspark、databricks

我很难将一个pyspark.pandas.Dataframe导出到一个Excel文件。我正在开发一个笔记本电脑。我的目标是从Azure容器中读取csv文件，并将其存储为另一个ADLS容器上的Excel文件。我发现很多与性能和方法有关的困难。pyspark.pandas.Dataframe有一个内置的to_excel方法，但是当文件大于50 to时，命令在1小时后出现超时错误(似乎是众所周知的)。下面可以找到一个代码示例。最后将文件保存在DBFS上(集成to_excel方法与Azure仍然存在问题)，然后将文件移到ADLS。 import pyspark.pandas as ps spar

浏览 13提问于2022-09-14得票数 0

回答已采纳

1回答

将Azure Blob存储中的应变数据读入数据库

python、azure、azure-blob-storage、azure-databricks

我试图从databricks中的blob存储中读取文件，通过dataframe进行一些计算，并在cassandra上编写dataframe。目前文件是附加blob类型的存储，因此，就像文档页中所说的那样，我不能在DBFS中挂载这些文件。在本地机器上工作时，我可以通过用于Python的Azure Storage下载它，但是如果我试图在databricks上做同样的事情，我会避免以下错误：无法流下载：(“连接中断: ConnectionResetError(104，由对等方重置)”，ConnectionResetError(104，“对等方重置连接”) 我正在运行的代码如下 file_dir

浏览 6提问于2022-10-21得票数 0

1回答

使用Databricks将Google的结果写入一个数据湖

python、apache-spark、azure-data-lake、databricks、google-api-python-client

我正在通过Databricks上的Python从获得用户使用数据。数据大小约为每天100 000条记录，这是我通过一个批处理的晚上做的。api返回的最大页面大小为1000，因此我将其命名为1000，以获得当天所需的数据。这很好用。我的最终目标是将数据以其原始格式存储在一个数据湖中(Azure Gen2，但与这个问题无关)。稍后，我将使用Databricks将数据转换为聚合报告模型，并将PowerBI放在上面，跟踪Google的使用情况。作为一名C#程序员，我对Python很陌生:我目前的方法是从api请求1000个记录的第一页，然后将它直接作为JSON文件写入datalake，然后获取下一

浏览 0提问于2019-04-11得票数 2

回答已采纳

2回答

使用Pyspark将XML转换为Dataframe

python、xml、pyspark、databricks

我正在尝试废弃一个XML文件，并从XML文件上的标签创建一个数据帧。我使用pyspark开发Databricks。 XML文件： <?xml version="1.0" encoding="UTF-8"?> <note> <shorttitle>shorttitle_1</shorttitle> <shorttitle>shorttitle_2</shorttitle> <shorttitle>shorttitle_3</shorttitle> <

浏览 2提问于2018-09-12得票数 2

1回答

读取DataBricks笔记本中的行值

azure-databricks

我有一个Databricks python笔记本，可以从DBFS上的JSON文件中读取ADL配置。我可以很好地读取该文件，并且生成的DF显示了具有以下模式的值。 testJsonData:pyspark.sql.dataframe.DataFrame clientId:string oauth2Credential:string oauth2RefreshUrl:string providerType:string 我在读取特定行值时遇到了挑战。我正在获取一个row对象，但是没有给出row的值。 testJsonData.select('clientId').collect

浏览 21提问于2019-03-04得票数 0

回答已采纳

2回答

从Azure存储资源管理器读取databricks中的zip文件

pyspark、azure-storage、unzip、zip、azure-databricks

我想读取具有csv文件的zip文件。我尝试过许多方法，但没有成功。在我的例子中，我应该读取文件的路径在中。例如，当我必须在databricks中读取csv时，我使用以下代码： dfDemandaBilletesCmbinad = spark.read.csv("/mnt/data/myCSVfile.csv", header=True) 所以，我想要的Azure存储路径是"/mnt/data/myZipFile.zip"，里面有一些csv文件。是否可以通过databricks中的pySpark从Azure存储读取csv文件？

浏览 4提问于2021-05-04得票数 0

1回答

将PySpark模型保存到Blob存储时出错

apache-spark、pyspark、databricks、azure-databricks

这是我用来将我的Pyspark模型保存到Azure blob存储的代码。我能够连接到blob，并从Spark中查看其中的现有文件。model.write().overwrite().save("wasbs://containername@blobname.blob.core.windows.net/model.model") Caused by: shaded.databricks.org.apache.hadoop.fs.azure.AzureException: Uploads to to public accounts using anonymous access is

浏览 1提问于2020-06-19得票数 0

1回答

org.apache.hadoop.security.ProviderUtils.excludeIncompatibleCredentialProviders :从Azure Blob存储读取时的java.lang.NoSuchMethodError

azure、apache-spark、pyspark、azure-storage-account

我正在尝试读取存储在Azure存储帐户中的CSV文件。为此，我已经在我的虚拟机上安装了一个spark，并试图从pyspark读取dataframe中的CSV文件。我在某个地方读到了如何做到这一点，我遵循这些步骤，在我的/jar目录中复制了最新的hadoop&azure存储JAR文件。然后，我想出了一个错误： NoClassDefFoundError: org/apache/hadoop/fs/StreamCapabilities 我搜索了这个错误，发现我需要引用hadoop-azure-2.8.5.jar，而不是最新的。因此，我用最新的hadoop-azure JAR替换了这个j

浏览 6提问于2020-08-26得票数 0

回答已采纳

2回答

我怎么能从Azure Blob存储中读到却没有写到它上呢？

python、azure-blob-storage、azure-databricks

我的头撞到墙上，因为我只是不能写一个地板文件到一个Azure Blob存储。在我的笔记本上，我基本上是: 1.读取与dataframe相同的blob存储中的CSV；2.尝试将数据写入同一个存储。我能够读取CSV，但当我试图编写拼花文件时，出现了这个错误。下面是堆栈跟踪：工作因阶段失败而中止:第8.0阶段的任务0失败4次，最近的失败:第8.0阶段的任务0.3失败(TID 20，10.139.64.5，执行器0)：shaded.databricks.org.apache.hadoop.fs.azure.AzureException: java.io.IOException at shade

浏览 0提问于2019-07-30得票数 0