腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
使用
PySpark
从
Blob
存储
容器
加载
CSV
文件
csv
、
apache-spark
、
pyspark
、
azure-blob-storage
我无法
使用
Jupyter Notebook中的
PySpark
将
CSV
文件
从
Azure
Blob
Storage直接
加载
到RDD中。我知道我也可以
使用
Pandas将数据
加载
到Notebook中,但之后我需要将Panda DF转换为RDD。 我理想的解决方案应该是这样的,但是这个特定的代码给我的错误是它不能推断出
CSV
的模式。#Load Data source = <
Blob
SAS URL>
浏览 21
提问于2019-04-28
得票数 0
1
回答
Pyspark
:
从
blob
存储
加载
一个zip
文件
python
、
azure
、
pyspark
、
databricks
我正在
使用
Pyspark
尝试
从
blob
存储
区读取zip
文件
。我想在
加载
文件
后将其解压缩,然后将解压缩的
CSV
写回
blob
存储
。我遵循这个指南,它解释了如何解压缩
文件
一次读:df = sqlContext.read.
浏览 3
提问于2020-04-21
得票数 1
1
回答
将json
文件
从
databricks移动到
blob
存储
json
、
pyspark
、
pyspark-sql
、
databricks
、
azure-databricks
我已经在databricks中创建了一个挂载,它连接到我的
blob
存储
,并且我能够
使用
笔记本
从
blob
读取
文件
到databricks。然后,我
使用
pyspark
将.txt转换为json格式,现在我想将其
加载
回
blob
存储
。有人知道我会怎么做吗?我可以
使用
以下命令将
csv
文件
从
databricks
加载
到
b
浏览 3
提问于2020-03-24
得票数 0
1
回答
:后端无法获得路径/mnt的会话令牌。您是否删除了挂载点的AWS键?
azure
、
databricks
、
aws-databricks
、
spark-bash-azure-databricks
我正在尝试将Azure
Blob
存储
容器
安装到DBFS。执行情况如下。低于以下错误。不知道为什么我会收到一个错误,,当我试图连接到蔚蓝
blob
存储
时,您是否删除了挂载点的键。代码实现 source = "wasbs://<container-name>@<storage-account-name>.
blob
.core.windows.net<storage
浏览 7
提问于2021-08-24
得票数 0
1
回答
将
csv
文件
写入azure
blob
存储
区
azure
、
pyspark
、
blob
我正在尝试
使用
pyspark
来分析databricks笔记本上的数据。
Blob
存储
已经安装在databricks集群上,经过分析后,希望将
csv
写回
blob
存储
。由于火花放电以分布式方式工作,
csv
文件
被分解成小块并写入
blob
存储
。如何克服这一问题,并在
blob
上编写一个
csv
文件
,当我们
使用
pyspark
进
浏览 1
提问于2019-08-23
得票数 0
回答已采纳
1
回答
如何
使用
逻辑应用程序
从
azure
blob
和ingest端点获取
csv
文件
到Azure事件集线器?
azure
、
azure-logic-apps
、
azure-eventhub
、
azure-eventgrid
我有许多
CSV
文件
存储
在Azure
blob
存储
容器
中,我需要
使用
azure逻辑应用程序将这些
文件
从
azure
blob
存储
并转储到azure事件中心。设想方案: 如果将任何新的
CSV
文件
添加到
存储
容器
中,则只应从
blob
中获取该新
文件
并将其推送到事件中心。如果更新了任何旧
文件</
浏览 0
提问于2020-11-27
得票数 0
1
回答
Azure Data Factory-数据流-完成后-移动
azure
、
azure-sql-database
、
azure-blob-storage
、
azure-data-factory-2
、
azure-data-flow
我正在
使用
ADF v2 DataFlow ativity将数据
从
Blob
存储
中的
csv
文件
加载
到Azure SQL数据库的表中。在数据流(Source -
Blob
存储
)的Source options中,有一个选项'After Completion(No Action/Delete Source file/ Move)‘。我希望利用move选项将这些
csv
文件
保存在一个
浏览 1
提问于2021-01-25
得票数 0
2
回答
用python数据砖对天蓝色数据工厂的数据进行转换
python
、
azure
、
azure-data-factory-2
我的任务是将数百万个JSON
文件
转换成大
CSV
文件
。
浏览 1
提问于2019-06-25
得票数 0
回答已采纳
1
回答
在Azure
Blob
存储
中覆盖后如何命名
csv
文件
azure
、
csv
、
pyspark
、
databricks
我
使用
Databricks notebook将
文件
读写到相同的位置。但是当我写入
文件
时,我得到了很多不同名称的
文件
。如下所示: ? 我不确定为什么在我指定的位置创建这些
文件
。另外,在我执行写操作之后,还创建了另一个名为"new_location“的
文件
? 我想要的是在从Azure
Blob
存储
中读取
文件
后,我应该将该
文件
以与原始
文件
相同的名称写入相同的位置。请帮帮我,因为
浏览 26
提问于2021-09-30
得票数 1
回答已采纳
1
回答
仅将最新
文件
数据
加载
到Azure SQL数据仓库
azure
、
polybase
、
sql-data-warehouse
Step#1:我们应该将
CSV
文件
从
本地
文件
服务器复制到Azure
Blob
Storage (比如说-
Blob
Storage中的“Staging”
容器
)。每次
从
本地
文件
服务器
加载
到Azure
Blob
时,我们都会维护相同的
文件
名(与Staging DB表同步)。我们在将数据
从
blob
存储
加载
到Azure数
浏览 4
提问于2018-04-17
得票数 1
1
回答
org.apache.hadoop.security.ProviderUtils.excludeIncompatibleCredentialProviders :
从
Azure
Blob
存储
读取时的java.lang.NoSuchMethodError
azure
、
apache-spark
、
pyspark
、
azure-storage-account
我正在尝试读取
存储
在Azure
存储
帐户中的
CSV
文件
。为此,我已经在我的虚拟机上安装了一个spark,并试图
从
pyspark
读取dataframe中的
CSV
文件
。我在某个地方读到了如何做到这一点,我遵循这些步骤,在我的/jar目录中复制了最新的hadoop&azure
存储
JAR
文件
。import SparkContext from
pyspark
.sql import SparkS
浏览 6
提问于2020-08-26
得票数 0
回答已采纳
1
回答
从
Python访问ADLS
python
、
json
、
apache-spark-sql
、
azure-synapse
、
azure-data-lake-gen2
我有一个简单的python脚本,这是我几年前编写的,它遍历本地
文件
夹并将json
文件
转换为
csv
。现在我需要将它转换为在Azure DataLakeStorageGener2帐户中的一个
文件
夹中运行。代码将在中
使用
PySpark
执行。由于ADLS帐户和Synapse帐户是链接的,是只需要将
文件
夹更改为指向ADLS帐户,还是需要添加某种身份验证?df) csvname = (os.path.splitext( (os.path.basename(filepath)))[
浏览 14
提问于2022-02-04
得票数 0
1
回答
python将数据帧作为
csv
写入azure
存储
帐户
python
、
azure
、
azure-blob-storage
、
azure-storage
、
azure-data-lake
我能够像here描述的那样
从
Azure
存储
容器
中读取
csv
文件
。from azure.storage.
blob
import BlobClientfrom io import StringIO
blob
_client = BlobClient.from_
blob
_url(sas_url)
b
浏览 12
提问于2021-10-20
得票数 0
1
回答
通过spark更快地
从
blob
存储
读取数据
azure
、
apache-spark
、
pyspark
我在
blob
存储
中有一个1.5 GB的
CSV
文件
,我可以
从
其中一个头节点访问它。我发现
使用
PySpark
加载
并缓存这些数据需要相当长的时间。有没有更快
加载
数据的方法?我的一个想法是
加载
数据,然后将数据划分为k个(节点数)不同的段,并将它们保存回
blob
作为拼图
文件
。这样,我可以并行
加载
数据集的不同部分,然后合并...然而,我不确定是否所有的数据都只是
加载<
浏览 0
提问于2016-11-26
得票数 1
4
回答
DataFrame.to_
csv
抛出错误'[Errno 2]没有这样的
文件
或目录‘
python
、
io
、
pyspark
、
databricks
我正在尝试将一个DataFrame写入一个.
csv
文件
:date = now.strftime("%Y-%m-%d") enrichedDataFile = enrichedDataDir + "/marketData_optam_" + date + ".
csv
" db
浏览 1
提问于2018-10-12
得票数 1
回答已采纳
1
回答
无法
使用
PowerShell将
文件
保存到
Blob
存储
azure
、
azure-data-factory
、
azure-powershell
On-Prem (
从
我的本地计算机):我可以
使用
"Set-AzureStorageBlobContent“将
文件
保存到
blob
中,尽管PowerShell很好。(Set-AzureStorageBlobContent仅用于将
文件
从
本地上传到Azure,而不是Azure到Azure)
从
clouddrive中运行,我可以运行-NoType ($home +“/clouddrive但是它不允许我将
CSV
保存到
blob
<e
浏览 2
提问于2020-02-06
得票数 0
1
回答
使用
Microsoft Flow将
文件
从
Azure
blob
复制到Sharepoint
文件
夹
azure
、
sharepoint
、
blob
、
power-automate
我要
使用
Microsoft Flow将
文件
从
Azure
blob
存储
复制到SharePoint
文件
夹。我已经尝试了几次,但流在运行时总是失败。
浏览 15
提问于2019-11-06
得票数 1
1
回答
PySpark
on Databricks:读取
从
Azure
Blob
存储
复制的
CSV
文件
会导致java.io.FileNotFoundException
azure
、
pyspark
、
azure-blob-storage
、
spark-csv
、
azure-databricks
通过将file:添加到绝对local_path,我
使用
dbutils.fs.cp将file:
文件
从
Azure
Blob
Storage复制到Databricks集群中 copy_to = "file:"+ local_path dbutils.fs.cp(
blob
_storage_path, copy_to) 然后,当我尝试
使用
前面添加了file:的相同路径读取
文件
时:
csv
_spark_df =: java.io.FileNot
浏览 32
提问于2019-01-28
得票数 0
回答已采纳
1
回答
azure数据工厂v2复制数据活动递归
azure
、
pipeline
、
azure-data-factory
、
azure-data-factory-2
我是新来的天蓝色数据工厂v2Parameter2:目录当将上述参数用于复制数据活动时,将成功执行。 但是数据是
从
两个<em
浏览 1
提问于2019-05-29
得票数 0
1
回答
您如何
从
Azure
Blob
w/ Apache中读取一个没有Databricks但在Windows 10上
使用
wasbs的
文件
?
apache-spark
、
hadoop
、
azure-blob-storage
我有天蓝色
存储
器-8.6.0.jar和hadoop-azure-3.0.1.jar。我一直
从
其他论坛上看到,我必须修改hadoop中etc
文件
夹中的core-site.xml
文件
,就像一样。spark.read.load(f"wasbs://{container_name}@{storage_account_name}.
blob
.core.windows.net/{container_name
浏览 0
提问于2020-10-23
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python开源数据分析工具TOP 3!
一文读懂PySpark数据框
大数据下Python的三款大数据分析工具
一文读懂 PySpark 数据框
一文解读Linux主线内核首个原生支持容器镜像分发方案
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券