腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(6759)
视频
沙龙
2
回答
从
拼花
文件
中创建
pyspark
数据格式
pyspark
、
parquet
我在火星雨方面还很新,我还在努力弄清楚到底是谁干
的
。我想要做
的
是在内存中加载一个拼花
文件
之后,
使用
pyarrow,我试着使它成为。但我搞错了。--我要提到
的
是,我并不是直接阅读
pyspark
,因为
s3
中
的
文件
给了我另一个关于“
s3
"
的
错误,所以我试图解决这个问题。下面我有一个可重复
的
例子。',filesystem=
s3
) sc = Spark
浏览 1
提问于2019-07-29
得票数 0
1
回答
雪花不扣除拼花中
的
按列分区
snowflake-cloud-data-platform
、
parquet
但是,当对
拼图
文件
进行分区并将其存储在
S3
中时,推断模式
的
功能与
pyspark
数据帧不同。在DataFrames中,分区
文件夹
名和值被
读取
为最后一列;在Snowflake推断模式中,有没有办法实现同样
的
结果? @GregPavlik -输入为结构化
拼图
格式。当地块
文件
存储在没有分区
的
S3
中时,模式是完全派生出来
的
。":“20302”}
浏览 0
提问于2021-10-21
得票数 5
2
回答
从
pyspark
作业在
s3
存储桶中动态创建
文件夹
python-3.x
、
amazon-web-services
、
amazon-s3
、
pyspark
我正在将数据写入
s3
存储桶,并
使用
pyspark
创建
拼图
文件
。我
的
存储桶结构如下:子
文件夹
和表如果
文件夹
不存在,这两个
文件夹
应该在运行时创建,如果
文件夹
存在,
拼图
文件
应该在
文件夹
表中。当我在本地机器上运行
pyspark
程序时,它
浏览 2
提问于2020-12-03
得票数 0
1
回答
异常: Java网关进程在
使用
pyspark
发送其端口号之前退出
python
、
amazon-s3
、
pyspark
、
parquet
我在一台jupyter笔记本上
使用
python和
pyspark
。我正在尝试
从
亚马逊网络服务
的
s3
存储桶中
读取
几个
拼图
文件
,并将它们转换为单个json
文件
。这就是我所拥有的:from
pyspark
.sql import
DataFrame
ke
浏览 3
提问于2020-07-18
得票数 1
1
回答
从
多个
S3
存储桶导入
pyspark
dataframe
,其中有一列指示条目来自哪个存储桶
amazon-s3
、
pyspark
、
pyspark-dataframes
我有一个按日期分区
的
S3
存储桶列表。第一个存储桶标题为2019-12-1,第二个存储桶标题为2019-12-2,依此类推。这些存储桶中
的
每一个都存储我正在
读取
到
pyspark
dataframe
中
的
拼图
文件
。
从
每个存储桶生成
的
pyspark
dataframe
具有完全相同
的
模式。我想要做
的
是迭代这些存储桶,并将所有这些
拼
浏览 13
提问于2019-12-16
得票数 0
回答已采纳
2
回答
如何指定saveAsTable保存
文件
的
路径?
apache-spark
、
pyspark
、
apache-spark-sql
我正在尝试
使用
DataFrameWriter在Spark1.4
的
pyspark
中保存一个
DataFrame
到
S3
df_writer =
pyspark
.sql.DataFrameWriter(df) .saveA
浏览 0
提问于2015-06-17
得票数 14
回答已采纳
2
回答
读取
PySpark
中
的
所有分区
拼图
文件
apache-spark
、
pyspark
、
apache-spark-sql
、
parquet
我想要加载存储在
S3
AWS
文件夹
结构中
的
所有
拼图
文件
。
文件夹
结构如下:<code>D0</code> 我想要
的
是一次
读取
所有的
拼图
文件
,所以我希望
PySpark
读取
2019年所有可用
的
月份和日期
的
所有数据,然后将其存储在一个数据帧中(这样您就可以获得一个包含2019年所有日期
的
连接/
浏览 70
提问于2019-12-04
得票数 0
1
回答
追加到
拼图
文件
的
EMR Spark步骤正在覆盖
拼图
文件
python
、
apache-spark
、
amazon-emr
、
parquet
在
使用
Python 3.6
的
Amazon EMR集群(1个主服务器,2个节点)上运行Spark 2.4.2 我正在
读取
亚马逊
s3
中
的
对象,以
拼图
格式压缩它们,并将它们添加(附加)到现有的
拼图
数据存储中。当我在
pyspark
shell中运行我
的
代码时,我能够
读取
/压缩对象并将新
的
拼图
文件
添加到现有的
拼图
文件
中,并且,当
浏览 17
提问于2019-07-10
得票数 1
回答已采纳
1
回答
使用
pyspark
to
pyspark
dataframe
从
s3
位置
读取
拼图
文件
的
文件夹
python
、
amazon-web-services
、
hadoop
、
amazon-s3
、
pyspark
我想将
s3
bucket myBucketName上
的
文件夹
poc/folderName中
的
一些
拼图
文件
读取
到
pyspark
dataframe
。我正在
使用
pyspark
v2.4.3来做同样
的
事情。 下面是我正在
使用
的
代码 sc = SparkContext.getOrCreate() sc.sqlContext =
浏览 13
提问于2019-10-11
得票数 0
1
回答
AWS作业create_dynamic_frame_from_options()打开特定
的
文件
?
amazon-web-services
、
apache-spark
、
pyspark
、
aws-glue
如果
使用
create_dynamic_frame_from_catalog(),则提供数据库名称和表名,例如,
从
Glue爬虫中创建,这实际上是命名特定
的
输入
文件
。我希望能够在没有爬虫和数据库
的
情况下完成同样
的
操作(指定一个特定
的
输入
文件
)。我尝试过
使用
create_dynamic_frame_from_options(),但“路径”连接选项显然不允许我命名该
文件
。有办法这样做吗?
浏览 1
提问于2020-07-15
得票数 1
1
回答
PyArrow表到
PySpark
数据帧
的
转换
python-3.x
、
pandas
、
pyarrow
我正在尝试将我
的
Pandas数据帧转换为
PySpark
数据帧。createDataFrame函数不起作用,所以我找到了PyArrow。
浏览 1
提问于2018-11-16
得票数 3
1
回答
通过spark
dataframe
读取
S3
文件
时,粘合书签不起作用
amazon-web-services
、
amazon-s3
、
pyspark
、
aws-glue
我有一个存储.gz
文件
(json格式)
的
S3
存储桶。每小时将有更多
的
文件
发送到此存储桶。我想
使用
Glue增量地(每天)
从
S3
存储桶中
读取
数据,将.gz转换为拼接,然后写回另一个
S3
存储桶。我想我可以
使用
Glue书签来完成增量
文件
的
读取
/转换/写入。然而,我发现如果我
读取
spark
dataframe<
浏览 24
提问于2020-12-30
得票数 1
2
回答
如何
读取
电火花中
s3
上
的
表格数据?
amazon-s3
、
amazon-ec2
、
pyspark
、
parquet
、
pyspark-sql
现在,我要告诉
pyspark
,我想
使用
\t作为分隔符,只在下面这样
的
一个
文件
中
读取
:sc.setLogLevel("DEBUG") sqlContext = SQLContext:/&
浏览 3
提问于2017-07-17
得票数 1
回答已采纳
2
回答
电子病历笔记本-会话未处于活动状态
apache-spark
、
pyspark
、
amazon-emr
、
livy
我正在
使用
EMR笔记本和
pyspark
和livy。 我
从
s3
中
读取
数据,数据格式为
拼图
和字符串,并将其读入
pyspark
数据帧。大约有几个。200万行。当我执行连接操作时。遇到错误:来自
的
无效状态代码'400‘,负载错误:“要求失败:会话未处于活动状态。”
浏览 1
提问于2019-08-19
得票数 1
1
回答
在
pyspark
中,Inferschema将列检测为字符串,而不是parquet中
的
双精度
pyspark
、
azure-databricks
问题-我正在
使用
azure databricks在
pyspark
中
读取
拼图
文件
。有一些列有很多空值并且有十进制值,这些列被
读取
为字符串而不是双精度。有没有办法推断出
pyspark
中正确
的
数据类型?代码- 要
读取
拼花面板
文件
- df_raw_data = sqlContext.read.parquet(data_filename[5:]) 它
的
输出是一个包含100多列
的
数据帧,其中大
浏览 16
提问于2020-06-23
得票数 0
1
回答
火花:火花-csv花了太长时间
csv
、
apache-spark
、
pyspark
我正试图
使用
Databricks
DataFrame
包和,
从
EMR集群上
的
S3
上
的
CSV源创建一个sqlContext = SQLContext).options(header='true').load('s3n://h2o-airlines-unpacked/allyears.csv') 这不会在4m3.
浏览 0
提问于2015-08-28
得票数 3
1
回答
使用
Pyspark
从
s3
存储桶中
读取
最后一个csv
文件
python
、
amazon-web-services
、
csv
、
amazon-s3
、
pyspark
因此,我有一个
s3
存储桶(数据),其中有一个名为(First)
的
文件夹
,其中包含多个CSV
文件
,但我不知道该
文件
的
名称,现在我想将该
文件夹
中
的
最新
文件
读取
到
pyspark
dataframe
中。
浏览 15
提问于2021-09-16
得票数 0
1
回答
将嵌套
的
JSON列转换为
Pyspark
列
arrays
、
json
、
dataframe
、
pyspark
我已经
使用
S3
数据格式在
pyspark
.pandas中
读取
和存储了拼花
文件
。现在,在第二阶段,我试图在databricks中
读取
pyspark
dataframe
中
的
parquet
文件
,并面临将嵌套
的
json列转换为适当列
的
问题。首先,我
使用
以下命令
从
S3
读取
拼图
数据: adf = spark
浏览 8
提问于2022-06-07
得票数 0
1
回答
Pyspark
dataframe
在不删除/_temporary
文件夹
的
情况下写入
拼图
pyspark
、
pyspark-sql
df.write.mode("append").parquet(path)我建议将
文件
写入另一个可以授予删除权限
的
文件夹
,然后将
文件
复制过来。
浏览 5
提问于2019-12-10
得票数 0
1
回答
使用
本地
Pyspark
从
GCS打开镶木
apache-spark
、
pyspark
、
google-cloud-storage
我在谷歌云存储上有一个
文件夹
,里面有几个
拼图
文件
。我安装在我
的
VM
pyspark
中,现在我想
读取
拼图
文件
。下面是我
的
代码: from
pyspark
.sql import SparkSession .builder\ .getOrCreate() sc = spark.s
浏览 26
提问于2019-12-11
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python开源数据分析工具TOP 3!
遇见YI算法之初识Pyspark(二)
如何在CDH集群上部署Python3运行环境及运行Python作业
一文读懂PySpark数据框
一文读懂 PySpark 数据框
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券