腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
将
Spark
DataFrame
导出
为
S3
、
、
、
、
因此,在某些操作之后,我在
Spark
DataFrame
中有了一些数据,具体地说,就是org.apache.
spark
.sql.
DataFrame
= [_1: string, _2: stringnot null|.isComplete("value")| +--------------------+--------------------+--------------------+ 当我尝试
将
数据框
导出
为
csv到我的
S3
存储桶时
浏览 62
提问于2021-02-10
得票数 0
回答已采纳
1
回答
创建外部雅典娜表,用于按星火2.2.1创建,数据丢失或不正确的十进制或时间戳类型
、
、
、
我尝试从雅典娜的
s3
拼花文件(用火花保存到
s3
中创建)创建外部表。每当数据类型
为
十进制或时间戳时,之后就不会显示任何数据。org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe' 'serialization.format' = '1'LOCATION '
s3
将以上代码中的小数点(38,0)替换为double,不工作,该列中没有显示 用字符串
浏览 3
提问于2020-04-10
得票数 1
1
回答
是否可以在PySpark中解除
DataFrame
的标记?
、
、
、
、
在标记化并删除停用词之后,我想要取消标记化剩余的单词并
导出
到csv。这有可能吗?%pythonfrom pyspark.sql import SparkSessionfrom pyspark import SparkFiles<em
浏览 18
提问于2021-02-17
得票数 1
0
回答
如何通过
Spark
向
S3
对象添加用户定义的元数据
我正在使用
spark
sql
dataframe
将
s3
写成parquet
spark
.sparkContext.hadoopConfiguration.set("fs.s3a.server-side
浏览 3
提问于2018-07-14
得票数 7
1
回答
火花转换Pandas df到
S3
、
、
、
、
如何
将
Pandas以一种方便的方式转换成可以写入
s3
的数据。 .format("com.databricks.
spark
.csv") .save("123.csv")
浏览 0
提问于2017-01-03
得票数 0
回答已采纳
1
回答
将
spark
数据帧
导出
到带有标头和特定文件名的.csv
、
、
、
、
我正在尝试
将
数据从
spark
dataframe
导出
到.csv文件: .write\我希望文件名为"part-r-00000.csv“或"part-00000.csv” 由于该文件是在亚马逊网络服务
S3
浏览 6
提问于2018-02-07
得票数 12
1
回答
重命名
Spark
作业中的
导出
文件
、
、
我们目前正在使用
Spark
Job on Databricks,它在
S3
中的数据湖上进行处理。处理完成后,我们使用普通的df.write()
将
结果
导出
到
S3
存储桶中 问题是,当我们
将
数据帧写入
S3
时,文件的名称由
Spark
控制,但根据我们的协议,我们需要将该文件重命名为一个有意义的名称。由于
S3
没有重命名功能,我们现在正在使用boto3复制和粘贴具有预期名称的文件。这个过程非常复杂,而且随着更多的客户加入,这个过程也不能扩展。我们有没
浏览 0
提问于2019-04-12
得票数 1
1
回答
Spark
:基于
s3
文件中的字段动态生成查询
、
、
基于
s3
中的这些数据,我们
将
数据加载到一个表中,并且我们手动地(在每次运行中字段的数目可能会随着添加或删除几个列而改变)运行一个metrics.There,因为很少的metrics.There会对这些数据进行更多的计算Approach:考虑到模式少的特性,由于每次运行时
s3
文件中的字段数可能不同,只需添加/删除几个字段,这就需要在SQL中每一次进行手动更改,因此我计划探索
Spark
/Scala,这样我们就可以直接从
s3
查询:如何在scala/
spark
浏览 7
提问于2020-03-19
得票数 1
6
回答
如何
将
PySpark中的表数据框
导出
到csv?
、
、
、
、
我使用的是
Spark
1.3.1 (PySpark),并且我已经使用SQL查询生成了一个表。我现在有一个对象,它是一个
DataFrame
。我想把这个表对象(我把它叫做“
DataFrame
”)
导出
到一个csv文件中,这样我就可以操作它并绘制列。如何
将
DataFrame
“表”
导出
为
csv文件? 谢谢!
浏览 813
提问于2015-07-13
得票数 92
回答已采纳
1
回答
从
Spark
写入DynamoDB
、
、
、
我正在尝试使用
spark
从亚马逊
s3
获取一个文件(以
DataFrame
或RDD的形式),执行一些简单的转换,然后
将
文件发送到DynamoDB上的一个表中。在阅读了其他一些论坛帖子后,我开始了解到读/写DynamoDB需要使用hadoopRDD -这与
spark
中的RDD不同-也不同于我检索
s3
文件的方式。我该如何
将
DataFrame
/RDD从
s3
中的文件更改为hadoopRDD,这样我才能将其发送回来? 我正在使用
浏览 0
提问于2016-05-26
得票数 7
2
回答
如何
将
文件名自动提取到数据框中,而不是手动指定
、
我正在尝试用Scala或python自动化我的
spark
代码,这就是我想要做的从
s3
存储桶中,
spark
代码应该能够选择文件名并创建数据帧example
Dataframe
=sqlContext.read.format("com.databricks.
spark
.csv").options(header="true").options(delimite
浏览 0
提问于2016-02-04
得票数 1
1
回答
在
spark
/scala中读取
s3
时,分区id被隐式转换
、
、
、
、
我有
s3
中的源数据,我的
spark
/scala应用程序将在一个新的partition_id列上对它进行分区之后,读取这些数据并将其写成拼花文件。partition_id的值
将
通过从具有字母数字字符串值的另一个id列中获取前两个字符来
导出
。例如:
将
数据写入
s3
后,将为每个分区创建单独的分区文件夹,并且一切看起来都很好。用于
将
分区数据写入/从
s3
读取的命令: <em
浏览 1
提问于2019-09-25
得票数 1
回答已采纳
1
回答
将
数据从redshift直接复制到EMR集群--这是一种好的做法吗?
、
亚马逊提供了一个非常详细的文档来
将
数据从电子病历复制到电子病历(通过
S3
),但在其他方面似乎没有任何文档,这让我想知道
将
数据从电子病历加载到电子病历(直接,或通过某种媒介)是否是一个好的做法。
浏览 13
提问于2018-08-14
得票数 0
1
回答
在星火中,RDD和
Dataframe
有什么区别?
、
、
我想了解RDD、
dataframe
和数据集之间的区别。在这种情况下,当我从
s3
加载数据时,什么是RDD?感谢有人能解释RDD、
dataframe
和数据集之间的区别。
浏览 1
提问于2019-08-20
得票数 2
1
回答
如何使用
s3
从boto3读取拼图文件
、
、
我在
s3
桶(
s3
://mybucket/my/path/)中没有几个拼板文件。我想要阅读它使用boto3的火花数据。由于现有的安全性,我不能将它直接读
为
spark
.read.parquet('
s3
://mybucket/my/path/')。因此,需要使用boto3阅读它。当尝试使用下面的代码读取单个拼板文件(
S3
://mybucket/m
浏览 0
提问于2021-11-17
得票数 0
3
回答
将
大型
Spark
Dataframe
保存为
S3
中的单个json文件
、
、
、
我试图在亚马逊
S3
中
将
一个
Spark
DataFrame
(超过20G)保存到一个json文件中,我保存数据帧的代码如下所示:但是我从
S3
得到了一个错误“你建议的上传超过了最大允许的大小”,我知道亚马逊允许的最大文件大小是5 5GB。可以和
Spark
一起使用
S3</
浏览 0
提问于2015-04-28
得票数 19
回答已采纳
1
回答
如何读取拼板文件并只保存包含某些列的文件
、
我在一个
S3
桶里有一堆拼花文件。这些文件包含不同的列。我想读取这些文件,并创建一个仅包含一些列的文件的数据框架。 例如:假设我有三列“名称”、“城市”和“年份”。
浏览 6
提问于2022-03-10
得票数 1
1
回答
使用s3-dist-cp进行星火应用程序消费的JSON聚合
、
、
、
运行在AWS上的
spark
应用程序从存储在
S3
中的JSON数组加载数据。然后通过火花引擎处理由此创建的
Dataframe
。s3-dist-cp --src <em
浏览 13
提问于2020-04-07
得票数 0
1
回答
AWS作业create_dynamic_frame_from_options()打开特定的文件?
、
、
、
如果使用create_dynamic_frame_from_catalog(),则提供数据库名称和表名,例如,从Glue爬虫中创建,这实际上是命名特定的输入文件。我希望能够在没有爬虫和数据库的情况下完成同样的操作(指定一个特定的输入文件)。
浏览 1
提问于2020-07-15
得票数 1
1
回答
在胶水中的现有地板文件上创建表
、
、
、
我在
S3
中有一个拼花文件,我想在上面创建一个胶水表。我正在使用boto3 python来做到这一点。test_table', 'Location': '
s3
浏览 2
提问于2020-04-06
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何将PPT文档导出为视频格式
使用python代码将excel中的图表导出为图片
大数据Hadoop之——Apache Hudi 数据湖实战操作(Spark,Flink与Hudi整合)
只需三步,将Excel中的图片导出为单独的文件,就这么简单
朴朴基于AWS EMR的数据沙盒平台演变
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券