腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
4
回答
为什么
对于
pyspark
中
的
S3
目录
源
,
input_file_name
()
是
空
的
?
amazon-web-services
、
apache-spark
、
amazon-s3
、
pyspark
、
aws-glue
我正在尝试获取通过AWS Glue
中
的
S3
数据
目录
加载
的
每个文件
的
输入文件名(或路径)。我已经在几个地方使用read让
input_file_name
()提供此信息(不过需要注意
的
是
,这只在调用from_catalog而不是from_options时有效,我相信我就是这样做
的
!)。import SparkContext from
pyspark
.sql.functions import
inp
浏览 70
提问于2019-06-29
得票数 5
回答已采纳
1
回答
如何在AWS胶水作业
中
添加带有源名称
的
新列?
pyspark
、
etl
、
aws-glue
但是,它并没有像预期
的
那样工作。我想知道我忽略了哪一步。import sysfrom awsglue.utils import getResolvedOptionsfrom awsglue.cont
浏览 10
提问于2019-08-16
得票数 0
3
回答
AWS Glue:如何在输出
中
添加带有源文件名
的
列?
amazon-web-services
、
apache-spark
、
pyspark
、
aws-glue
有谁知道将源文件名作为列添加到Glue作业
中
的
方法吗?我查看了AWS文档和aws-glu
浏览 0
提问于2018-05-11
得票数 7
回答已采纳
1
回答
使用通配符读取物理分区
的
数据
apache-spark
、
amazon-s3
、
pyspark
、
apache-spark-sql
我在AWS
S3
上有一个持久化数据帧,结构如下:
s3
://bucket/df/ |__ FILENAME01.json |__ FILENAME02如果我使用以下语法读取此数据帧: df = spark.read.json("
s3
://bucket/df)" 没有扩展名
的
文件将是我
的
数据帧
的
一部分,这是不可取
的
。
浏览 50
提问于2021-02-20
得票数 1
回答已采纳
1
回答
如何在重新分区后在
input_file_name
中
获得正确
的
PySpark
dataframe
、
apache-spark
、
amazon-s3
、
pyspark
、
apache-spark-sql
我正在开发一个
PySpark
作业,用于读取文本文件,并在AWS
S3
桶上编写拼图文件。df.write.
浏览 3
提问于2020-03-24
得票数 1
回答已采纳
2
回答
从csv文件读取增量/插入数据集
csv
、
apache-spark
、
pyspark
、
spark-dataframe
我有一个定期更新
的
数据集,作为一系列CSV文件接收这些更改。我想要一个只包含每一行
的
最新版本
的
Dataframe。是否有一种方法可以在火花/火花放电中加载整个数据集,从而允许并行性?) 3,JKL 4,MNO 我知道,我可以通过顺序加载每个文件,然后使用一个反连接(用于踢出旧值被替换)和一个联合,但这并不是让工作负载
是
并行
的
浏览 3
提问于2017-06-28
得票数 0
回答已采纳
1
回答
如何使用AWS Glue从web服务端点提取数据?
web-services
、
amazon-web-services
、
pyspark
、
aws-glue
更多
的
源
数据来自我需要定期轮询
的
Web服务端点。一旦我得到数据,我就可以使用
pyspark
执行传统
的
ETL,并最终将数据写入
S3
和Redshift。我不知道如何进行初始提取,甚至不知道我应该在AWS Glue文档
中
寻找什么。
对于
数据
目录
,“
源
”web服务终结点是否可以被视为一个表? 任何例子都会更好。
浏览 1
提问于2018-04-19
得票数 2
回答已采纳
1
回答
为什么
星火需要
S3
来连接红移仓库?同时,巨蟒熊猫可以直接阅读红移表。
amazon-web-services
、
amazon-s3
、
pyspark
、
amazon-redshift
提前为这个愚蠢
的
问题道歉。我刚从AWS和
Pyspark
开始。我当时正在查看
pyspark
库,并且我看到
S3
中
需要一个tempdir才能读取红移
中
的
数据。我
的
问题
是
,
为什么
pyspark
需要这个
S3
临时
目录
。其他库,例如Pandas,可以直接读取Redshift表,而无需使用任何临时
目录
。感谢每个人。 路易斯
浏览 4
提问于2022-05-14
得票数 0
1
回答
如何从
S3
桶
中
读取最新
的
7天csv文件
scala
、
apache-spark
、
pyspark
、
apache-spark-sql
我想弄清楚,如何使用Spark从
s3
桶
中
的
文件夹
中
读取最新
的
7天文件。我们拥有的
目录
:Source/Date_1/Client_1/sample_1.csvSource/Date_2/Client_3/sample_1.csv Source&
浏览 6
提问于2021-12-21
得票数 0
1
回答
AWS Glue - Pick动态文件
python
、
amazon-web-services
、
pyspark
、
aws-glue
有人知道如何从
S3
存储桶
中
获取动态文件吗?我在
S3
存储桶上设置了一个爬虫,然而,我
的
问题
是
,每天都会有后缀为YYYY-MM-DD-HH-MM-SS
的
新文件到来。当我通过
目录
读取表时,它会读取
目录
中
存在
的
所有文件吗?是否可以动态挑选给定日期
的
最新三个文件,并将其用作源文件? 谢谢!
浏览 1
提问于2018-09-29
得票数 1
1
回答
导入
Pyspark
Delta Lake模块时找不到模块错误
apache-spark
、
pyspark
、
spark-structured-streaming
、
delta-lake
这是在一台没有互联网连接
的
机器上,所以我必须手动从Maven下载增量核心jar,并将其放到%SPARK_HOME%/jars文件夹
中
。我
的
程序运行正常,没有任何问题,而且我能够从delta
中
写入和读取,所以我很高兴我得到了正确
的
jar。但是当我尝试导入增量模块from delta.tables import *时,我得到了错误。
对于
信息,我
的
代码
是
: import os from
pyspark
.sql import Spa
浏览 25
提问于2020-06-11
得票数 2
回答已采纳
2
回答
如何读取电火花中
s3
上
的
表格数据?
amazon-s3
、
amazon-ec2
、
pyspark
、
parquet
、
pyspark-sql
在
s3
目录
s3
://mybucket/my/directory/中有一些选项卡分隔
的
数据。现在,我要告诉
pyspark
,我想使用\t作为分隔符,只在下面这样
的
一个文件
中
读取: from
pyspark
.sql import://mybucket/my/directory/
浏览 3
提问于2017-07-17
得票数 1
回答已采纳
1
回答
Databricks spark.read csv具有要刷新
的
行号
dataframe
、
apache-spark
、
databricks
我要将csv读取到数据帧1.我创建了结构2. load csv spark.read.option("header","false").schema(schema).option('delimiter',',').option('mode','PERMISSIVE').csv( path1 ) enter image description here所示 如何检查哪些文件/哪些行获得了#torefresh和null...…???
浏览 10
提问于2019-09-28
得票数 0
2
回答
从Glue Catalog和Glue Py Spark脚本
中
的
动态路径同步CSV文件
amazon-web-services
、
amazon-s3
、
pyspark
、
aws-glue
我每天都将CSV文件存储在亚马逊网络服务
s3
中
。下面
是
我
的
S3
文件路径结构:在此结构
中
,将每天生成
s3
文件路径
的
日期部分。现在我想使用AWS glue for ETL将数据从
S3
传输到Redshift。要使用它,我如何在数据
目录
中
添
浏览 1
提问于2019-09-19
得票数 0
1
回答
s3
是
如何工作
的
?
amazon-s3
、
pyspark
我正试图使用
pyspark
在
s3
中
保存数据。已经存在一堆来自上一轮火星雨
的
文件。在我当前
的
运行
中
,我试图用新
的
dataframe (它已经包含旧
的
数据)
中
的
数据覆盖现有的文件。我正在使用由
pyspark
提供
的
“覆盖”模式来处理这个问题。这到底
是
怎么回事?在用新数据写入新文件之前,
S3
是否删除
目录
中
的</
浏览 4
提问于2022-03-18
得票数 0
回答已采纳
1
回答
使用python将数据从kafka发送到
s3
amazon-s3
、
pyspark
、
apache-kafka
对于
我的当前项目,我正在使用Kafka (python),并想知道是否有任何方法可以将流式Kafka数据发送到AWS
S3
桶(而不使用汇流)。我从Reddit API获得我
的
源
数据。我甚至想知道Kafka+s3是否
是
一个很好
的
组合,用于存储数据,这些数据将使用
pyspark
进行处理,或者我应该跳过
s3
步骤,直接从Kafka读取数据。
浏览 5
提问于2022-08-28
得票数 0
1
回答
Pyspark
:将tar.gz文件加载到数据文件
中
,并通过文件名进行筛选
apache-spark
、
pyspark
、
tar
、
pyspark-dataframes
我有一个包含多个文件
的
tar.gz文件。层次结构如下所示。我
的
目的
是
读取tar.gz文件,过滤掉b.tsv
的
内容,因为它是静态元数据,所有其他文件都是实际记录。通过吡咯烷酮加载,我可以将该文件加载到dataframe
中
。from
pyspark
.sql.functions import
input_file_name
它现在生成
浏览 2
提问于2020-02-06
得票数 1
4
回答
AWS
S3
同步--删除、删除本地
的
新文件
amazon-web-services
、
amazon-s3
、
aws-cli
aws
s3
sync --delete删除了一些新文件。桶-
S3
://my-bucket/images/1.jpg中有一个文件。然后,我将一个文件上传到服务器:2.jpg开始运行同步cron作业:aws
s3
sync ./
s3
://my
浏览 20
提问于2015-06-02
得票数 60
1
回答
PySpark
和Pandas读取从
S3
中
分离
的
csv文件跳过空文件
apache-spark
、
amazon-s3
、
pyspark
、
boto3
、
emr
使用
PySpark
,我有一些代码可以运行在一系列查询
中
。/Csvs/Query_{}'.format(index) 我
是
个新手,但我知道每个分区都在将各个csv文件写入一个名为Query_[index]
的
目录
。所以我
的
代码花了很多时间试图读取一个
空
的
csv文件,结果却抛出了一个异常。据我所知,df_spark.toPandas()函数克服了spark
的
用途,因为它将其放入驱动程序内存
中
,
浏览 3
提问于2018-02-07
得票数 1
1
回答
pyspark
合并覆盖为一个具有固定名称
的
文件
apache-spark
、
pyspark
、
amazon-emr
我们有一个自动化管道
的
需求。我
的
需求是使用具有固定名称
的
pyspark
生成/覆盖一个文件 但是,我现在
的
命令
是
- final_df.coalesce(1).write.option("header", "true").csv("
s3
://finalop/" , mode="overwrite") 这确保
目录
(finalop)
是
浏览 25
提问于2020-10-14
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
一文读懂PySpark数据框
半小时搭建 spark 应用
一文读懂 PySpark 数据框
如何从Pandas迁移到Spark?这8个问答解决你所有疑问
Spark 3.0重磅发布!开发近两年,流、Python、SQL重大更新全面解读
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
即时通信 IM
活动推荐
运营活动
广告
关闭
领券