腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
使用
PySpark
从
名称
不
包含
字符串
的
文件夹
中
读取
文件
、
、
、
我有一个
文件夹
,里面的
文件
类似于- ./env_california_0100.xml./env_california_0300.xml ./env_0400.xml
使用
pyspark
,如果我想
读取
名称
中
包含
字符串
'california‘
的
文件
,那么我将
使用
df=spark.
浏览 20
提问于2019-10-07
得票数 1
回答已采纳
1
回答
Google Cloud Logs导出
名称
、
、
、
、
有没有办法配置
从
日志导出
的
文件
的
名称
? 当前导出
的
文件
包含
冒号。在hadoop
中
,这是无效
的
路径元素字符,因此
PySpark
无法
读取
这些
文件
。显然,简单
的
解决方案是重命名
文件
,但这会干扰同步。有没有办法配置
名称
或将其更改为
不
包含
冒号?任何其他
的
解决方案都很受
浏览 0
提问于2018-06-06
得票数 0
1
回答
使用
Pyspark
从
s3存储桶
中
读取
最后一个csv
文件
、
、
、
、
因此,我有一个s3存储桶(数据),其中有一个名为(First)
的
文件夹
,其中
包含
多个CSV
文件
,但我不知道该
文件
的
名称
,现在我想将该
文件夹
中
的
最新
文件
读取
到
pyspark
dataframe
中
。
浏览 15
提问于2021-09-16
得票数 0
1
回答
二进制
文件
的
Spark read子组
、
、
、
、
有没有一种简单
的
方法来
使用
Spark API (我
使用
PySpark
API)和binaryFiles方法来
读取
目录
中
包含
的
给定
文件
集?假设我有一个这样
的
文件夹
: a.bin ...我如何
使用
binaryFiles
读取
这些
文件
,而不将它们复制到另一个目录
中
,因为它们是大
文件<
浏览 1
提问于2015-08-03
得票数 2
1
回答
如何
使用
Pyspark
将数据库与SFTP连接起来?
、
、
、
我希望
使用
Pyspark
(
使用
私钥)
从
databricks集群连接到sftp (
读取
存储在
文件夹
中
的
文件
)。
从
历史上看,我一直
从
sftp下载
文件
到linux盒,并将其移动到蔚蓝容器
中
,然后再用
pyspark
读取
文件
。是否有一种方法可以
使用
databricks
从
sftp直接<
浏览 12
提问于2022-08-17
得票数 0
2
回答
从
文件夹
中
读取
文本
文件
,如果在文本
文件
中找到特定
字符串
,则保存
文件夹
的
名称
- Python
、
、
、
、
我有大约100个具有随机
名称
的
文件夹
,例如本例
中
的
1,2,3,4,...100。在这些
文件夹
中
,我有一些文本
文件
,其中
包含
一些
字符串
。例如: sample.txt。文本
文件
都具有相同
的
名称
,但位于不同
的
文件夹
中
。我需要
的
是从这些
文件夹
中
读取
浏览 0
提问于2016-12-23
得票数 0
4
回答
mv
文件夹
目标上
的
通配符
、
、
、
我正在编写一小部分代码,用于检查特定
文件夹
中
超过4gb
的
.mov
文件
,并按
名称
将其写入log.txt
文件
(没有扩展名)。然后,我将这些
名称
逐行
读取
到which循环中,这会发出一些归档和复制命令
的
信号。考虑一个名为abcdefg.mov (新建)
的
文件
和一个名为abcdefg_20180525
的
对应
文件夹
(<-*下划线时间戳),该
文件夹
也<e
浏览 1
提问于2018-05-26
得票数 0
1
回答
如何
使用
QueryCassandra和ExecutePySpark Nifi处理器将我
的
cassandra数据传输到火花源?
、
、
、
、
我只是
使用
querycassandra处理器查询cassandra表,但我不理解
的
是如何将Json输出
文件
作为输入
文件
传递给ExecutePyspark处理器,然后我需要将我
的
Spark数据传递给Hive我
的
查询Cassandra属性:火花特性:
浏览 1
提问于2018-03-14
得票数 3
回答已采纳
1
回答
如何
从
路径
字符串
中
获取
文件夹
名称
,并将其添加到pandas dataframe
中
的
新列
中
?
、
、
我想从tar.gz
文件
中
读取
文件夹
的
名称
,并创建
包含
这些
名称
的
列。file_path = r"C:\Users\filename.tar.gz" csv_list.append(df_temp) df = pd.conca
浏览 10
提问于2019-11-04
得票数 1
回答已采纳
1
回答
在
文件夹
中
读取
增量表特定
文件
、
、
、
我试图
从
包含
多个增量
文件
的
文件夹
中
读取
一个特定
的
文件
,请参阅附带
的
屏幕截图。df.write.format("delta&quo
浏览 14
提问于2022-10-20
得票数 0
1
回答
用于火花
的
HDFS Config
、
、
我想用
pyspark
从
HDFS
读取
一个
文件
。df = spark.read.format("avro").load("hdfs://localhost:8020/data/file.avro", header=True)
使用
以下命令py4j.GatewayConnection.run(GatewayConnection.java:238) at java.lang.Thread.run(Threa
浏览 14
提问于2022-05-04
得票数 0
2
回答
从
资源
文件
中
获取DisplayName
、
、
我在App_GlobalResources
文件夹
中有区域性特定
的
资源
文件
。现在,我需要从这个资源
文件
中
读取
DisplayName属性
的
值。我正在
使用
:public string Merchant { get; set; }无法检索属性“
名称
”,因为本地化失败。
浏览 1
提问于2011-05-20
得票数 13
1
回答
在ADF数据流
中
读取
带有下划线
的
文件
名
、
、
我有一组带有下划线
文件
名
的
.csv
文件
。就像xxxxxx_cee_nf_BAT_1234561_2020_01_17.csv.gz xxxxxx_cee_nf_BAT_1234562_2020_01_17.csv.gz路径不解析到任何
文件
。请确保
文件
/
文件夹
存在且未隐藏。同
浏览 1
提问于2022-03-22
得票数 0
1
回答
将Dataframe激发到StringType
、
、
、
在
PySpark
中
,如何将Dataframe转换为普通
字符串
?我将
PySpark
与Kafka一起
使用
,而不是硬编码代理
名称
,而是在
PySpark
中
参数化了Kafka broker
名称
。Json
文件
保存了代理详细信息,Spark
读取
这个Json输入并将值赋值给变量。这些变量为带有
字符串
的
Dataframe类型。当我将dataframe传递给
Pysp
浏览 0
提问于2021-03-05
得票数 0
2
回答
比较级效率最高?
、
考虑以下这些
文件夹
的
大约10,000个
文件夹
的
列表,规则列表确定它们是否符合进入下一阶段
的
条件--规则是基于文本
的
比较,因此如果
文件夹
名称
包含
(
从
异常列表中选择以下内容
的
...any),那么每个
文件夹
都有一对多
的
比较,但是
文件夹
名称
字符串
必须
包含
(或
不
包含
)
浏览 8
提问于2009-09-18
得票数 0
1
回答
如何
从
原始
文件夹
读取
某些
文件
?
、
、
我创建了一个简单
的
活动来播放存储在原始
文件夹
中
的
音乐列表,但是我想创建另一个活动,例如,MainActivity --2008年
的
歌曲,其他
的
活动1--2009年
的
歌曲,其他
的
活动2--2010年
的
歌曲等等那么,我如何只
读取
原始
文件夹
中
的
某些
文件
,或者是否可以创建子目录或
从
其他新
文件夹
中
<em
浏览 1
提问于2022-05-29
得票数 0
回答已采纳
2
回答
如何
使用
pySpark
读取
分区parquets
的
子示例?
、
、
、
假设为我提供了parquets数据
的
以下分区:└── data/ │ ├── <hash>_toto.parquet我可以
读取
整个分区数据,但我不知道如何排除其中
的
一些数据。我希望保留Spark实现
的</e
浏览 8
提问于2022-01-20
得票数 1
回答已采纳
1
回答
使用
配置单元元数据
读取
HDFS
文件
-
Pyspark
、
、
、
、
我是
PySpark
新手,正在尝试
读取
HDFS
文件
(上面创建了hive表)并创建
PySpark
数据帧。通过
PySpark
读取
配置单元表非常耗时。有没有什么方法可以动态获取hive列名(用作dataframe
中
的
模式)?我希望将
文件
位置、表名和数据库名作为输入传递给aa程序/函数,以便
从
配置单元元数据(可能是元数据xml)
中
获取模式/列
名称
,并作为dataframe
浏览 15
提问于2019-03-06
得票数 0
回答已采纳
1
回答
从
本地计算机
读取
数据时出现(
PySpark
)问题
、
当我
使用
pyspark
从
我
的
计算机
读取
数据(DAT
文件
-4 Gb)时,一切正常,但当我
使用
pyspark
从
本地计算机(我公司
的
其他计算机通过LAN连接)
读取
数据时,出现以下错误: '‘Py4JJavaError用法: java.io.IOException:方案没有FileSystem : null '‘ Error picture 如果我
使用
pandas.re
浏览 26
提问于2020-10-28
得票数 0
1
回答
通过spark dataframe
读取
S3
文件
时,粘合书签不起作用
、
、
、
我有一个存储.gz
文件
(json格式)
的
S3存储桶。每小时将有更多
的
文件
发送到此存储桶。我想
使用
Glue增量地(每天)
从
S3存储桶
中
读取
数据,将.gz转换为拼接,然后写回另一个S3存储桶。我想我可以
使用
Glue书签来完成增量
文件
的
读取
/转换/写入。然而,我发现如果我
读取
spark dataframe
中
的
.gz
浏览 24
提问于2020-12-30
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
AI转行之Python学习(五):第八章输入和输出
Java基础进阶 第十三天 IO介绍、File类、文件过滤器
Java教程-Java 流、文件和IO
Windows和PC机上搭建Spark+Python开发环境的详细步骤
Python 文件与目录操作方法总结
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券