腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
手工
选择
镶木
地板
分区
与
在
pyspark
中
过滤
它们
pyspark
、
parquet
、
hadoop-partitioning
这可能是一个愚蠢的问题,但手动指定拼图文件
中
的
分区
列
与
加载并
过滤
它们
有什么不同吗? 例如:我有一个由DATE
分区
的拼图文件。spark.read.parquet("s3://bucket/path/file.parquet")\ .filter(col('DATE')>'2020-10-15') 或者,我可以使用S3文件系统仅加载spark数据帧中所需的
分区
date
浏览 11
提问于2020-10-26
得票数 0
回答已采纳
1
回答
如何获取python和
pyspark
拼图文件的创建日期?
python
、
pyspark
、
google-colaboratory
他们给了我
镶木
地板
文件,我将
它们
存储
在
我的Google Drive
中
以供测试。我正在使用谷歌Colab
与
Python和
Pyspark
。正确的命令是什么? 谢谢
浏览 1
提问于2021-01-20
得票数 0
2
回答
Spark镶嵌读取性能
apache-spark
、
parquet
我有一个月的数据存储
在
HDFS
中
。31个文件夹,每个文件夹以yyyy-mm-dd格式按日期表示。
浏览 41
提问于2020-01-31
得票数 1
2
回答
Spark
中
的快速
镶木
地板
行数
apache-spark
、
parquet
我
在
spark-shell里试过了Spark运行了两个阶段,显示了DAG
中
的各种聚合步骤。问题是:当我运行count时,Spark是否已经
在
使用行数字段了?是否有其他API可以使用这些字段?出于某种原因,依赖这些字段是不是一个坏主意?
浏览 1
提问于2016-11-16
得票数 13
5
回答
如何控制输出文件的大小?
apache-spark
、
parquet
在
spark
中
,控制输出文件大小的最佳方法是什么。例如,
在
log4j
中
,我们可以指定最大文件大小,超过此大小后,文件将旋转。 我正在寻找类似的解决方案
镶木
地板
文件。如果我想将文件限制为64mb,那么一种
选择
是对数据进行重新
分区
并写入临时位置。然后使用临时位置
中
的文件大小将文件合并在一起。但是很难获得正确的文件大小。
浏览 1
提问于2016-08-28
得票数 25
1
回答
拼图文件名的哪些部分很重要?
apache-spark
、
parquet
我有一堆
镶木
地板
数据,
它们
的结构类似于col1=1/col2=2/col3=3/part-00000-33b48309-0442-4e86-870f-f3070268107f-c000.snappy.parquet我已经阅读了我能找到的东西,并且似乎很清楚文件名的每个部分的含义-
分区
中
每个文件的part-00000增量,c000
与
输出配置的其他部分有关,其余的是防止并行写入期间发生冲突的UUID。(更大的动机是我需要随着时间的推移将数据添加到现有存储
浏览 1
提问于2018-12-04
得票数 2
5
回答
蜂窝
镶木
地板
快速压缩不起作用
hadoop
、
hive
、
hiveql
、
parquet
、
snappy
我正在使用表属性作为TBLPROPERTIES('PARQUET.COMPRESSION'='SNAPPY')创建一个表框架set hive.exec.dynamic.partition.mode=nonstrict;set hive.plan.serialization.format=javaXML;SET mapred.output.compre
浏览 0
提问于2018-01-23
得票数 1
2
回答
在
S3
中
以增量方式将数据添加到拼花面板表
中
amazon-s3
、
apache-spark
、
apache-spark-sql
、
parquet
有没有办法
在
不写一个全新的副本的情况下将数据添加到现有的镶嵌板表格
中
,特别是当它存储
在
S3
中
时?我知道我可以为更新创建单独的表,
在
Spark
中
,我可以
在
查询时形成Spark
中
相应DataFrames的联合,但我对此的可扩展性持怀疑态度。 如果需要的话,我可以使用Spark之外的其他东西。
浏览 1
提问于2015-05-13
得票数 3
1
回答
PySpark
正在写入大型单个拼图文件,而不是
分区
文件
apache-spark
、
pyspark
、
parquet
对于我的大多数文件,当我读入带分隔符的文件并将
它们
写出到snappy parquet时,spark会像我预期的那样执行,并创建多个
分区
的snappy parquet文件。也就是说,我有一些用管道分隔的大型.out文件(25GB+),当我读入
它们
时: inputFile = spark.read.load(s3PathIn, format='csv', sep=fileSeparatortrue', multiline='true') 然后将结果输出到S3: inputFile.write.
浏览 17
提问于2021-07-19
得票数 0
1
回答
是否在运行CREATE TABLE语句时限制钻取生成的文件量?
apache-drill
在
使用apache drill的create table语句时,是否可以限制用于创建/表示表的文件数量? 目前有几组
镶木
地板
文件存储
在
HDFS
中
,并通过钻孔创建表将
它们
转换为TSV,例如。有没有一种方法可以限制
在
创建这个TSV版本的表时使用的文件数量?
在
文档(这里是或这里是)
中
找不到任何这样的信息,尽管PARTITION BY子句似乎很接近() (但并不是所有的表都有很好的可
分区
字段)。
浏览 1
提问于2018-09-20
得票数 1
1
回答
使用
pyspark
从Hadoop
中
删除文件(查询)
python
、
python-3.x
、
python-2.7
、
hadoop
、
pyspark
我使用Hadoop来存储我的数据-对于一些数据我使用
分区
,对于一些数据我不使用
分区
。我使用
pyspark
DataFrame类以parquet格式保存数据,如下所示: df = sql_context.read.parquet('/some_path') df.write.mode("append").parquet(parquet_path) 我想写一个删除旧数据的脚本,使用类似的方式(我需要在数据框上使用
过滤
来查询这个旧数据)
与
pyspark<
浏览 2
提问于2019-04-14
得票数 2
回答已采纳
1
回答
如何在拼图中输出多个s3文件
hadoop
、
parquet
编写
镶木
地板
数据可以用下面这样的方法来完成。但是,如果我试图写入多个文件,并且希望输出到多个s3文件,以便读取单个列不会读取所有s3数据,该如何做到这一点呢?) writer.write(record); 例如,如果我想按列值进行
分区
,以便将favorite_color为红色的所有数据放在一个文件
中
,而将favorite_color为蓝色的数据放在另一个文件
浏览 16
提问于2017-02-04
得票数 14
1
回答
dask read_parquet内存不足
dask
我正在尝试读取一个很大的(内存不能容纳)
镶木
地板
数据集,然后从中提取样本。数据集的每个
分区
都可以完美地存储在内存
中
。 数据集
在
磁盘上大约有20 in的数据,分为104个
分区
,每个
分区
大约200Mb。我的假设是,Dask将加载它能处理的尽可能多的
分区
,从
它们
中
采样,从内存
中
删除
它们
,然后继续加载下一个。或者类似的东西。相反,从执行图(104个并行加载操作,
在
每个样本
浏览 66
提问于2019-09-25
得票数 0
1
回答
Spark scala谓词下推和
分区
在
处理和存储方面的区别是什么
scala
、
apache-spark
如果可能的话,我不能完全理解
它们
,你能在这两个方面都举一个例子吗?
浏览 8
提问于2020-05-07
得票数 0
7
回答
Python:将pandas数据帧保存到拼图文件
python-3.x
、
hdfs
、
parquet
可以将pandas数据框直接保存到拼图文件
中
吗?如果没有,建议的流程是什么? 目标是能够将拼图文件发送给另一个团队,他们可以使用scala代码读取/打开该文件。谢谢!
浏览 0
提问于2016-12-10
得票数 27
1
回答
雪花不扣除拼花中的按列
分区
snowflake-cloud-data-platform
、
parquet
推断模式函数
在
拼图文件上执行得非常好,并返回正确的数据类型。但是,当对拼图文件进行
分区
并将其存储
在
S3
中
时,推断模式的功能与
pyspark
数据帧不同。当地块文件存储
在
没有
分区
的S3
中
时,模式是完全派生出来的。然而,如果拼图文件存储
在
分区
中
-如上图所示。":“20302”}
在
本例
中
,snowflake infer Schema仅提供三列;但是,读取<em
浏览 0
提问于2021-10-21
得票数 5
1
回答
<星火Dataframe>.write.parquet(<directory>)和<火花Dataframe>.write.parquet(<file name>.parquet)的区别
pyspark
、
parquet
我意识到,在运行spark时,最好有至少
与
内核一样多的
地板
文件(
分区
),以便尽可能充分地利用spark。但是,制作一个大的拼花文件和几个较小的拼花文件来存储数据有什么好处/缺点?作为一个测试,我使用这个数据集: import
pyspark
当我ls -lh文件时,我看到: test.parquet文件是
浏览 7
提问于2022-06-03
得票数 0
回答已采纳
1
回答
Magento
中
的特殊滤波器
magento
对于Magento网络商店,我希望te创建一个
过滤
器。此筛选器如下所示:
在
使用下拉列表进行
过滤
后,它只显示下拉列表2
中
与
产品名称相关的产品。 有人知道如何创建这个
过滤
器吗?所以当我
在
floor和plint之间建立关系时,plint必须显示
在
floor的产品页面上。这很容易设置。但当我到品类页面的皮林我必须快速
过滤
到皮林,所以第一个客户可以设置
地板
的品牌,
浏览 0
提问于2013-07-02
得票数 0
回答已采纳
2
回答
如何更改pysark
中
DataFrame的hdfs块大小
hadoop
、
apache-spark
、
pyspark
、
hdfs
这似乎
与
####################from
pyspark
.sql
浏览 0
提问于2018-03-14
得票数 0
1
回答
分组拼图压缩性能与平面数据
apache-spark
、
compression
、
bigdata
、
parquet
[12, 52]|| id2| [51, 53, 34]| +-------+----------------+ 关于哪种方法可以
在
文件系统上获得更好的存储
浏览 5
提问于2019-07-02
得票数 2
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Spark 3.0重磅发布!开发近两年,流、Python、SQL重大更新全面解读
一文读懂PySpark数据框
一文读懂 PySpark 数据框
机器学习实践:如何将Spark与Python结合?
走进大数据 ETL-性能分析
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
云直播
实时音视频
活动推荐
运营活动
广告
关闭
领券