如何将一个大拼图文件拆分成多个拼图文件并按时间列保存到不同的hadoop路径中

scala、apache-spark、rdd、parquet、large-data

我的sparquet文件如下所示 id、名称、日期 1，a，1980-09-08 2，b，1980-09-08 3，c，2017-09-09 希望输出文件如下所示 ? 文件夹19800908包含数据 id、名称、日期 1，a，1980-09-08 2，b，1980-09-08 文件夹20170909包含数据 id、名称、日期 3，c，2017-09-09 我知道可以groupBykey date，但不知道如何使用这样的类MultipleTextOutputFormat输出多

浏览 66提问于2019-07-03得票数 0

1回答

将Parquet文件分区列存储在不同文件中

python、pandas、parquet、pyarrow、apache-arrow

我想以parquet格式存储一个表格数据集，对不同的列组使用不同的文件。可以按列对拼图文件进行分区吗？如果是这样的话，是否可以使用python (pyarrow)来实现呢？我有一个大型数据集，它收集了许多对象(行)的属性/特性(列)。行数约为100k-1M (行数将随着时间的推移而增长)。相反，这些<

浏览 47提问于2020-03-05得票数 3

1回答

Spark的int96时间类型

datetime、apache-spark、parquet

当您在spark中创建一个timestamp列并保存到parquet时，您将获得一个12字节的整型列类型(int96)；我收集的数据被分成6个字节，分别表示儒略日和一天内的纳秒。我的问题是，Spark如何知道加载这样

浏览 0提问于2017-03-06得票数 6

回答已采纳

2回答

对于1-2列，多个镶嵌块文件具有不同的数据类型

python、pyspark、schema、parquet

我尝试使用Pyspark将不同的拼图文件读取到一个数据帧中，但它给了我错误，因为多个拼图文件中的一些列具有不同数据类型的列。例如:列"geo“在某些文件中的数据类型为"Double”，在另一些文

浏览 12提问于2021-11-22得票数 0

5回答

为python中的大型文件创建校验和的最快方法

python、multithreading、md5、crc32、hashlib

我需要通过网络传输大型文件，并需要为它们创建每小时的校验和。所以生成校验和的速度对我来说是至关重要的。不知何故，我无法让zlib.crc32和zlib.adler32在Windows 64位计算机上处理大于4GB的文件。我想我已经达到32位限制了？使用hashlib.md5，我可以得到一个结果，但问题是速度。生成4.8GB文件的md5大约需要5分钟。任务管理器显示流程仅使用一个核心。

浏览 4提问于2009-10-07得票数 6

3回答

关于Hadoop/HDFS文件分割

hadoop、mapreduce

只要确认一下就行了。请验证这是否正确: 1.根据我的理解，当我们将文件复制到HDFS中时，文件(假设其大小>64 my = HDFS块大小)被分割成多个块，并且每个块存储在不同的数据节点上。当文件被复制到HDFS中时，文件内容已经被分割成块，并且在运行映射作业时不会发生文件拆分。地图任务的调度方式只能使它们在最大的每个块上工作。具有数据局部

浏览 19提问于2012-02-13得票数 20

回答已采纳

4回答

带分区的多个火花作业将拼花数据附加到相同的基路径

apache-spark、parquet

我想并行执行多个作业，使用分区将每日数据附加到相同的路径中。dataFrame.write().，然后将生成的parquet文件保存到各自的分区中。它将工作文件保存到基本路径。 S3://桶/保存/路径/临时/.因此，这两个作业最终共享同一个临时文件夹并导致冲

浏览 3提问于2016-08-16得票数 29

回答已采纳

2回答

内存管理火花

apache-spark、memory-management、pyspark

1.)我理解“星火的操作人员如果数据不适合内存，就会将数据泄漏到磁盘上，允许它在任何大小的数据上运行良好”。如果这是真的，为什么我们会得到OOM (内存中的)错误？3.)与Hive相比，Spark更容易受到OOM的影响，因为它在内存中执行操作，Hive会重复读取、写入磁盘。对吗？

浏览 4提问于2020-07-17得票数 0

回答已采纳

8回答

蜂群按vs顺序按vs排序

hadoop、hql、hive

据我所知；那么，我的问题是，集群是否保证了全球秩序？按相同的键分配到相同的减速器中，但是相邻的键怎么办？我能在这上面找到的唯一文档是，从示例看，它似乎是在全球范围内订购它们。但从定义上看，我觉得它并不总是那么做。

浏览 7提问于2012-12-05得票数 66

回答已采纳

14回答

计算大文件中的行数

linux、mapreduce

我通常处理大约20 Gb大小的文本文件，并且我发现自己经常计算给定文件中的行数。我希望解决方案像wc -l解决方案一样简单，就像一行运

浏览 0提问于2012-10-04得票数 77

回答已采纳

7回答

比较大型文件的内容

c#、binary、compare、large-files

我需要比较大型文件的内容。程序的速度很重要。我需要100%的匹配，我读了很多信息，但没有找到最佳的解决方案。我有两个选择和两个问题。你有什么建议？也许我可以利用线？MemoryMappedFile会有帮助吗？

浏览 13提问于2012-08-24得票数 2

4回答

用于处理历史记录的ETL

performance、oracle、etl

下表UID | State | Date2 | Inactive | 20120517我们通常对每个用户的最新状态不感兴趣。到目前为止还不错，只要分拣一下，我们就能得到我们想要的方式。唯一的问题是，这些文件通常都很大。就像20-60gb一样，对这些家伙进行排

浏览 4提问于2012-05-18得票数 3

回答已采纳

8回答

在Hive中划分和存储表有什么区别？

hadoop、hive

我知道这两个操作都是在表中的一个列上执行的，但是每个操作有什么不同。

浏览 0提问于2013-10-02得票数 152

回答已采纳

2回答

求出大型数字列表的平均值

algorithm

编写一个算法来找到一个大列表的平均(平均值)。此列表可以包含数万亿或万亿个数字。每一个数字都是可以管理的，有数百，数千，甚至几百万。如何处理这么大的清单？

浏览 6提问于2014-02-10得票数 1

回答已采纳

2回答

将每个AWS S3文件作为单独的行存储在数据库中？

database、database-design、amazon-s3、amazon-web-services、filesystems

我知道，但是我找不到任何堆栈溢出问题，这些问题深入到了如何存储多个相关文件。我的问题是，如何处理具有相同“文件夹”路径的多个文件。/

浏览 4提问于2012-10-27得票数 3

回答已采纳

10回答

如何对非常大的文件进行排序

java、file、sorting

我有一些文件应该根据每行开头的id进行排序。文件大小约为2-3 gb。0022024 0000004000000000000000000000000000000041 George Clan 00013如何对文件进行排序

浏览 15提问于2011-10-27得票数 32

回答已采纳

12回答

根驱动器正在耗尽磁盘空间。我怎样才能腾出空间？

disk-usage

我使用的是Ubuntu11.04，我想在我的根目录中释放一些空间，这是重载的。我特别希望更改用于安装应用程序的路径(它们将直接安装到根驱动器)。另一个考虑因素是，我正在处理一个MySQL数据库服务器。服务器安装在根目录本身，所以我不想冒丢失任何数据的风险。请给我一些帮助解决这个问题的建议。

浏览 0提问于2011-08-20得票数 67

11回答

将javascript放入一个.js文件中，还是将其拆分成多个.js文件？

javascript

我的web应用程序使用jQuery和一些jQuery插件(例如，验证、自动完成)。我想知道是应该将它们放在一个.js文件中以便更容易缓存，还是应该将它们分开放到不同的文件中，只包含给定页面所需的文件。我还应该提到，我关心的不仅是下载.js文件所需的时间，还包括根据加载的.js文件的</

浏览 1提问于2009-02-17得票数 51

10回答

快速读取非常大的表作为数据帧

r、import、dataframe、r-faq

我有非常大的表(3000万行)，我想在R中加载作为数据帧。read.table()有很多方便的功能，但似乎在实现中有很多逻辑会减慢速度。在我的例子中，我假设我提前知道列的类型，表不包含任何列标题或行名，并且没有任何我必须担心的病态字符。例如： datalist <- scan('myfile',sep='\t',list(url='',popularity=0,mintime=0,max

浏览 5提问于2009-11-13得票数 538

回答已采纳

1回答

确定一系列数据的平均值

javascript、json、momentjs

我收集了一组天气数据，如下所示： "city_name": "London", "lon": -0.127758年中，此数据按日期升序(逐小时)继续。从这些数据中，我希望获得整个数据集内每个月和每周的平均温度(object.main.temp)。过去40年里，1月份的

浏览 1提问于2020-08-23得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

将Parquet文件分区列存储在不同文件中

Spark的int96时间类型

对于1-2列，多个镶嵌块文件具有不同的数据类型

为python中的大型文件创建校验和的最快方法

关于Hadoop/HDFS文件分割

带分区的多个火花作业将拼花数据附加到相同的基路径

内存管理火花

蜂群按vs顺序按vs排序

计算大文件中的行数

比较大型文件的内容

用于处理历史记录的ETL

在Hive中划分和存储表有什么区别？

求出大型数字列表的平均值

将每个AWS S3文件作为单独的行存储在数据库中？

如何对非常大的文件进行排序

根驱动器正在耗尽磁盘空间。我怎样才能腾出空间？

将javascript放入一个.js文件中，还是将其拆分成多个.js文件？

快速读取非常大的表作为数据帧

确定一系列数据的平均值

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐