开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

将一个21亿行的大型csv文件拆分成多个较小的文件，并以列作为ID

，可以通过以下步骤完成：

首先，需要选择一种适合处理大型文件的编程语言，例如Python、Java或C++。这些语言都有强大的文件处理能力和丰富的库支持。
使用所选的编程语言编写一个程序来读取大型csv文件。可以使用文件流或逐行读取的方式，以避免将整个文件加载到内存中。
根据需要拆分的列作为ID，可以选择其中一个列作为唯一标识符。例如，如果有一个名为"ID"的列，可以将其作为拆分的依据。
创建一个数据结构来存储拆分后的数据。可以使用字典、列表或其他适合存储大量数据的数据结构。
遍历大型csv文件的每一行，根据拆分的列的值将行添加到相应的数据结构中。如果数据结构中不存在该值对应的键，则创建一个新的键，并将行添加到该键对应的值中。
当数据结构中的数据量达到一定阈值时，将数据写入一个新的较小的csv文件。可以使用编程语言提供的文件写入功能，将数据写入新的文件中。
重复步骤5和步骤6，直到遍历完整个大型csv文件。
最后，得到多个较小的csv文件，每个文件包含根据拆分的列的值进行分类的行数据。

这是一个基本的处理大型csv文件并拆分成多个较小文件的方法。具体的实现细节和优化方式会根据所选的编程语言和具体需求而有所不同。在腾讯云的产品中，可以使用云服务器、云函数、对象存储等服务来支持文件处理和存储需求。

相关搜索:Apache Nifi -将大型Json文件拆分成具有指定记录数的多个文件 excel文件中的每两列被分成多个csv文件从csv文件创建数据帧，csv文件将列表作为其中一列中的条目作为多个csv文件的结果，如何对一个csv文件的一列中的某些值进行排序？使用pandas将多个重叠的ohlc csv合并为一个排序的csv文件使用Python将值列表作为单独的列写入CSV文件使用未对齐的python将多个csv文件合并为一个文件使用自定义分隔符将一个大型文本文件拆分为多个较小的文件。从较小文件的标头派生的每个新文件名如何使用pandas根据列id将多个csv文件合并为一个文件如何在使用bash维护标头和文件扩展名的同时，将大型CSV文件拆分成小部分

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

收藏！6道常见hadoop面试题及答案解析

你准备好面试了吗？呀，需要Hadoop面试题知识！不要慌！这里有一些可能会问到的问题以及你应该给出的答案。

08

整理了 25 个 Pandas 实用技巧，拿走不谢！

来源：www.cnblogs.com/jclian91/p/12305471.html

01

MySQL开发规范

索引是一把双刃剑，它可以提高查询效率但也会降低插入和更新的速度并占用磁盘空间

01

必要商城MySQL开发规范

索引是一把双刃剑，它可以提高查询效率但也会降低插入和更新的速度并占用磁盘空间

01

机器学习100天学习笔记1：简单的线性模型

https://github.com/Avik-Jain/100-Days-Of-ML-Code/blob/master/Code/Day2_Simple_Linear_Regression.md

03

数据科学家需要掌握的几大命令行骚操作

对于许多数据科学家来说，数据操作起始于Pandas或Tidyverse。从理论上看，这个概念没有错。毕竟，这是为什么这些工具首先存在的原因。然而，对于分隔符转换等简单任务来说，这些选项通常可能是过于重量级了。有意掌握命令行应该在每个开发人员的技能链上，特别是数据科学家。学习shell中的来龙去脉无可否认地会让你更高效。除此之外，命令行还在计算方面有一次伟大的历史记录。例如，awk - 一种数据驱动的脚本语言。Awk首次出现于1977年，它是在传奇的K&R一书中的K，Brian Kernighan的帮助下出现的。在今天，大约50年之后，awk仍然与每年出现的新书保持相关联！因此，可以肯定的是，对命令行技术的投入不会很快贬值的。

02

Mysql实战面试题

B Tree 指的是 Balance Tree，也就是平衡树。平衡树是一颗查找树，并且所有叶子节点位于同一层。

03

【干货】MySQL数据库开发规范

所有的数据库对象名称必须使用小写字母并用下划线分割（MySQL大小写敏感，名称要见名知意，最好不超过32字符）所有的数据库对象名称禁止使用MySQL保留关键字（如 desc、range、match、delayed 等，请参考 MySQL官方保留字【https://dev.mysql.com/doc/refman/5.7/en/keywords.html】）临时库表必须以tmp为前缀并以日期为后缀（tmp_）备份库和库必须以bak为前缀并以日期为后缀(bak_) 所有存储相同数据的

02

分布式计算技术MapReduce 详细解读

上周我们学习了消息中间件的核心原理以及如何搭建一套高并发高可用且支持海量存储的生产架构（今天来设计一套高可用高并发、海量存储以及可伸缩的消息中间件生产架构），我们暂且先放一放，后面再进行RocketMQ 详细讲解，今天我们开始学习分布式系统中的另一个核心知识点，即分布式技术技术。

01

Python数据分析之Pandas读写外部数据文件

数据分析、数据挖掘、可视化是Python的众多强项之一，但无论是这几项中的哪一项都必须以数据作为基础，数据通常都存储在外部文件中，例如txt、csv、excel、数据库。本篇中，我们来捋一捋Python中那些外部数据文件读取、写入的常用方法。

01

MySQL Shell转储和加载第3部分：加载转储

MySQL Shell转储和加载实用程序是MySQL Shell 8.0.21提供的新工具，其主要目标是尽量减少创建和恢复大型数据集的逻辑转储所需的时间。

01

深入理解pandas读取excel,txt,csv文件等命令

文档操作属于pandas里面的Input/Output也就是IO操作，基本的API都在上述网址，接下来本文核心带你理解部分常用的命令

04

以预测股票涨跌案例入门基于SVM的机器学习

SVM是Support Vector Machine的缩写，中文叫支持向量机，通过它可以对样本数据进行分类。以股票为例，SVM能根据若干特征样本数据，把待预测的目标结果划分成“涨”和”跌”两种，从而实现预测股票涨跌的效果。

05

深入理解pandas读取excel,tx

文档操作属于pandas里面的Input/Output也就是IO操作，基本的API都在上述网址，接下来本文核心带你理解部分常用的命令

01

10个高效的pandas技巧

原题 | 10 Python Pandas tricks that make your work more efficient

01

关于自增id 你可能还不知道

自增id是整型字段，我们常用int类型来定义增长id，而int类型有上限即增长id也是有上限的。

03

数据科学家必用的25个深度学习的开放数据集！

原文：https://www.analyticsvidhya.com/blog/2018/03/comprehensive-collection-deep-learning-datasets/?spm

最全面的Pandas的教程！没有之一!

Pandas 是基于 NumPy 的一个开源 Python 库，它被广泛用于快速分析数据，以及数据清洗和准备等工作。它的名字来源是由“ Panel data”（面板数据，一个计量经济学名词）两个单词拼成的。简单地说，你可以把 Pandas 看作是 Python 版的 Excel。

06

问与答61：如何将一个文本文件中满足指定条件的内容筛选到另一个文本文件中？

Q：如下图1所示，一个名为“InputFile.csv”文件，每行有6个数字，每个数字使用空格分隔开。

01

资源 | 简单快捷的数据处理，数据科学需要注意的命令行

作者：Kade Killary 机器之心编译参与：Nurhachu Null、思源对很多数据科学家而言，他们的数据操作经常需要使用 Pandas 或者 Tidyverse。理论上，这个说法没有任何错误，毕竟这就是这些工具存在的原因。然而，对于分隔符转换这样的简单任务而言，这些工具往往是大材小用，我们可以直接使用命令行快速处理。命令行应该是每个开发者都希望掌握的，尤其是数据科学家。熟悉终端的来龙去脉可以毫无疑问地可以让我们变得更加有效率，因此命令行还是计算机技术中的一个很棒的历史课。例如，awk 这个

05

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭