开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >问答首页 >将CSV文件拆分为两个文件，在两个文件中保留标头

问将CSV文件拆分为两个文件，在两个文件中保留标头
EN

Stack Overflow用户

提问于 2021-10-13 16:00:48

回答 1查看 22关注 0票数 0

我正在尝试将一个大的CSV文件拆分为两个文件。我正在使用下面的代码

import pandas as pd

#csv file name to be read in
in_csv = 'Master_file.csv'

#get the number of lines of the csv file to be read
number_lines = sum(1 for row in (open(in_csv)))

#size of rows of data to write to the csv,

#you can change the row size according to your need
rowsize = 600000

#start looping through data writing it to a new file for each set
for i in range(0,number_lines,rowsize):

    df = pd.read_csv(in_csv,
          nrows = rowsize,#number of rows to read at each loop
          skiprows = i)#skip rows that have been read

    #csv to write data to a new file with indexed name. input_1.csv etc.
    out_csv = 'File_Number' + str(i) + '.csv'

    df.to_csv(out_csv,
          index=False,
          header=True,
          mode='a',#append data to csv file
          chunksize=rowsize)#size of data to append for each loop

它正在拆分文件，但它在第二个文件中缺少标头。我怎么才能修复它呢？

平台电商解决方案

为客户提供电商客服、电商图片系统识别及搜索的快速搭建方案

EN

回答 1

Stack Overflow用户

发布于 2021-10-13 18:14:50

当与chunksize一起使用时，.read_csv()返回一个迭代器，然后跟踪标头。下面是一个示例。这应该要快得多，因为上面的原始代码读取整个文件来计算行数，然后在每次块迭代中重新读取之前的所有行；而下面的代码只读取文件一次：

import pandas as pd

with pd.read_csv('Master_file.csv', chunksize=60000) as reader:
    for i,chunk in enumerate(reader):
        chunk.to_csv(f'File_Number{i}.csv', index=False, header=True)

票数 0

EN

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/69563629

复制

相关文章

cmake:在Makefile中运行ant脚本

打包 apache makefile c++https

版权声明：本文为博主原创文章，转载请注明源地址。 https://blog.csdn.net/10km/article/details/51832822

10km

2019/05/25

1.7K0

quartus ii运行错误_安装quartus时弹出错误

https 网络安全

Info: ******************************************************************* Info: Running Quartus II 64-Bit Analysis & Synthesis Info: Version 11.0 Build 157 04/27/2011 SJ Full Version Info: Processing started: Thu May 15 13:09:59 2014 Info: Command: quartus_map –read_settings_files=on –write_settings_files=off simulate -c simulate Info: Parallel compilation is enabled and will use 2 of the 2 processors detected Info: Found 1 design units, including 1 entities, in source file simulate.v Info: Found entity 1: modelsim_test Error: Top-level design entity “simulate” is undefined

全栈程序员站长

2022/11/04

5.1K0

quartus ii运行错误_安装quartus时弹出错误

在Windows系统中愉快的运行Linux 系统

linux windows python unix

曾经的小编一直都是使用Windows系统，但是当很多人都在我耳边说，用Linux吧，Windows不行；当时不由得怒火朝天，不是因为我在用Windows，而是别人这样说不就等于说用WIndows的男人不行吗？这谁忍得住，要知道，一个男人最忌讳的就是别人说它不行，不管男人女人都不能说，就好比不能说女生胖啊，丑啊啥的，毕竟咱们要学会尊重别人这样才会受到别人的尊重；当然，如果你是一个吊儿郎当的人的话，上面的话当我放屁。哈哈，言归正传，今天小编决定带大家玩一玩Linux系统，不过不是在虚拟机中装Linux系统，下面跟小编一起来看看吧。

Python进阶者

2021/08/22

7.9K0

在Windows系统中愉快的运行Linux 系统

linux windows python unix

曾经的小编一直都是使用Windows系统，但是当很多人都在我耳边说，用Linux吧，Windows不行；当时不由得怒火朝天，不是因为我在用Windows，而是别人这样说不就等于说用WIndows的男人不行吗？这谁忍得住，要知道，一个男人最忌讳的就是别人说它不行，不管男人女人都不能说，就好比不能说女生胖啊，丑啊啥的，毕竟咱们要学会尊重别人这样才会受到别人的尊重；当然，如果你是一个吊儿郎当的人的话，上面的话当我放屁。哈哈，言归正传，今天小编决定带大家玩一玩Linux系统，不过不是在虚拟机中装Linux系统，下面跟小编一起来看看吧。

前端皮皮

2021/07/23

7.3K0

在 Centos8 中以脚本模式运行 Top

linux 脚本内存内核排序

在 Centos8 中，我们执行本文中的命令。下面命令按照 CPU 使用率对数据进行排序，并打印命令中指定的前 20 行。

用户7639835

2021/09/01

1.3K0

在Hadoop上运行Python脚本

hadoop http html python mapreduce

之前已经配置好了Hadoop以及Yarn，可那只是第一步。下面还要在上面运行各种程序，这才是最重要的。

py3study

2020/01/06

4.3K0

[204]linux运行firefox出错

linux firefox gtk gtk3

虚拟机自带的firefox版本太旧了，于是在官网上下载了最新的安装包，运行后提示：

周小董

2022/04/12

7.4K0

Maven运行sonar出错

Maven运行sonar报错 Unable to determine structure of project. Probably you use Maven Advanced Reactor Options, which is not supported by SonarQube and should not be used.

白凡

2018/08/07

1.5K0

windows 任何应用程序在运行里直接打开

windows gif icon

很多时候电脑的桌面应用 icon 很多了，不方便找到也比较浪费时间，还有有些应用 icon 也许不想放在桌面上，如果能用命令方式打开应用那该多好。

卓越笔记

2023/02/18

9270

windows 任何应用程序在运行里直接打开

Powershell运行脚本报错:此系统上禁止运行脚本

powershell set 脚本系统

当在powershell运行脚本的时候，报错“此系统上禁止运行脚本” 使用 set-executionpolicy remotesigned 执行策略更改执行策略可以防止您执行不信任的脚本。更改执行

治电小白菜

2020/08/25

1.5K0

在eclipse中运行hive时显示Software caused connection ab...

启动hive机器thrift监听程序： hadoop@ubuntu118:~$ hive --service hiveserver 50031 Starting Hive Thrift Server This usage has been deprecated, consider using the new command line syntax (run with -h to see usage information) WARNING: org.apache.hadoop.metrics.jvm.Eve

闵开慧

2018/03/30

1.2K0

在eclipse中运行hbase时显示Could not resolve the DNS na...

ERROR hbase.HServerAddress: Could not resolve the DNS name of ubuntu118 Exception in thread "main" java.lang.IllegalArgumentException: hostname can't be null at java.net.InetSocketAddress.<init>(InetSocketAddress.java:121) at org.apache.had

闵开慧

2018/03/30

1.3K0

Eclipse中运行Tomcat遇到的内存溢出错误

eclipse ide tomcat java jvm

使用Eclipse(版本Indigo 3.7)调试Java项目的时候，遇到了下面的错误：

大江小浪

2019/02/22

1.4K0

Eclipse中运行Tomcat遇到的内存溢出错误

在AIX建立开机自动运行脚本

. run-level 2 May 20 11:35 2 0 S

星哥玩云

2022/07/01

1.3K0

在 Android 模拟器上运行 ARM 应用

arm android c++java api

随着 Android 11 开发者预览版的发布，我们同时也推出了 Android 11 系统映像。新的系统映像在执行 ARM 二进制文件方面取得了显著的性能提升。此前，依赖 ARM 库且无法构建 x86 版本应用的开发者只能使用完整的 ARM 模拟系统映像 (其速度远低于在 x86 设备上运行 x86 系统映像) 或者实体机。Android 11 系统映像能够在不影响整个系统的前提下，直接将 ARM 指令转换成 x86 指令。开发者无需搭建高负载的 ARM 环境即可执行 ARM 二进制文件并进行测试。

Android 开发者

2020/04/10

3.7K0

在 Android 模拟器上运行 ARM 应用

打包 apt-get bash bash 指令 http

这个实验的具体内容就是gem5输出矩阵乘的访存trace，然后做个cache模拟器分析，我主要是入门一下gem5.我的系统是ubuntu16.04,主要流程如下

用户1148523

2020/05/08

2K0

OpenWRT中运行脚本报错

编程算法 bash bash 指令命令行工具

报错详情如下 root@OpenWrt:~# /root/connect_net.sh -ash: /root/connect_net.sh: not found

指剑

2022/07/15

1.4K0

删除docker的运行目录出错

容器镜像服务容器

1.1. rm: cannot remove '/var/lib/docker/aufs': Device or resource busy

一夕如环

2019/02/13

2.8K0

删除docker的运行目录出错

Jenkins运行恢复的Job出错

今天由于误操作，删除了一个Job，在我重新恢复这个Job之后，重新运行的时候报如下错误

kongxx

2018/08/16

1.4K0

【shell脚本】$ 在shell脚本中的使用

注释：$* 和 $@ 都表示传递给函数或脚本的所有参数，不被双引号(" ")包含时，都以"$1" "$2" … "$n" 的形式输出所有参数。但是当它们被双引号(" ")包含时，"$*" 会将所有的参数作为一个整体，以"$1 $2 … $n"的形式输出所有参数；"$@" 会将各个参数分开，以"$1" "$2" … "$n" 的形式输出所有参数

码缘

2019/07/01

6.3K0

相似问题

运行gem5全系统模式时出错

01

本地运行U脚本时系统出错

22

可以在Gem5系统调用模拟模式下运行Python代码吗？

11

在ARM bigLITTLE上运行gem5 full system时出错

16

PerfKvmCounter：：附加失败(1)在码头上运行gem5 x86全系统模式时出错

152

活动推荐

SaaS建站+私有服务器，拖拉式完成多端建站，5分钟搭建企业官网

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例