首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

Python处理CSV文件(一)

CSV(comma-separated value,逗号分隔值)文件格式是一种非常简单的数据存储与分享方式。CSV 文件将数据表格存储为纯文本,表格(或电子表格)中的每个单元格都是一个数值或字符串。与 Excel 文件相比,CSV 文件的一个主要优点是有很多程序可以存储、转换和处理纯文本文件;相比之下,能够处理 Excel 文件的程序却不多。所有电子表格程序、文字处理程序或简单的文本编辑器都可以处理纯文本文件,但不是所有的程序都能处理 Excel 文件。尽管 Excel 是一个功能非常强大的工具,但是当你使用 Excel 文件时,还是会被局限在 Excel 提供的功能范围内。CSV 文件则为你提供了非常大的自由,使你在完成任务的时候可以选择合适的工具来处理数据——如果没有现成的工具,那就使用 Python 自己开发一个!

01

利用Python批量合并csv

前几天遇到一个工作,需要将几个分别包含几十万行的csv文件的某3列合并成1个csv文件,当时是手工合并的: 1、csv另存为excel; 2、删除不需要的列,仅保留想要的列 3、excel另存为csv 4、最后,手工合并处理好的csv 不得不说,这样操作效率真的很低,尤其是操作几十万行的文件,当时就想利用python代码肯定可以实现,今天利用周末的时间好好研究了一下,终于实现了,操作几十万行的文件只需要一两分钟,比手工高效多了。 实现思路如下: 1、利用os模块获取文件下所有csv文件(表结构相同) 2、用pandas打开第一个文件; 3、循环打开剩下的文件; 4、利用pd.concat拼接不同的df,该方法可以自动去除多余的标题行; 5、挑选需要的列,去重; 6、将结果输出文csv文件; 完整代码如下:

02

TensorFlow从1到2(十四)评估器的使用和泰坦尼克号乘客分析

通常认为评估器因为内置的紧密结合,运行速度要高于Keras。Keras一直是一个通用的高层框架,除了支持TensorFlow作为后端,还同时支持Theano和CNTK。高度的抽象肯定会影响Keras的速度,不过本人并未实际对比测试。我觉的,对于大量数据导致的长时间训练来说,这点效率上的差异不应当成为大问题,否则Python这种解释型的语言就不会成为优选的机器学习基础平台了。 在TensorFlow 1.x中可以使用tf.estimator.model_to_estimator方法将Keras模型转换为TensorFlow评估器。TensorFlow 2.0中,统一到了tf.keras.estimator.model_to_estimator方法。所以如果偏爱评估器的话,使用Keras也不会成为障碍。

02
领券