首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

python对大文件的增量读取

对于很多大文件的增量读取,如果遍历每一行比对历史记录的输钱或者全都加载到内存通过历史记录的索引查找,是非常浪费资源的,网上有很多人的技术博客都是写的用for循环readline以及一个计数器去增量读取,这样是十分脑残的,假如文件很大,遍历一次太久。  我们需要了解获取文件句柄的基本理论,其中包含的指针操作等。  原理是这样子,linux的文件描述符的struct里有一个f_pos的这么个属性,里面存着文件当前读取位置,通过这个东东经过vfs的一系列映射就会得到硬盘存储的位置了,所以很直接,很快。  以下是利用python实战代码,核心函数tell(),seek(). 也是调用的系统调用seek tell seek()的三种模式:    (1)f.seek(p,0)  移动当文件第p个字节处,绝对位置    (2)f.seek(p,1)  移动到相对于当前位置之后的p个字节    (3)f.seek(p,2)  移动到相对文章尾之后的p个字节 tell():    返回当前文件的读取位置。 代码: #!/usr/bin/python fd=open("test.txt",'r') #获得一个句柄 for i in xrange(1,3): #读取三行数据    fd.readline() label=fd.tell() #记录读取到的位置 fd.close() #关闭文件 #再次阅读文件 fd=open("test.txt",'r') #获得一个句柄 fd.seek(label,0)# 把文件读取指针移动到之前记录的位置 fd.readline() #接着上次的位置继续向下读取 后续:今儿有一人问我如何得知这个大文件行数,以及变化,我的想法是 方法1: 可以去遍历'\n'字符。 方法2: 从一开始就用for循环fd.readline()进行计数,然后变化的部分(用上文说的seek、tell函数做)再用for循环fd.readline()进行统计增加行数。

01

循环结构for

教程: 高能:语句结构都是由关键字开头,用冒号结束!     一:语句结构 for <variable> in <sequence>:     <statements> else:                # else可有可无     <statements> 二:基本规则     (1)使用缩进来划分语句块,相同缩进数的语句在一起组成一个语句块。     (2)sequence可以是任何序列的项目,如一个列表或者一个字符串。 三:条件为真     不为 0, True, 'None', 字符串不为空串 四:range函数     range(start, end, scan)           start计数开始的位置           end计数结束的位置           scan每次跳跃的间隔     经常用到的地方是遍历一个数字列表的时候 五:循环嵌套 六:continue和break

03

扫码

添加站长 进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

    运营活动

    活动名称
    广告关闭
    领券