我知道有其他工具可以方便的完成我的工作(比如pandas),对于本文的目的, 我只打算用python的方式来处理这些数据.
这个csv文件超过了2G, 200万条的数据....It just works. — David Beazley, Generator Tricks for Systems Programmers
Generators 可以让你很容易的从一个很大的数据集惰性遍历获取单条数据...' 参数, 该方案不能完美的解决问题, 当编码一个字符串出现问题, Python 提供了三种方法:
1. strict - 抛出一个致命的错误
2. ignore - 删除这个字符
3. replace...更锦上添花
我不太想用索引来获取数据, 就像下面一样, 一点都不pythonic
Python
# Example: email_row[0], email_row[1], email_row[2],...yield EmailRecord(*ascii_email_record)
关于NamedTuples, 它属于标准库里面的, 可以访问这里查看文档 NamedTuples
总结
我们只是学习怎么让自己的电脑不死机