首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >在Python中解析mbox文件

在Python中解析mbox文件
EN

Stack Overflow用户
提问于 2012-04-21 02:45:24
回答 1查看 15K关注 0票数 16

Python新手在这里。我想浏览一个很大的mbox文件,解析电子邮件。我可以这样做:

代码语言:javascript
复制
import sys
import mailbox

def gen_summary(filename):
    mbox = mailbox.mbox(filename)
    for message in mbox:
       subj = message['subject']
       print subj

if __name__ == "__main__":
    if len(sys.argv) != 2:
        print 'Usage: python genarchivesum.py mbox'
        sys.exit(1)

    gen_summary(sys.argv[1])

但我需要更多的控制。我需要能够获取mbox文件中给定电子邮件开头的字节位置,还需要获取消息中的字节数(如磁盘上所示)。然后在将来,我不需要从mbox文件的开头开始迭代,而是需要能够查找到给定的消息并解析它(因此,获取磁盘上的字节位置是需要之一)。这些都是大的mbox文件,效率是一个问题。

这样做的目的是,我可以生成一个摘要文件,其中包含mbox中每个电子邮件的一些小片段,然后在将来有效地查找mbox中的各个电子邮件。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2012-04-21 04:01:46

我还没有测试过,但是像这样的东西可能对你有用。只需打开文件(在二进制模式下,因此您的字节计数是正确的),并扫描它,找到消息。

代码语言:javascript
复制
def is_mail_start(line):
    return line.startswith("From ")

def build_index(fname):
    with open(fname, "rb") as f:
        i = 0
        b = 0
        # find start of first message
        for line in f:
            b += len(line)
            if is_mail_start(line):
                break
        # find start of each message, and yield up (index, length) of previous message
        for line in f:
            if is_mail_start(line):
                yield (i, b)
                i += b
                b = 0
            b += len(line)
        yield (i, b) # yield up (index, length) of last message

# get index as a list
mbox_index = list(build_index(fname))

一旦有了索引,就可以在文件对象上使用.seek()方法查找,在文件对象上使用.read(length)方法只读取一条消息。不过,我不确定如何使用带有字符串的mailbox模块;我认为它应该就地在邮箱上工作。也许你还可以使用其他的邮件解析模块。

票数 9
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/10251782

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档