前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >31.2企业级开发进阶3.2:接收电子邮件引入解析需要的模块解析邮件内容引入需要的模块定义解析邮件内容的函数decode_header解码操作函数

31.2企业级开发进阶3.2:接收电子邮件引入解析需要的模块解析邮件内容引入需要的模块定义解析邮件内容的函数decode_header解码操作函数

作者头像
大牧莫邪
发布2018-08-27 17:30:41
7560
发布2018-08-27 17:30:41
举报

上一节内容中,我们通过Python进行了电子邮件发送功能的处理 本节内容内容主要讲解接收邮件功能的处理

通过SMTP协议发送邮件,我们通过POP3协议接收邮件

回顾一下邮件发送的过程 电子邮件 -> MUA -> MTA -> ...MTA -> MDA <- MUA <- 电子邮件

我们发送邮件主要实现的是MUA->MTA的过程

使用的模块如下 email smtplib email.header.Header email.utils.parseaddr/formataddr email.mime.mutipart.MIMEMultipart email.mime.base.MMEBase email.mime.text.MIMEText

本节内容

  • POP3协议简介
  • 收取邮件

1. POP3协议简介

1.1简介

POP3协议,全名为Post Office Protocol - Vesion 3,邮局协议 版本3 POP3协议是TCP/IP协议族中的一种,由RFC1939定义 协议主要用于支持使用客户端远程管理在服务器上的电子邮件 提供了SSL加密的POP3协议被称为POP3S

POP协议主持离线有限处理,通常情况下邮件发送到服务器上,电子邮件客户端将邮件从邮件服务器获取到个人终PC上,邮件服务器上的邮件会被删除;目前POP3邮件服务器大部分可以获取邮件的同时不删除服务器上的邮件

1.2特性

默认端口:110 默认传输协议:TCP 使用的软件结构:C/S 访问模式:离线访问

1.3 POP3常见命令码

POP3常见命令码

1.4 python中使用POP3

python中提供了poplib模块用于进行POP3协议的支持 核心的处理过程主要是如下两个步骤

  • 使用poplib模块接收邮件
  • 使用email模块解析邮件

2. POP3读取邮箱信息

常规操作步骤:

  • 定义连接pop3服务器的信息
  • 连接pop3服务器
  • 登录pop3服务器
  • 获取邮件服务器中邮件的信息【数量、大小、列表等等】
代码语言:javascript
复制
import poplib

# 服务器连接信息
pop_user = "xxxxxxxxx@qq.com"
pop_pass = "这里请使用您的授权码"
pop_server = "pop.qq.com"

# 连接到pop3服务器
print("开始连接pop3服务器")
server = poplib.POP3_SSL(pop_server)
print("连接服务器成功")
# 设置打印调试信息
server.set_debuglevel(1)
# 设置打印pop3服务欢迎文字
print(server.getwelcome().decode("utf-8"))

# 登录服务器
print("准备登录POP服务器")
server.user(pop_user)
server.pass_(pop_pass)
print("登录身份验证成功,准备获取邮件信息")

# stat()返回邮件数量和占用空间
print("邮件数量:%s, 大小:%s" % server.stat())
print("~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~")
# 返回邮件详细列表信息mails
resp, mails, octets = server.list()
print(resp)
print(mails)
print(octets)

# 退出服务器
server.quit()

上述代码执行完成后,会出现如下结果: 注意:下面出现*cmd*字样的是调试信息,其中出现的类似USER/PASS等都是POP3的命令码,可以参考前面的命令码部分了解一下

开始连接pop3服务器 连接服务器成功 +OK QQMail POP3 Server v1.0 Service Ready(QQMail v2.0) 准备登录POP服务器 cmd 'USER 1007821300@qq.com' cmd 'PASS kyecgawxkkupbegh' 登录身份验证成功,准备获取邮件信息 cmd 'STAT' stat [b'+OK', b'105', b'3796095'] 邮件数量:105, 大小:3796095 ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ ~ cmd 'LIST' b'+OK' [b'1 36817', b'2 27060', b'3 1860', b'4 63794', b'5 73282', b'6 5360', b'7 35188', b'8 19933', b'82 7118',·······b'100 2329', b'101 36325', b'102 28107', b'103 28090', b'104 29170', b'105 28088'] 984

cmd 'QUIT'

3. POP3读取最新的一封普通文本邮件

我们使用上一节中的发送邮件的代码发送一份纯文本的或者带了HTML标签的邮件,然后在下面的代码中接收一下这份邮件

代码语言:javascript
复制
# 引入需要的模块
import email, poplib
from email.parser import Parser
from email.utils import parseaddr
from email.header import decode_header

# 服务器连接信息
pop_server = "pop.qq.com"
pop_user = "xxxxxxxx@qq.com"
pop_pass = "此处请使用授权码"

# 连接pop服务器
server = pop.POP3_SSL(pop_server)
# 登录pop服务器,进行身份验证
server.user(pop_user)
server.pass_(pop_pass)

# 获取邮件服务器上的邮件的信息
email_msg = server.stat()

# 获取最新的一份邮件
# 注意:接收的邮件是按照索引进行排序的,这里的索引是1开始的
resp, lines, octets = server.retr(email_msg[0])

# 拼接完整邮件
email_content = b"\r\n".join(lines).decode("UTF-8")

# 解析邮件标题
title = email_content.get("Subject")
if title :
    value, charset = decode_header(title)[0]
    if charset:
        title = value.decode(charset)

# 解析发件人信息
sender = email_content.get("From")
if sender:
    value, addr = parseaddr(sender)
    name, charset = decode_header(value)
    if charset:
        name = ame.decode(charset)
        sender = u"%s <%s>" % (name, addr)

# 解析收件人信息
receiver = email_content.get("To")
if receiver:
    value, addr  = parseaddr(receiver)
    name, charset = decode_header(value)
    if charset:
        name = name.decode(charset)
        receiver = u"%s <%s>" % (name, addr)

# 解析邮件内容
content = email_content.get_payload(decode=True)
content = content.decode("UTF-8")

# 打印邮件内容
print("邮件标题:%s" % title)
print("发件人:%s" % sender)
print("收件人:%s" % receiver)
print("邮件内容:%s" % content)

# 退出邮件服务器
server.quit()

执行上述代码,运行结果如下:

邮件标题:来自大牧莫邪的问候 发件人: 大牧莫邪 xxxxxxxx@qq.com 收件人:木木 xxxxxxxxx@qq.com 邮件内容:Hello 你好,这是一封自动发送的测试邮件

我们针对上面的代码最一下简单的了解

邮件的标题、发件人、收件人,对应的是邮件内容中的Subject,From,To,这三个数据我们在学习完发送邮件部分之后已经了解到,是通过编码进行处理过的,所以我们要对这样的编码进行解码,解码的过程比较简单,通过如下的代码就可以进行解码的处理:

代码语言:javascript
复制
# 引入解码需要的模块
>from email.header import decode_header
from email.utils import parseaddr

> # 定义一个函数,用于解析邮件内容
>def decode_msg(msg)
    # 解析邮件标题、发件人、收件人
>     for info in ["Subject", "From", "To"]:
        value = msg.get(info)
        # 解析邮件标题
        if info == "Subject":
            # 标题不含特殊格式,直接解码
            name, charset = decode_header(value)[0] 
            value = name.decode(charset)
        else:
            # 发件人、收件人格式特殊,使用parseaddr解析之后再进行解码
            value, addr = parseaddr(msg)
            name, charset = decode_header(value)[0]
            value = name.decode_header(charset)
>```
> 接下来就是内容的解析了,关于邮件内容的处理,我们从前面的发送邮件就知道,邮件内容主要是普通文本邮件包装的服务类MIMEText或者是带了附件的混合服务类MIMEMultipart,针对邮件的处理,只需要将邮件内容解析为Message对象,在后续处理过程中就可以方便的进行格式化,解析非常简单

引入解析需要的模块

from email.parser import Parser

解析邮件内容

content = Parse().parsestr(email_content)

代码语言:javascript
复制
### 4. POP3读取最新的带附件的邮件
某些情况下,我们的邮件内容是带附件的,是通过MIMEMultipart对象包含的邮件内容和附件,我们通常情况下,需要对MIMEMultipart对象进行遍历,对其中的MIMEText对象表示的邮件内容和MIMEBase对象表示的附件内容进行分别解析。

废话不多说,上干货:
第一步:分清楚什么是邮件标题、发件人、收件人;什么是邮件内容;什么是邮件附件
通过`is_multipart()`函数来区分邮件是否是混合邮件
通过`get_content_type()`函数来区分邮件是否是内容/附件

引入需要的模块

import email, poplib from email.parser import Parser from email.utils import parseaddr from email.header import decode_header

定义解析邮件内容的函数

def decode_mail(msg): # 解析邮件标题、发件人、收件人信息 for info in ["Subject", "From", "To"]: value = msg.get(info)

代码语言:javascript
复制
    if info == "Subject":# 解析邮件标题
        title = decode_info(value)
    else:# 解析发件人、收件人信息
        name, addr = parseaddr(value)
        sender = decode_info(name)
        sender = "%s <%s>" % (name, addr)

# 如果邮件是MIMEMultipart混合内容,执行递归处理
if(msg.is_multipart()):
    parts = msg.get_payload()
    for n, part in enumerate(parts):
        print(n, part)
        # 递归解析邮件
        decode_mail(part)
else:
    # 获取邮件编码格式
    content_type = msg.get_content_type();
    # 判断编码并解码
    if content_type == "text/plain" or content_type == "text/html":
        content = "这是邮件内容"
    else:
        content = "这是邮件附件"

decode_header解码操作函数

def decode_info(info): name, charset = decode_header(info) if charset: name = name.decode(charset) return name

代码语言:javascript
复制
> 上面的代码中,我们定义了函数`decode_mail(msg)`来进行邮件内容的解析处理
主要包含三部分内容
> 1.首先解析邮件标题、发件人、收件人这样的特殊的信息
> 2.根据`is_multipart()`函数区分是否混合邮件
> 3.根据`msg.get_content_type()`函数进行邮件内容和附件的区分处理

---

未完待续,敬请期待~~


![大牧莫邪.png](http://upload-images.jianshu.io/upload_images/5988045-cc086acf5134c20e.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2017.06.01 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 本节内容
  • 1. POP3协议简介
  • 2. POP3读取邮箱信息
  • 3. POP3读取最新的一封普通文本邮件
  • 引入解析需要的模块
  • 解析邮件内容
  • 引入需要的模块
  • 定义解析邮件内容的函数
  • decode_header解码操作函数
相关产品与服务
多因子身份认证
多因子身份认证(Multi-factor Authentication Service,MFAS)的目的是建立一个多层次的防御体系,通过结合两种或三种认证因子(基于记忆的/基于持有物的/基于生物特征的认证因子)验证访问者的身份,使系统或资源更加安全。攻击者即使破解单一因子(如口令、人脸),应用的安全依然可以得到保障。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档