首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

自动化收邮件

自动化收取你的163邮箱信息

今日知图

行数移动

0.说在前面1.模拟登陆2.收件箱信息3.结果展示4.作者的话0.说在前面

需求

由于需求,我最近自己搞了两个大项目,哈哈,开个玩笑,比较小~~

需求一:对知乎所有评论进行可视化及知识图谱建立,利用机器学习基神经网络训练知识图谱,进一步的增强用户的联系,扩充实体关联,这个就比较难了,还在进行时,哈哈~~

需求二:就是大家看到的标题,163邮箱问题,我想下载我邮箱里面的所有数据,比如收件箱的信息及附件等。今天分享163邮箱模拟登录及收件箱信息爬取~~

吐槽

这两天特别累,事情特别多~~还是坚持给各位发文章,保证每日一篇

不管怎么样,还是坚持下去!

技术点

采用selenium模拟登录,利用xpath提取数据~~

下面我们一起来看163问题~~

1.模拟登陆

分析

如下图所示,我们先来定位一下,登录的基本信息~

当我们第一次打开这个页面的时候,iframe是刷新以后才可以登录,所以必须得等它动态加载完毕,才可以~

封装

初始化,我们定义了三个list分别存储,邮件标题,收件箱的信息来自于某位用户,以及邮件时间。

模拟登陆

如下图定位:

2.收件箱信息

数据抽取

这里将数据进行抽取,提取出标题,邮件来自,时间,如下图:

单页面处理

首先进行登录,登陆后,让页面刷新完成后,所以这里设置了10秒后爬起,定位到收件箱,进行自动化点击,调用上述方法进行爬取!

同时可以在当前页获取总页面数!如下图所示,通过取出最后一个数字便为总页面数!

多页面数

还是上述那个页面,我们可以定位到下一页的标签,进行自动化点击,抓取下一页数据即可!

3.结果展示

4.作者的话

最后,您如果觉得本公众号对您有帮助,欢迎您多多支持,转发,谢谢!

更多内容,请关注本公众号爬虫系列!

我今天才知道,我之所以漂泊就是在向你靠近。

--《廊桥遗梦》

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181112G006L300?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券