前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Python裸奔也疯狂:批量爬取中国工程院院士信息

Python裸奔也疯狂:批量爬取中国工程院院士信息

作者头像
Python小屋屋主
发布2018-04-16 15:52:43
1.4K0
发布2018-04-16 15:52:43
举报
文章被收录于专栏:Python小屋

中国工程院院士,是中国设立的工程科学技术方面的最高学术称号,为终身荣誉,由选举产生。在工程科学技术方面作出重大的、创造性的成就和贡献,热爱祖国,学风正派,品行端正,具有中国国籍的高级工程师、研究员、教授或具有同等职称的专家,可被提名并当选为中国工程院院士。

增选院士每两年进行一次,必要时,可提前或延后进行。每次的增选院士名额,由中国工程院主席团讨论决定。

为更好地膜拜众位男神女神,了解其在相关领域做出的杰出贡献,本文代码用于从中国工程院官方网站公开的信息中进行快速提取,主要用来演示Python标准库os、re、urllib的用法以及网络爬虫的原理,没有使用任何扩展库。本文涉及到的内容严禁用于不良用途,违者后果自负。

首先,打开工程院官方网站,查看全部院士名单,查看源代码,进行简单分析,得到规律,以便后面设计正则表达式,图中红框内是我们感兴趣的内容:

接下来打开任意一位院士的链接,进一步分析,得到数据组织的规则,以方便设计正则表达式:

所有规则都清晰之后,就可以编写代码进行爬取了:

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-11-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Python小屋 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档