前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >应用开发:小爬虫,获取网站特定信息

应用开发:小爬虫,获取网站特定信息

作者头像
企鹅号小编
发布2018-03-02 10:40:54
1.1K0
发布2018-03-02 10:40:54
举报
文章被收录于专栏:编程编程

应用介绍:

获取python官方网站https://www.python.org/events/python-events/的会议信息,包括会议名,时间,地点。

思路分析:

使用requests模块发送http请求;

使用BeautifulSoup模块解析HTML文档。

代码实现:

importrequests

frombs4importBeautifulSoup

req = requests.get('https://www.python.org/events/python-events/')

datas = []

spans = []

events = []

soup = BeautifulSoup(req.text,"html.parser")

# soup = BeautifulSoup(open('test.html', encoding='utf-8'), "html.parser")

targets = soup.find(class_="list-recent-events menu")

# print(targets.find('li'))

n =

foriintargets('li'):

datas.append(i.find('time').text)

spans.append(i.find(class_='event-location').text)

events.append(i.find(class_="event-title").text)

print("会议:%s\n地点:%s\n日期:%s\n"% (events[n],spans[n],datas[n]))

n +=1

OK,废话少说,总结一下我这两天的经验。做个简单的解析网页的脚本,你需要先了解HTML和HTTP的相关知识,当你发送一个http请求(推荐使用requests模块,比起内建的urllib中的request模块好用很多),获得目标网页的html文档后,你要做的就是解析html文档,根据不同的tag去搜索文档树,获得想要的信息,推荐使用BeautifulSoup模块,做个简单的爬虫是不是很简单,自己动手试试吧。

这里推荐给大家个学习的网站:

http://docs.python-requests.org/zh_CN/latest/user/quickstart.html

欢迎在评论区贴出你的代码,一起交流学习。

本文来自企鹅号 - 全球大搜罗媒体

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文来自企鹅号 - 全球大搜罗媒体

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档