应用开发：小爬虫，获取网站特定信息

文章来源：企鹅号 - Python优雅编程

应用介绍：

获取python官方网站https://www.python.org/events/python-events/的会议信息，包括会议名，时间，地点。

思路分析：

使用requests模块发送http请求；

使用BeautifulSoup模块解析HTML文档。

代码实现：

importrequests

frombs4importBeautifulSoup

req = requests.get('https://www.python.org/events/python-events/')

datas = []

spans = []

events = []

soup = BeautifulSoup(req.text,"html.parser")

# soup = BeautifulSoup(open('test.html', encoding='utf-8'), "html.parser")

targets = soup.find(class_="list-recent-events menu")

# print(targets.find('li'))

n =

foriintargets('li'):

datas.append(i.find('time').text)

spans.append(i.find(class_='event-location').text)

events.append(i.find(class_="event-title").text)

print("会议：%s\n地点：%s\n日期：%s\n"% (events[n],spans[n],datas[n]))

n +=1

OK，废话少说，总结一下我这两天的经验。做个简单的解析网页的脚本，你需要先了解HTML和HTTP的相关知识，当你发送一个http请求（推荐使用requests模块，比起内建的urllib中的request模块好用很多），获得目标网页的html文档后，你要做的就是解析html文档，根据不同的tag去搜索文档树，获得想要的信息，推荐使用BeautifulSoup模块，做个简单的爬虫是不是很简单，自己动手试试吧。

这里推荐给大家几个学习的网站：

http://docs.python-requests.org/zh_CN/latest/user/quickstart.html

（上面的链接并不是超链接，不用费劲点啦，个人公众平台加不了外部的超链接，大家可以百度前面的中文）

欢迎在评论区贴出你的代码，一起交流学习。

发表于: 2017-12-152017-12-15 08:55:08
原文链接：http://kuaibao.qq.com/s/20171215G04K5S00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

应用开发：小爬虫，获取网站特定信息

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐