应用开发:小爬虫,获取网站特定信息

应用介绍:

获取python官方网站https://www.python.org/events/python-events/的会议信息,包括会议名,时间,地点。

思路分析:

使用requests模块发送http请求;

使用BeautifulSoup模块解析HTML文档。

代码实现:

importrequests

frombs4importBeautifulSoup

req = requests.get('https://www.python.org/events/python-events/')

datas = []

spans = []

events = []

soup = BeautifulSoup(req.text,"html.parser")

# soup = BeautifulSoup(open('test.html', encoding='utf-8'), "html.parser")

targets = soup.find(class_="list-recent-events menu")

# print(targets.find('li'))

n =

foriintargets('li'):

datas.append(i.find('time').text)

spans.append(i.find(class_='event-location').text)

events.append(i.find(class_="event-title").text)

print("会议:%s\n地点:%s\n日期:%s\n"% (events[n],spans[n],datas[n]))

n +=1

OK,废话少说,总结一下我这两天的经验。做个简单的解析网页的脚本,你需要先了解HTML和HTTP的相关知识,当你发送一个http请求(推荐使用requests模块,比起内建的urllib中的request模块好用很多),获得目标网页的html文档后,你要做的就是解析html文档,根据不同的tag去搜索文档树,获得想要的信息,推荐使用BeautifulSoup模块,做个简单的爬虫是不是很简单,自己动手试试吧。

这里推荐给大家几个学习的网站:

http://docs.python-requests.org/zh_CN/latest/user/quickstart.html

(上面的链接并不是超链接,不用费劲点啦,个人公众平台加不了外部的超链接,大家可以百度前面的中文)

欢迎在评论区贴出你的代码,一起交流学习。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20171215G04K5S00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码关注腾讯云开发者

领取腾讯云代金券