使用了第三方的网页分析模块BeautifulSoup,可以从这里下载最新版:http://www.crummy.com/software/BeautifulSoup/
===============
#!usr/bin/python
#coding:utf-8
'''
@author:Byron
新浪围脖:http://weibo.com/ziyuetk
'''
import urllib2
from bs4 import BeautifulSoup
print "豆瓣正在热映:"
url = "http://movie.douban.com"
html = urllib2.urlopen(url).read()
soup = BeautifulSoup(html)
div_hot = soup.find('div',{"id":"screening"})
for i in div_hot.find_all('li', class_='title'):
movie_title = i.a.get_text()
# movie_title = movie_title.strip() #去除movie_title两边的空格
print movie_title
print "\n豆瓣近期热门:"
div_new = soup.find('div',{"id":"new-movies"})
for i in div_new.find_all('li', class_='title'):
movie_new = i.a.get_text()
print movie_new
================
代码解析:
1. 7、8行分别导入了urllib2、beautifulsoup模块
2. 11行用urllib模块把豆瓣的网页抓下来
3. 12行用BeautifulSoup模块整理抓下来的html内容
4. 13行是重点,把我们需要的那一部分div截取下来(id="screening"的那部分),需要分析html源码。
5. 接下来在上文的div中,寻找所有 class="title" 的 li 元素,注意,由于 class 是python中的保留关键字,所以需要 class_='title'。
6. 有些网页抓取出来的内容前后有很多空格,可以用.strip() 去除。
点击“阅读原文”可以进入Byron的个人博客查看详细内容。
本文分享自 Crossin的编程教室 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!