python爬虫入门教程步骤详解 5行代码爬取豆瓣电影本周排行榜
一、先做的准备
使用的工具有:VMware12、Xshell5、PyCharm2017
系统是;Ubuntu16.04
Python版本:3.5.2
虚拟环境:virtualenv
安装的包:beautifulsoup4
二、代码,要爬的网站链接https://movie.douban.com/ :
代码图片
执行python douban_test1.py
运行结果:
电影名称图片
三、步骤
1、先确定要爬的目标,这里要爬的是本周口碑榜:
电影图片
2、右键点击“养家之人”,选择检查看页面代码:
步骤图片
3、找到口碑榜的页面代码
步骤图片
4、看到口碑榜的列表在代码中是table标签,每个列标签td的class是title,就可以用下面代码获取所有的class属性为title的td标签
html = urlopen("https://movie.douban.com/").read()
bs_html = BeautifulSoup(html, "html.parser")
td_tags = bs_html.find_all("td", {"class": "title"})
for t in td_tags:
print(t.get_text())
urlopen:获取网页html代码
html = urlopen("https://movie.douban.com/").read()
BeautifulSoup :把html解析成BeautifulSoup对象
bs_html = BeautifulSoup(html, "html.parser")
find_all :是获取所有class属性为title的td标签,返回的是一个Tag对象列表
td_tags = bs_html.find_all("td", {"class": "title"})
get_text:获取每个Tag对象的文本内容
for t in td_tags:
print(t.get_text())
领取专属 10元无门槛券
私享最新 技术干货