首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

大数据数据采集基础教程 五行代码爬取豆瓣电影本周排行榜 具体步骤详解

python爬虫入门教程步骤详解 5行代码爬取豆瓣电影本周排行榜

一、先做的准备

使用的工具有:VMware12、Xshell5、PyCharm2017

系统是;Ubuntu16.04

Python版本:3.5.2

虚拟环境:virtualenv

安装的包:beautifulsoup4

二、代码,要爬的网站链接https://movie.douban.com/ :

代码图片

执行python douban_test1.py

运行结果:

电影名称图片

三、步骤

1、先确定要爬的目标,这里要爬的是本周口碑榜:

电影图片

2、右键点击“养家之人”,选择检查看页面代码:

步骤图片

3、找到口碑榜的页面代码

步骤图片

4、看到口碑榜的列表在代码中是table标签,每个列标签td的class是title,就可以用下面代码获取所有的class属性为title的td标签

html = urlopen("https://movie.douban.com/").read()

bs_html = BeautifulSoup(html, "html.parser")

td_tags = bs_html.find_all("td", {"class": "title"})

for t in td_tags:

print(t.get_text())

urlopen:获取网页html代码

html = urlopen("https://movie.douban.com/").read()

BeautifulSoup :把html解析成BeautifulSoup对象

bs_html = BeautifulSoup(html, "html.parser")

find_all :是获取所有class属性为title的td标签,返回的是一个Tag对象列表

td_tags = bs_html.find_all("td", {"class": "title"})

get_text:获取每个Tag对象的文本内容

for t in td_tags:

print(t.get_text())

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180309A0UGPH00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券