前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >bs4爬取豆瓣top250数据

bs4爬取豆瓣top250数据

作者头像
溪初桾
发布2020-03-10 09:02:53
5560
发布2020-03-10 09:02:53
举报
文章被收录于专栏:溪溪技术专栏

python获取豆瓣top250电影数据

代码语言:javascript
复制
from  urllib import request
import re
from bs4 import BeautifulSoup
from distutils.filelist import findall
import re

# 获取全部页面
for i in range(1,11):
    url_i = 'https://movie.douban.com/top250?start='+str((i-1)*25)+'&filter='
    # print(url_i)
# url = 'https://movie.douban.com/top250?start=25&filter='
    page = request.urlopen(url_i)
    # 获取网页源代码
    contents = page.read()
    print('\n'+'------------------'+'第'+str(i)+'页'+'------------------'+'\n')
    soup = BeautifulSoup(contents,"html.parser")
    for tag in soup.find_all('div', class_='info'):
       # print tag
        m_name = tag.find('span', class_='title').get_text()
        m_rating_score = float(tag.find('span',class_='rating_num').get_text())
        m_people = tag.find('div',class_="star")
        m_span = m_people.findAll('span')
        m_peoplecount = m_span[3].contents[0]
        m_url=tag.find('a').get('href')
        print( m_name+"        "  +  str(m_rating_score)   + "           " + m_peoplecount + "    " + m_url )

运行结果

res001.png
res001.png

res001.png

res002.png
res002.png
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2019-01-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档