首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

python3 爬虫学习:豆瓣读书Top250(一)

本节课,我们试着来写一个基础的爬虫,来取一下豆瓣读书top250的内容;主要涉及的知识就是我们之前讲过的requests库。...网页分析 我们先选取一个待会准备取的网站,咱们选个较好的网页,豆瓣读书Top250的页面:https://book.douban.com/top250 豆瓣读书Top250网页展示...豆瓣读书Top250网页展示 我们需要的内容有四处:书名,作者/出版社/价格,一句话介绍,书本链接 下面跟着我来一步一步把这些内容爬下来 源码分析 这里,我们使用谷歌浏览器自带的工具来进行分析...:Network 首先,点击上面的网址,进入豆瓣读书top250榜单的页面,然后单击我们的鼠标右键,选择检查(也可以直接使用键盘按键F12): ?...输出结果 从上面输出结果可以看出,我们确实取到了网页数据,只是这个样子的数据对于我们非常的不友好,全是英文代码,而我们的目标数据就夹在其中。

2K20
您找到你想要的搜索结果了吗?
是的
没有找到

豆瓣书单100本

听首歌开心一下 唉,今天本来是在学习取梨视频的,但是网页又发生了变化,和老师讲的操作又不一样...而且还变难了...我找了很多资料也实在是不会,只好学习一下取电影试试。...但是这个取电影我还没学习,现在去学习一下。...好家伙,经过我的一番努力后,我发现豆瓣电影的页面是Ajax请求的页面,Ajax请求就是可以在不刷新界面的情况下加载页面的技术,比如说我们平时在网页浏览东西,一直往下滑他能够一直加载,用的就是Ajax请求...所以我取不到页面的信息(对不起是我不会)。。。 所以临时降低难度哈哈哈哈,改成豆瓣书单前100,但是后面还有怎么将他写入CSV格式的问题,我需要一边做一边学,加油嗯!...首先看一下我们要取的页面: 是可以翻页的,点击后页面会刷新,所以不是Ajax请求的页面。

34110

scrapy豆瓣电影教程

最近在做爬虫,也很久没更博客了,这篇长文就算是一个开更礼吧,Duang 在取之前,你得确保你已经有以下的条件: python3 环境 (在我的机子上是python 3.6.5) scrapy 已经安装...由于这个评分是动态更新的,所以我们不是一次就完事了,要按照一定的时间间隔去取更新 ? 2. 这个电影的观众评论内容,评论观众的昵称,ID,评论日期,该评论的“有用”数 ?...,留着不用改 创建完项目框架之后,我们来开始数据 豆瓣网址链接分析 我们以4月初上映的高分电影《头号玩家》为例, ?..., like Gecko) Version/3.1.2 Mobile Safari/525.20.1", ] 每次随机选一个加在request的头部就好了 第二步,加上cookie模拟登录 比如在豆瓣...设置crontab命令 0 */5 * * * cd /usr/apps/scrapydouban && /usr/apps/python3/bin/scrapy crawl douban_spyder

3K31

豆瓣电影分类排名

豆瓣电影分类排名取: 今天晚上复习了一下python学习之百度翻译页面取 复习成果已经写在上一个博客了 这接下来就是requests模块学习之豆瓣电影分类排名进行数据取...我本来以为这个学会之后就可以对豆瓣呀,网易云上面的歌曲进行取了 开始学习之后标题给我整了一个豆瓣电影分类排名取 但是还是太年轻了,原来事情没有那么简单 下面就是一边听课一边编写的代码...params={ # 'kw':kw #}#在get函数中可以时制定kw关键字 #headers={ # 'User-Agent':''#对应ua检测的一个反反策略...#} #response=requests.get(url=url,kwargs=kwargs,) #接下来就是requests模块练习之豆瓣电影分类排行 #import...'type': '24', 'interval_id':'100:90', 'action':'' , 'start': '1',#从豆瓣库中的第几部电影去取

58620

利用selenium尝试豆瓣图书

二、selenium+driver初步尝试控制浏览器 说到模拟,那我们就先来模拟如何打开豆瓣图书并打开Python相关的图书 from selenium import webdriver import...我们首先先提取数据 # 获取网页内容Elements content = driver.page_source # 提取数据 print(content) 提取到数据后,我们查到里面是否存在我们所要取的图书...,在此我们以《Python编程 : 从入门到实践》为切入点 这个时候,我们首先要查看这个页面内是否存在有iframe 通过查找,我们发现在我们要取的部分是没有iframe存在的,因此我们可以直接使用...我们看下网页 我们可以很清楚的看到,第一个并不是我们所要找的书籍,因此我们可以从第二个进行取。...三、完整代码 # encoding: utf-8 ''' @author 李运辰 @create 2020-11-21 11:34 @software: Pycharm @file: 豆瓣图书

1.3K30
领券