首页
学习
活动
专区
圈层
工具
发布
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    开源豆瓣系列爬虫之用户广播爬虫

    应不住读者的请求,打算新开一个豆瓣系列的爬虫,主要是为了爬取豆瓣的小组和用户信息,并且全部开源出来。...今天这篇主要是分享豆瓣用户广播爬虫,可能还是有不少同学对豆瓣广播不熟悉的,看下图就很清楚,豆瓣的广播有点类似于 QQ 空间的说说,但是多了一些豆瓣自己的元素,比如,”在看“、”在读“,”听过“ 这些 Action...;为了避免每次都要重新开始抓取第一个用户,字段 cur_user_index 就是为了保存上一次已经抓取到哪一个用户了,下次可以直接继续,这个保存过程是程序自己完成了,没有特殊需要不用人为改动;爬虫是基于翻页的...,给请求添加 proxies 参数即可;为了加快速度,可以使用线程池,协程等;凡此种种,皆不是本开源爬虫的本身,定位只是一个豆瓣备份工具而已;大家可以二次开发。...开源的目的是为了方便大家使用,有疑问请在 git 仓库上提 issues ;同时一起贡献这份爬虫代码,有觉得代码设计逻辑可以改进的或者有 bug 的,请提 pull request 欢迎体验,吐槽。

    1.1K50

    Python爬虫入门教程:豆瓣读书练手爬虫

    好了,我们这次的目标是豆瓣图书Top250,地址是:https://book.douban.com/top250?start=0 准备 爬一个网页我们至少要知道自己需要什么信息,大家看截图: ?...红色箭头标记的地方就是我们要获取的信息了,包括书的名字,作者和出版社信息,豆瓣评分和一句话简介。我们有了目标信息,就需要找到信息所在的页面源码,然后通过解析源码来获取到信息数据。...代码如下: # 文件名filename = '豆瓣图书Top250.txt'# 保存文件操作with open(filename, 'w', encoding='utf-8') as f: # 保存数据...我们只用了36行的代码(去掉空行和注释)就实现了抓取豆瓣图书的数据了。大家是不是觉得很简单了,不要兴奋,这只是一个小白最基础的练手项目,大家快去找更有挑战性的项目实现吧。大家加油。...---- 学习python爬虫请加python零基础系统学习交流扣扣qun:934109170,与你分享Python企业当下人才需求及怎么从零基础学习Python,和学习什么内容。

    99310

    豆瓣小组-文本数据爬虫

    抓取豆瓣小组讨论贴列表,并通过列表中各帖子链接获取帖子的详细内容(评论文本)。两部分数据都写入在网页html源码中,基本不涉及ajax请求。...get_page(i):获取指定豆瓣小组的第i页列表数据 base_url: 豆瓣小组列表的url,形如/group/{小组id}/discussion?,使用时根据实际情况替换。...get_discussion_list(base_url):获取豆瓣指定小组的所有讨论贴列表数据,返回DataFrame。...base_url: 豆瓣小组列表的url,形如/group/{小组id}/discussion?,使用时根据实际情况替换。 get_topic_content.py:获取每条讨论贴的详细内容。...数据说明 按页爬取小组所有讨论的基本信息 文件名:discusstion_list.csv 说明:获取豆瓣小组的讨论列表,每条讨论点击进入得到正文,在这里分开采集。

    3.5K40

    Java豆瓣电影爬虫——小爬虫成长记(附源码)

    以前也用过爬虫,比如使用nutch爬取指定种子,基于爬到的数据做搜索,还大致看过一些源码。当然,nutch对于爬虫考虑的是十分全面和细致的。...正好这次借助梳理Spring MVC的机会,想自己弄个小爬虫,简单没关系,有些小bug也无所谓,我需要的只是一个能针对某个种子网站能爬取我想要的信息就可以了。...其中   com.ansj.vec是Word2Vec算法的Java版本实现   com.jackie.crawler.doubanmovie是爬虫实现模块,其中又包括 ?   ...有些包是空的,因为这些模块还没有用上,其中     constants包是存放常量类     crawl包存放爬虫入口程序     entity包映射数据库表的实体类     test包存放测试类

    1.7K110

    爬虫实战-豆瓣电影Top250

    摘要 本文通过requests和re库实现了豆瓣电影top250的爬取。 首先是对书上案例进行学习,了解如何定位网站中我们需要的信息,并使用re提供的正则表达式匹配我们的信息。...然后为了加快爬虫速度,我们使用了多进程multiprocessing。最后进入实战,对真实的网站进行爬取。在实战中,我们遇到了一些新问题,需要处理网站的反爬虫机制。...书上案例 《Python3 网络爬虫开发实战》(第二版)作者崔庆才搭建的平台Scrape Center。对爬虫感兴趣的可以看一看。 我们进入第一个案例Scrape | Movie。...豆瓣TOP250 我们用同样的思路去爬取豆瓣TOP250 起始页: https://movie.douban.com/top250 翻页: https://movie.douban.com/top250...此外,豆瓣有反爬虫机制,需要给response加上浏览器头 headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit

    95430

    PHP爬虫

    我居然能用爬虫抓数据了,继正则之后又迈过一道坎。 使用PHP Simple HTML DOM Parser这个库,然后自己对DOM选择器做一下二次封装,基本上可以应付一部分WordPress站点。...由于内网网络不通缘故,我使用爬虫的时候,给PHP配置了代理。正常网络环境, file_get_html($url) 即可,不需要后面两个参数。 php require('....注意整站抓取的时候,需要修改PHP最大执行时间,使其可以长时间执行。 php ini_set('max_execution_time',0); ?...为了我中途检查和后续处理方便,我直接把抓取结果保存成CSV格式,以爬虫的URL为单位。 结语 抓一个页面容易,但是整站抓取,很容易被反爬虫策略给挡在外面。一个好的爬虫,功夫都在策略的应对上面。

    1.2K00

    python爬虫获取豆瓣电影TOP250

    同样本篇博客,小菌将继续分享实用的爬虫—获取豆瓣电影Top250的内容,并保存在MySQL数据库中。...关于豆瓣电影在百度百科上的描述,如下: 豆瓣电影提供最新的电影介绍及评论包括上映影片的影讯查询及购票服务。你可以记录想看、在看和看过的电影电视剧,顺便打分、写影评。...接下来就要开始爬虫数据装进我们数据库的表格中了。...声明: 在爬虫过程中,出现了IndexError的错误,这是因为有些电影的链接已经不存在了,这里通过try()函数来处理异常,以使爬虫程序继续运行而不报错!...可以看见我们的数据库中,存储着豆瓣电影Top250的数据,说明我们的爬虫程序成功了!那本次的分享也就到这里了,学到了的小伙伴们不要忘了点赞并关注小菌吖~点赞加关注,小白不迷路ヾ(๑╹◡╹)ノ"

    1.2K10

    爬虫课程(七)|豆瓣:使用PyCharm+Scrapy爬取豆瓣读书书籍信息示例

    从现在开始,我们将进入实战阶段,本课程主要知识点包括三个: 1)一个简单的爬取豆瓣读书内容示例 2)使用PyCharm进行代码调试方法 3)初步学会使用XPath提取html元素 一、一个简单的爬取豆瓣读书内容示例...我们现在要爬取豆瓣读书中的新书速递中的书籍信息,主要提取它们的书籍标题、书籍内容链接以及发布时间。...(图一)豆瓣读书html 1为我们要爬取的豆瓣读书的URL地址,2为我们要爬取的具体内容的HTML元素区块。那么对照我们使用Scrapy应该怎么写呢?...(图二)豆瓣读书爬虫源代码 从上面的第二个红色框,我们发现它是先通过找到id为content,然后找出子div,再找出这个子div下的第二个子div,再就是ul/li。...(图三)获取li的两种方法 在(图二)豆瓣读书爬虫源代码中有一个name ="douban_book",这个是每个爬虫文件的唯一名称,我们在执行爬虫时就会用到它。

    1.5K80
    领券