首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Java豆瓣电影爬虫——小爬虫成长记(附源码)

以前也用过爬虫,比如使用nutch爬取指定种子,基于爬到的数据做搜索,还大致看过一些源码。当然,nutch对于爬虫考虑的是十分全面和细致的。...正好这次借助梳理Spring MVC的机会,想自己弄个小爬虫,简单没关系,有些小bug也无所谓,我需要的只是一个能针对某个种子网站能爬取我想要的信息就可以了。...语言:Java   Jar包管理:Maven   版本管理:Git 目录结构 ?   ...其中   com.ansj.vec是Word2Vec算法的Java版本实现   com.jackie.crawler.doubanmovie是爬虫实现模块,其中又包括 ?   ...我看了下上面Matcher类的源码 package java.util.regex; import java.util.Objects; public final class Matcher implements

1.3K110
您找到你想要的搜索结果了吗?
是的
没有找到

开源豆瓣系列爬虫之用户广播爬虫

应不住读者的请求,打算新开一个豆瓣系列的爬虫,主要是为了爬取豆瓣的小组和用户信息,并且全部开源出来。...今天这篇主要是分享豆瓣用户广播爬虫,可能还是有不少同学对豆瓣广播不熟悉的,看下图就很清楚,豆瓣的广播有点类似于 QQ 空间的说说,但是多了一些豆瓣自己的元素,比如,”在看“、”在读“,”听过“ 这些 Action...;为了避免每次都要重新开始抓取第一个用户,字段 cur_user_index 就是为了保存上一次已经抓取到哪一个用户了,下次可以直接继续,这个保存过程是程序自己完成了,没有特殊需要不用人为改动;爬虫是基于翻页的...,给请求添加 proxies 参数即可;为了加快速度,可以使用线程池,协程等;凡此种种,皆不是本开源爬虫的本身,定位只是一个豆瓣备份工具而已;大家可以二次开发。...开源的目的是为了方便大家使用,有疑问请在 git 仓库上提 issues ;同时一起贡献这份爬虫代码,有觉得代码设计逻辑可以改进的或者有 bug 的,请提 pull request 欢迎体验,吐槽。

82150

Java豆瓣电影爬虫——抓取电影详情和电影短评数据

一直想做个这样的爬虫:定制自己的种子,爬取想要的数据,做点力所能及的小分析。正好,这段时间宝宝出生,一边陪宝宝和宝妈,一边把自己做的这个豆瓣电影爬虫的数据采集部分跑起来。...动机   采集豆瓣电影数据包括电影详情页数据和电影的短评数据。   电影详情页如下图所示   需要保存这些详情字段如导演、编剧、演员等还有图中右下方的标签。   ...使用的技术   语言:Java(语言是一门工具,网上用python,java,nodejs比较多)   数据库:Mysql(轻便易用)   解析页面:Jsoup(比较熟悉httpparser...Java豆瓣电影爬虫——使用Word2Vec分析电影短评数据 Java豆瓣电影爬虫——小爬虫成长记(附源码)   程序爬取控制在豆瓣可接受范围内,不会给豆瓣服务器带来很大的压力,写此程序也是个人把玩...,绝无恶意,万望豆瓣君谅解^_^ 如果您觉得阅读本文对您有帮助,请点一下“推荐”按钮,您的“推荐”将是我最大的写作动力!

2.4K90

Python爬虫入门教程:豆瓣读书练手爬虫

好了,我们这次的目标是豆瓣图书Top250,地址是:https://book.douban.com/top250?start=0 准备 爬一个网页我们至少要知道自己需要什么信息,大家看截图: ?...红色箭头标记的地方就是我们要获取的信息了,包括书的名字,作者和出版社信息,豆瓣评分和一句话简介。我们有了目标信息,就需要找到信息所在的页面源码,然后通过解析源码来获取到信息数据。...代码如下: # 文件名filename = '豆瓣图书Top250.txt'# 保存文件操作with open(filename, 'w', encoding='utf-8') as f: # 保存数据...我们只用了36行的代码(去掉空行和注释)就实现了抓取豆瓣图书的数据了。大家是不是觉得很简单了,不要兴奋,这只是一个小白最基础的练手项目,大家快去找更有挑战性的项目实现吧。大家加油。...---- 学习python爬虫请加python零基础系统学习交流扣扣qun:934109170,与你分享Python企业当下人才需求及怎么从零基础学习Python,和学习什么内容。

68810

豆瓣小组-文本数据爬虫

抓取豆瓣小组讨论贴列表,并通过列表中各帖子链接获取帖子的详细内容(评论文本)。两部分数据都写入在网页html源码中,基本不涉及ajax请求。...get_page(i):获取指定豆瓣小组的第i页列表数据 base_url: 豆瓣小组列表的url,形如/group/{小组id}/discussion?,使用时根据实际情况替换。...get_discussion_list(base_url):获取豆瓣指定小组的所有讨论贴列表数据,返回DataFrame。...base_url: 豆瓣小组列表的url,形如/group/{小组id}/discussion?,使用时根据实际情况替换。 get_topic_content.py:获取每条讨论贴的详细内容。...数据说明 按页爬取小组所有讨论的基本信息 文件名:discusstion_list.csv 说明:获取豆瓣小组的讨论列表,每条讨论点击进入得到正文,在这里分开采集。

2.6K30

爬虫实战-豆瓣电影Top250

摘要 本文通过requests和re库实现了豆瓣电影top250的爬取。 首先是对书上案例进行学习,了解如何定位网站中我们需要的信息,并使用re提供的正则表达式匹配我们的信息。...然后为了加快爬虫速度,我们使用了多进程multiprocessing。最后进入实战,对真实的网站进行爬取。在实战中,我们遇到了一些新问题,需要处理网站的反爬虫机制。...书上案例 《Python3 网络爬虫开发实战》(第二版)作者崔庆才搭建的平台Scrape Center。对爬虫感兴趣的可以看一看。 我们进入第一个案例Scrape | Movie。...豆瓣TOP250 我们用同样的思路去爬取豆瓣TOP250 起始页: https://movie.douban.com/top250 翻页: https://movie.douban.com/top250...此外,豆瓣有反爬虫机制,需要给response加上浏览器头 headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit

57730

Java豆瓣电影爬虫——使用Word2Vec分析电影短评数据

获取数据(这里是豆瓣电影短评数据)     2. 数据处理(将短评数据使用分词器分词,并以空格连接分词结果)     3....载入训练模型,分析感兴趣的维度(比如,近义词分词,关联词分析)     Github: https://github.com/NLPchina/Word2VEC_java 获取数据   数据就用短评数据...org.ansj.recognition.impl.FilterRecognition; import org.ansj.splitWord.analysis.ToAnalysis; import org.apache.commons.io.FileUtils; import java.io.File...; import java.io.IOException; import java.util.HashMap; import java.util.List; import java.util.logging.Filter...这部分代码可以参看上面的GitHub代码中的Word2VEC.java类。这里稍作修改,完成了数据分词,模型训练和使用。

1.6K91
领券