腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

JackieZheng

专栏作者

150

文章

177454

阅读量

52

订阅数

把玩爬虫框架Gecco

如果你现在接到一个任务，获取某某行业下的分类。作为一个非该领域专家，没有深厚的运营经验功底，要提供一套摆的上台面且让人信服的行业分类，恐怕不那么简单。找不到专家没有关系，我们可以爬虫。把那些专家的心血抽丝剥茧爬出来再统计即可。确定好思路，我和即将要说的爬虫框架Gecco打了一天的交道。 Gecco简介 Gecco是一款用java语言开发的轻量化的易用的网络爬虫。Gecco整合了jsoup、httpclient、fastjson、spring、htmlunit、redission等优秀框架，让您只需要配

2018-03-27

1.5K0

Java豆瓣电影爬虫——减少与数据库交互实现批量插入

爬虫数据库 java

　　节前一个误操作把mysql中record表和movie表都清空了，显然我是没有做什么mysql备份的。所以，索性我把所有的表数据都清空的，一夜回到解放前…… 　　项目地址：https://github.com/DMinerJackie/JewelCrawler 　　在上一个版本中，record表存储了7万多条记录，爬取的有4万多条，但是可以明显的发现爬取的数据量越多的时候，机子就越卡。又一次报错，是有关JDBC的，还有一次机子跑卡死了。　　仔细一琢磨，上个版本的爬虫程序与数据库的读写次数太频繁，存在以

2018-01-16

1.1K0

Java豆瓣电影爬虫——模拟登录的前世今生与验证码的爱恨情仇

爬虫图像识别 java

前言并不是所有的网站都能够敞开心扉让你看个透彻，它们总要给你出些难题让你觉得有些东西是来之不易的，往往，这也更加激发你的激情和斗志！从《为了媳妇的一张号，我与百度医生杠上了》里就有网友提出可以通过获取cookie的方式来登录，不需要借助selenium这样的模拟浏览器操作了，到后来在公众号里一号友说豆瓣如何实现登录，以及近期园友都有提到想获取更多的网站数据是需要登录的……登录，一直是爬虫界躲不了也绕不开的话题。之前已经试过通过启动浏览器，模拟人工操作填写用户名和密码并点击登录来完成登录。这次准备

2018-01-16

1.3K0

Java豆瓣电影爬虫——使用Word2Vec分析电影短评数据

　　在上篇实现了电影详情和短评数据的抓取。到目前为止，已经抓了2000多部电影电视以及20000多的短评数据。　　数据本身没有规律和价值，需要通过分析提炼成知识才有意义。抱着试试玩的想法，准备做一个有关情感分析方面的统计，看看这些评论里面的小伙伴都抱着什么态度来看待自己看过的电影，怀着何种心情写下的短评。　　鉴于爬取的是短评数据，少则10来个字，多则百来个字，网上查找了下，发现Google开源的Word2Vec比较合适，于是今天捣鼓了一天，把自己遇到的问题和运行的结果在这里做个总结。　　Word2Ve

2018-01-16

1.6K0

Java豆瓣电影爬虫——抓取电影详情和电影短评数据

　　一直想做个这样的爬虫：定制自己的种子，爬取想要的数据，做点力所能及的小分析。正好，这段时间宝宝出生，一边陪宝宝和宝妈，一边把自己做的这个豆瓣电影爬虫的数据采集部分跑起来。现在做一个概要的介绍和演示。动机　　采集豆瓣电影数据包括电影详情页数据和电影的短评数据。　　电影详情页如下图所示 📷 　　需要保存这些详情字段如导演、编剧、演员等还有图中右下方的标签。　　短评页面如下图所示 📷 　　需要保存的字段有短评所属的电影名称，每条评论的详细信息如评论人名称、评论内容等。

2018-01-16

2.3K0

Java豆瓣电影爬虫——小爬虫成长记（附源码）

　　以前也用过爬虫，比如使用nutch爬取指定种子，基于爬到的数据做搜索，还大致看过一些源码。当然，nutch对于爬虫考虑的是十分全面和细致的。每当看到屏幕上唰唰过去的爬取到的网页信息以及处理信息的时候，总感觉这很黑科技。正好这次借助梳理Spring MVC的机会，想自己弄个小爬虫，简单没关系，有些小bug也无所谓，我需要的只是一个能针对某个种子网站能爬取我想要的信息就可以了。有Exception就去解决，可能是一些API使用不当，也可能是遇到了http请求状态异常，又或是数据库读写有问题，就是在这个报ex

2018-01-16

1.3K0

Hadoop阅读笔记（一）——强大的MapReduce

hadoop java 爬虫

该文摘要总结：通过Hadoop命令行工具进行格式化读取文本文件并输出到控制台，同时通过Java代码实现MapReduce作业，将文本文件内容按行进行分割，对每一行进行统计，并输出到控制台。

2018-01-08

7180

Nutch源码阅读进程3---fetch

mapreduce 搜索引擎爬虫

该文介绍了如何利用基于 Nutch 的搜索引擎进行网页抓取，并提取文本内容。文章主要包含以下几个部分：1. 介绍 Nutch 的搜索引擎；2. 基于 Nutch 的搜索引擎进行网页抓取；3. 对抓取到的网页进行正文提取；4. 对提取到的内容进行关键词提取；5. 将提取到的关键词进行存储。

2018-01-08

1.1K0

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态