分享一段代码-用Java抓取冯小刚的微博

文章来源：企鹅号 - 大数据前沿

写在前面

今天分享这段代码主要是想说一下：大家不要把爬虫和Python绑定，也不要把数据分析和Python绑定，不是只有Python才可以写爬虫，Java、PHP、Lua、Ruby，甚至C++都可以写爬虫。

今天给学习Java的同学推荐一款Java爬虫框架-WebCollector，然后二胖也用这个框架实现了一个微博爬虫，大约有200多行Java代码，就当做例子给初学者入门吧。

因为文本表述比较困难，所以二胖会录制视频讲解相关环境的部署以及对代码进行讲解。

微信：代码和高清视频都放在文末的留言区，需要的同学自取。

废话不多说，Let's Go!

WebCollector初识

WebCollector是一个无须配置、便于二次开发的Java爬虫框架（内核），它提供精简的的API，只需少量代码即可实现一个功能强大的爬虫。WebCollector-Hadoop是WebCollector的Hadoop版本，支持分布式爬取，也支持断点爬取。

二胖个人感觉WebCollector和Python的爬虫框架Scrapy有异曲同工之妙，在使用流程上差不多，下面这张图就是WebCollector的Github主页。

项目演示

二胖先给大家演示一下代码运行，由于这几天冯小刚比较火，那就抓取一下冯小刚的微博吧。抓取后的结果用Json保存放在文件中，下图就是抓取后的部分结果。

下面的视频是代码运行的例子，点开视频即可查看：

（微信公众号中视频可能不清晰，大家可以下载原视频查看，我已上传，链接在留言区）

环境部署

要编写代码，首先得部署环境，这里二胖录制了一个小视频教大家部署一下环境：

如视频中所言，这里二胖已经把环境依赖的库都打包好了，大家直接就能用，别忘记了Build Path。

爬虫简介&代码讲解

在下面的视频中，二胖给大家简单介绍一下爬虫的工作原理，然后再讲解一下这200多行代码是怎么运行的。

看完上面的视频，大家已经入门爬虫了，除了冯小刚的微博，你们还可以抓取自己想抓取的任何内容，比如马蓉的微博。

二胖有话说

二胖初学爬虫时用的就是WebCollector，因为那时候还不会Python，只会写一点Java，所以二胖是用Java入门爬虫的。

不过从使用感觉上来讲，Python稍微方便一些，和Java相比Python能用更短的代码实现相同的功能。

不过Java的性能比Python要好一些，怎么讲呢？

现在写爬虫基本都是多线程的，而Python的多线程和Java的多线程模型有些不一样，对于多核计算机，Python线程只使用了一个核，不同的用户线程一直在一个核上进行上下文切换，其他核就闲着，这是N:1的线程模型。

就像下图这张图一样：

而Java的多线程模型是真正意义上的多核模型，即每个CPU核心都在忙。

当然，这里要是不明白也没什么问题，大家可以持续关注二胖，在之后的日子里，二胖会慢慢和大家分享哈。

对爬虫而言，大多数情况下，限制抓取速度的瓶颈不在于CPU核心数，而在于网络延迟等待时间，所以对于个人抓取，Python和Java的区别不大。

本文涉及的代码，视频以及github地址放在下面的留言区了，需要的同学自取哈。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货