首页
学习
活动
专区
工具
TVP
发布

Java|“ Java”来小说章节

1 前提简介 在上一篇Java|使用WebMagic进行电话“的文章里就已经介绍了如何主要使用Pageprocessor去电话号码,接下来将要学习到的是去起点中文网的小说,并且按照小说名和章节分别保存...2 简单查看 下面就是需要去的小说页面以及内容,但保存下来的文件只需要章节内容,像第一章的开头就不需要,于是需要注意去判断。 ? 图2.1 起点中文网 ? 图2.2 玄幻新书 ?...; import java.util.ArrayList; import java.util.List; /** * 起点小说 */ public class GetQidianBook.../书的名字 String bookName1 = ""; @Override public Site getSite() {return site;} //数据逻辑...System.out.println(title + " " + "完毕"); } catch (FileNotFoundException e)

2.1K10
您找到你想要的搜索结果了吗?
是的
没有找到

Java|使用WebMagic进行电话

1 什么是WebMagic WebMagic是一个简单灵活的Java爬虫框架。基于WebMagic,可以快速开发出一个高效、易维护的爬虫,原生开发方式核心很简单,功能性给简单性让步。...接下来就开始代码的书写,而且在最后还有完整的代码及注释供大家参考,在这里需要的暂时只有PageProcessor组件,所以直接让类去实现: implements PageProcessor 首先书写的相关配置...p=1&order=") .run(); } 接着就是重点的逻辑: @Override public void process(Page page) {...; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.PrintWriter....setSleepTime(1000);//设置休眠时间 @Override public Site getSite() { return site; } //逻辑

75510

Java|如何使用“Java电话号码

前言 下面会介绍如何使用“Java”去取到一个网站的电话号码。使用到的一些基本语法与定义:IO流,正则表达式,如过不清楚可以先去了解一下,当然在下文中也会做出对应使用介绍与解释。...接下来就是在main函数里写需要的代码: 首先是载入连接需要的网址: String path =  "https://www.jihaoba.com/escrow/?...;  //java电话号码  public class TelDemo {      //java程序入口,main函数      public static void main(String[]  ...就关不了,finally里就不用担心          BufferedReader br = null;          PrintWriter pw = null;          //目标网址的...图5.3 取到的号码 以上操作就完成了电话号码的简单,在后面可能还会继续更新关于其他的相关内容。

83330

Java 动手写爬虫: 三、队列

第三篇 队列的实现 第二篇中,实现了深度的过程,但其中一个比较明显的问题就是没有实现每个作为一个独立的任务来执行;即串行的网页中的链接;因此,这一篇将主要集中目标在并发的网页的问题上...目标是每个链接的都当做一个独立的job来执行 设计 分工说明 每个job都是独立的任务,且只对应的网址 一个阻塞队列,用于保存所有需要的网址 一个控制器,从队列中获取待的链接,然后新建一个任务执行...FetchQueue 这个就是保存的待网页的队列,其中包含两个数据结果 toFetchQueue: CrawlMeta 队列,其中的都是需要的url urls: 所有过or待的url集合...线程池 直接使用Java的线程池来操作,因为线程池有较多的配置参数,所以先定义一个配置类; 给了一个默认的配置项,这个可能并不满足实际的业务场景,参数配置需要和实际的任务相关联,才可以达到最佳的使用体验...动手写爬虫: 一、实现一个最简单爬虫 Java 动手写爬虫: 二、 深度 Java 动手写爬虫: 三、队列

1.9K50

Java 动手写爬虫: 二、 深度

第二篇 前面实现了一个最基础的单网页的爬虫,这一篇则着手解决深度的问题 简单来讲,就是了一个网页之后,继续这个网页中的链接 1....depth = 0; 因为有深度的过程,所以需要修改一下网页的代码,新增一个 doFetchNetxtPage方法,进行迭代网页,这时,结果匹配处理方法也不能如之前的直接赋值了,稍微改一下即可...DefaultAbstractCrawlJob 实现网页逻辑的抽象类 这个类实现网页的主要逻辑,也就是将之前的SimpleCrwalJob的实现拷贝过来,区别是干掉了返回结果; 顺带修了一个小bug...如有两个CrawlJob任务,若的是同一个url,第一个任务完,还没有回写到Storage时,第二个任务开始,这时,事前判断没有记录,然后通过之后开始,这时就依然会出现重复的问题 要解决这个问题...主要利用正则来匹配链接;这里需要注意一下几点 - 正向过滤 - 负向过滤 去重 如何保证一个链接被了之后,不会被重复进行

1.9K100

武汉疫情系列(1)|java丁香园|JAVA丁香医生的全国新型肺炎疫情实时动态

一、要的内容 包括但是不限制以下内容, 1、截止时间,为了统计的准确性,这个有必要展示 2、总共的确诊病例、疑似病例、死亡人数和治愈人数 3、国内各个省市的确诊、死亡和治愈人数 4、全球国外的各个国家的确诊...、死亡和治愈人数 5、其他的信息可以也可以不,看情况吧,如果有需要的话,可以在文章底部留言,我会另外更新上去 ?...至此,丁香医生的数据已经完毕了,如果你们还想要其他数据的,可以在下面留言,我会尽快更新 下面放一下要用到的工具类和完整代码 三、工具类 用到的工具类,请戳链接:https://blog.csdn.net...; import java.io.IOException; import java.io.InputStreamReader; import java.net.URL; import java.net.URLConnection...; import java.util.*; import java.util.regex.Matcher; import java.util.regex.Pattern; /** * Created

1K30
领券