首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

Java|“ Java”来小说章节

1 前提简介 在上一篇Java|使用WebMagic进行电话“的文章里就已经介绍了如何主要使用Pageprocessor去电话号码,接下来将要学习到的是去起点中文网的小说,并且按照小说名和章节分别保存...2 简单查看 下面就是需要去的小说页面以及内容,但保存下来的文件只需要章节内容,像第一章的开头就不需要,于是需要注意去判断。 ? 图2.1 起点中文网 ? 图2.2 玄幻新书 ?...java.util.List; /** * 起点小说 */ public class GetQidianBook implements PageProcessor {.../书的名字 String bookName1 = ""; @Override public Site getSite() {return site;} //数据逻辑...System.out.println(title + " " + "完毕"); } catch (FileNotFoundException e)

2.1K10

Java爬虫系列四:使用selenium-javajs异步请求的数据

1.需求场景: 想要抓取股票的最新价格,页面F12信息如下: 按照前面的方式,的代码如下: /** * @description: 股票的最新股价 * @author: JAVA开发老菜鸟...之所以不到正确的结果,是因为这个值在网站上是通过异步加载渲染的,因此不能正常获取。 2.java异步加载的数据的方法 那如何异步加载的数据呢?...通常有两种做法: 2.1内置浏览器内核 内置浏览器就是在抓取的程序中启动一个浏览器内核,使我们获取到 js 渲染后的页面就和静态页面一样。...3.结束语 以上即为如何通过selenium-java异步加载的数据的方法。...:最新股价 相关代码已经上传到我的码云,感兴趣可以看下。

1.8K21

用 Javascript 和 Node.js 网页

本文讲解怎样用 Node.js 高效地从 Web 数据。 前提条件 本文主要针对具有一定 JavaScript 经验的程序员。...Web 抓取的过程 利用多个经过实践考验过的库来 Web 了解 Node.js Javascript 是一种简单的现代编程语言,最初是为了向浏览器中的网页添加动态效果。...由于创建了 DOM,所以可以通过编程与要的 Web 应用或网站进行交互,也可以模拟单击按钮。如果你熟悉 DOM 操作,那么使用 JSDOM 将会非常简单。...摘自 Puppeter DocsPuppeteer 比上述工具更有用,因为它可以使你像真正的人在与浏览器进行交互一样对网络进行。...✅ Cheerio 把 JQuery 的优点抽出来,在服务器端 进行 Web 是唯一的目的,但不执行 Javascript 代码。

9.9K10

python鬼灭漫画+简单JS分析

作者:皖渝 源自:快学python 本次仅供学习,无任何商业用途 猪油骨,拿来卤~今天,来分享一下python图片+简单JS分析 网址:漫画地址(这个网站只更新到188话,实际上已经有200...解密 点击进入第一话后,分析网页源码,发现图片保存在a标签下的img中,但是需要的src是用javascript写的!...src='"+m201304d+"newkuku/2016/02/15/鬼灭之刃][第1话/JOJO_001513.jpg' 其中,m201304是加密的部分,这个网站比较简单,直接找到js4.js文件...') if __name__=='__main__': get_all_img() 最终的漫画如下(这里仅作示例,只取了前10话的内容): ?...10话大概取了25分钟左右,算下来,完188话,也要7个多小时....后续可以用多进程方法加速一下速度。

48710

Java|如何使用“Java电话号码

前言 下面会介绍如何使用“Java”去取到一个网站的电话号码。使用到的一些基本语法与定义:IO流,正则表达式,如过不清楚可以先去了解一下,当然在下文中也会做出对应使用介绍与解释。...接下来就是在main函数里写需要的代码: 首先是载入连接需要的网址: String path =  "https://www.jihaoba.com/escrow/?...;  //java电话号码  public class TelDemo {      //java程序入口,main函数      public static void main(String[]  ...就关不了,finally里就不用担心          BufferedReader br = null;          PrintWriter pw = null;          //目标网址的...图5.3 取到的号码 以上操作就完成了电话号码的简单,在后面可能还会继续更新关于其他的相关内容。

84330

Java 动手写爬虫: 三、队列

第三篇 队列的实现 第二篇中,实现了深度的过程,但其中一个比较明显的问题就是没有实现每个作为一个独立的任务来执行;即串行的网页中的链接;因此,这一篇将主要集中目标在并发的网页的问题上...目标是每个链接的都当做一个独立的job来执行 设计 分工说明 每个job都是独立的任务,且只对应的网址 一个阻塞队列,用于保存所有需要的网址 一个控制器,从队列中获取待的链接,然后新建一个任务执行...FetchQueue 这个就是保存的待网页的队列,其中包含两个数据结果 toFetchQueue: CrawlMeta 队列,其中的都是需要的url urls: 所有过or待的url集合...线程池 直接使用Java的线程池来操作,因为线程池有较多的配置参数,所以先定义一个配置类; 给了一个默认的配置项,这个可能并不满足实际的业务场景,参数配置需要和实际的任务相关联,才可以达到最佳的使用体验...动手写爬虫: 一、实现一个最简单爬虫 Java 动手写爬虫: 二、 深度 Java 动手写爬虫: 三、队列

1.9K50
领券