腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
网络蜘蛛,它能够抓取基于ajax的网站。
ajax
、
selenium
、
web-crawler
、
crawler4j
现在我正在使用
Crawler4j
,我对此非常满意--但是它不能爬行基于ajax的网站。我曾经使用selenium作为另一种方法,这种方法与幻影结合起来很好。那么,是否有办法将Selenium插入到
crawler4j
中呢? 如果不是-- Java中是否还有另一个很好的库来处理基于ajax的网站?
浏览 0
提问于2015-11-12
得票数 1
回答已采纳
2
回答
使用
crawler4j
下载
js
文件
java
、
web-crawler
、
crawler4j
我唯一的问题是,即使我为shouldVisit函数中的所有.
js
文件返回true,它们也永远不会被下载。(Page page) { System.out.println("URL: " + url);.
js
浏览 4
提问于2013-01-19
得票数 2
回答已采纳
1
回答
运行mvn全新安装时出现maven错误?
java
、
maven
、
crawler4j
[ERROR] /home/user/nutch/crawler4jParsar/
crawler4j
/
crawler4j
/src/main/java/edu/uci/ics/
crawler4j
/company[LeftCurly] [ERROR] /home/user/nutch/crawler4jParsar/
crawler4j
浏览 6
提问于2018-09-14
得票数 0
1
回答
如何使用
crawler4j
添加(集成)爬虫?
web-crawler
、
google-crawlers
、
crawler4j
我的工作是网络爬虫,从网站上获取数据使用
crawler4j
和一切顺利,但主要问题是基于ajax的事件。所以,我发现了爬虫库做了这件事,但我不能使用它的地点和时间。在使用
crawler4j
获取页面之前。 我是否使用url来使用
crawler4j
,并使用它来使用爬行获取Ajax数据(页面)。
浏览 5
提问于2019-03-05
得票数 0
1
回答
如何获取
crawler4j
中的url是404还是301
crawler4j
是否可以在
crawler4j
中获取URL是404还是301?
浏览 3
提问于2013-02-04
得票数 1
1
回答
使用Java对任何页面进行Web爬行
jsoup
、
crawler4j
我正在使用
crawler4j
抓取网站。我正在通过爬行这些网站来收集所需的信息。我这里的问题是我无法抓取内容。因为抓取的结果是JavaScript代码。下面是使用Jsoup或
Crawler4j
获取DOM的方法。 <!doctype html> <head> </head> <body cl
浏览 17
提问于2019-05-21
得票数 0
1
回答
crawler4j
将<script> </script>标记之间的行检测为文本
web-crawler
、
html-parsing
、
crawler4j
<body> </div> HtmlParseDatahtmlParseData = (HtmlParseDat
浏览 2
提问于2019-12-26
得票数 0
2
回答
它能通过
Crawler4j
检索网站内容吗?
java
、
parsing
、
web-crawler
、
jsoup
、
crawler4j
(假设每页有10篇新闻文章)我决定尽可能地使用
Crawler4j
从每个页面中获取所有URI,并检索这些URI的内容。对您检索的每个URI进行递归移动。但是,当我尝试使用
Crawler4j
的Quickstart时Text length: 3661Number of outgoing links: 86 因此,我想知道
crawler4j
浏览 7
提问于2016-09-11
得票数 2
2
回答
如何禁用
Crawler4J
记录器?
java
、
crawler4j
我正在使用
Crawler4J
爬行。但是
Crawler4J
有一个记录器。 如何禁用记录器内部
Crawler4J
库?
浏览 5
提问于2017-05-02
得票数 3
回答已采纳
1
回答
如何使用
crawler4j
提取页面上的所有链接?
java
、
html
、
hyperlink
、
web-crawler
、
crawler4j
我正在实现一个网络爬虫,我使用的是
Crawler4j
库。我不会在一个网站上得到所有的链接。我试图用
Crawler4j
提取一个页面上的所有链接,但错过了一些链接。
Crawler4j
版本: crawler4j-3.3不是的。这个页面上的链接数量:几乎60个,其中4-5个是重复的是页面上的URL列表,是
Crawler4j
提供的URL列表。 我查看了
crawler4j
使用的'HtmlContentHandler.jav
浏览 1
提问于2012-07-03
得票数 1
回答已采纳
2
回答
如何配置这个java爬虫?
java
、
web-crawler
我下载了用该描述编写的所有这两个文件(),其中一个文件包含
crawler4j
jar文件和配置文件,另一个文件包含
crawler4j
的依赖项。将所有这些文件放在类路径中。
浏览 1
提问于2011-06-18
得票数 1
1
回答
Crawler4j
无法AJAX爬网
java
、
web-crawler
、
crawler4j
但是
crawler4j
不支持ajax爬行。我想使用
crawler4j
,但要使用此功能。我的项目是基于
crawler4j
的。我有任何办法做,请分享链接和片段。
浏览 7
提问于2016-04-28
得票数 0
1
回答
当我重新启动我的爬虫时,如何在最后的深度后恢复爬行?
java
、
web-crawler
、
crawler4j
你好大家好,我正在做一个web应用程序,从一个特定的网站抓取大量的页面,我开始了我的
crawler4j
软件的无限深度和页面,但它突然停止,因为互联网连接。
浏览 5
提问于2018-11-20
得票数 1
回答已采纳
1
回答
Crawler4j
在爬行后一直阻塞
web-crawler
、
blocking
、
crawler4j
我使用
Crawler4j
只是从爬行的页面中获取HTML。它成功地为我的测试站点存储了大约50页的检索HTML。它使用我实现的shoudVisit方法,它使用我实现的visit方法。这两件事都没有问题。
浏览 4
提问于2015-04-15
得票数 1
1
回答
如何更改
Crawler4j
中的默认crawlStorageFolder?
java
、
parsing
、
web-crawler
、
jsoup
、
crawler4j
当我尝试
Crawler4j
的快速入门时,我想这是我应该更改结果存储位置的地方。然后我尝试更改为"C:\Fraps\try" .It创建一个名为frontier的文件夹,其中包含一些未知的文件,如je.lck、je.info.0…… 以我的理解,
crawler4j
可以用于查找外部链接和内容解析换句话说,我可以通过
crawler4j
下载html文件(里面的文本)。或者我应该通过
crawler4j
下载什么?
浏览 5
提问于2016-09-11
得票数 0
1
回答
对文件系统上的html文件使用
crawler4j
java
、
web-crawler
我发现
crawler4j
正在建立Http连接。但是对于这种情况,不需要Http连接。schemeRegistry.register(new Scheme("https", 443, SSLSocketFactory.getSocketFactory()));有没有办法在PageFetcher of
crawler4j
中的SchemeRegistry中注册
crawler4j
协议,或者
crawler4j
总是用于服务器上的托管文件?
浏览 0
提问于2012-12-26
得票数 2
1
回答
使用mongoDB的
Crawler4j
mongodb
、
crawler4j
我在研究
crawler4j
。我发现它使用BerkeleyDB作为数据库。我正在使用mongoDB开发一个Grails应用程序,我想知道
crawler4j
在我的应用程序中工作有多灵活。是否可以将
crawler4j
配置为使用mongoDB而不是BerkeleyDB作为默认数据存储区?任何建议都会很有帮助。谢谢
浏览 6
提问于2014-07-01
得票数 2
1
回答
如何通过
crawler4j
下载JavaScript文件中包含的文本?
javascript
、
web-crawler
、
crawler4j
我正在尝试使用
crawler4j
从一些网站中提取文本。但是,虽然我以如下方式更改了过滤器以允许使用
js
进行扩展 + "|png|mp3|mp3|zip|gz))$"); 我不知道如何将此文本存储到文件中(如果
js
文件中的文本与常规文本有不同的存储方法)。
浏览 2
提问于2015-06-16
得票数 0
1
回答
Crawler4j
能用robots.txt中的星号(*)解释通配符吗?
wildcard
、
robots.txt
、
crawler4j
#Allow: /*page1 问题是
crawler4j
似乎忽略了用于通配符的星号。是我的robots.txt有问题还是星号是
crawler4j
默认不解释的东西。
浏览 6
提问于2015-04-13
得票数 1
回答已采纳
1
回答
crawler4j
不识别页面上的所有链接
crawler4j
基本上,我面临的问题是,
crawler4j
不能识别页面上的所有链接。预期的输出是什么?您所看到的是什么?
crawler4j
4.1例如。
浏览 1
提问于2015-05-11
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
浅谈Python之爬虫
js高级
JS数组
JS函数
JS书写优化
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券