腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
使用
Java
对
任何
页面
进行
Web
爬行
jsoup
、
crawler4j
我
对
这个网络
爬行
是个新手。我正在
使用
crawler4j抓取网站。我正在通过
爬行
这些网站来收集所需的信息。我这里的问题是我无法抓取内容。因为抓取的结果是JavaScript代码。但我可以在
web
浏览器的检查上获得DOM HTML。如何
使用
java
获取实际的DOM HTML。 下面是
使用
Jsoup或Crawler4j获取DOM的方法。 <!
浏览 17
提问于2019-05-21
得票数 0
3
回答
使用
java
进行
Web
爬行
(Ajax/JavaScript启用
页面
)
java
、
web-crawler
、
crawler4j
我
对
这个网络
爬行
非常陌生。我正在
使用
crawler4j来抓取网站。我正在通过抓取这些网站收集所需的信息。我在这里的问题是,我无法抓取以下网站的内容。。我正在
使用
下面的代码来抓取内容。
浏览 2
提问于2014-06-23
得票数 9
回答已采纳
1
回答
内部搜索结果:没有索引还是robots.txt阻塞?
seo
、
googlebot
、
robots.txt
、
noindex
、
crawl-rate
这些结果目前是可
爬行
的,但是没有索引元标记,所以它们不会出现在搜索索引中。我们应该做什么?我们应该禁止
使用
robots.txt
对
这些
页面
进行
索引,还是应该继续
使用
元索引(以下),以便链接到这些搜索结果
页面
的人仍然传递他们的“链接果汁”?谷歌在他们的网站管理员指南中说:“通过防止搜索结果
页面
等无限空间的
爬行
,
使用
浏览 0
提问于2017-07-13
得票数 1
2
回答
Java
EE
Web
应用程序的搜索功能
jakarta-ee
、
search
我想在
使用
Java
开发的
web
应用程序中添加一个搜索功能(它的工作方式与这个stackoverflow网站搜索功能的搜索功能相同)。 适合
使用
Nutch搜索引擎吗?
浏览 0
提问于2012-11-15
得票数 1
回答已采纳
0
回答
使用
Java
Swing
进行
Web
爬行
java
、
swing
、
web-crawler
我正在开发一个基于
Java
的网络爬虫。我创建了一个JFrame (
Java
: Swing)。我的爬虫程序运行成功。它正在访问创建的链接。但我想在JTextArea中添加动态
爬行
链接,但它没有。
浏览 8
提问于2017-06-15
得票数 1
1
回答
将数据映射到Nutch 1.x的弹性搜索中
indexing
、
elasticsearch
、
mapping
、
nutch
我一直在
使用
Nutch 1.10
进行
一些小的
web
爬行
,并
使用
Elasticsearch 1.4.1
对
爬行
数据
进行
索引--优化索引映射的唯一方法似乎是先
爬行
,检查ES自己完成的映射,然后
使用
映射API(如果必要的话)
对
其
进行
相应的更改。有谁知道一个更有效的解决方案来优化ES索引中的映射以供
web
爬行
吗? 更新:甚至可以从Nutch
爬行</
浏览 4
提问于2015-08-10
得票数 0
回答已采纳
2
回答
谷歌或其他搜索引擎(机器人)可以扫描SSL/HTTPS
页面
/网站吗?
search
、
ssl
、
https
好的,标题差不多说明了问题……
浏览 1
提问于2011-01-05
得票数 0
回答已采纳
1
回答
网络扫描仪可以同时抓取和测试网页吗?
web-scanners
我搜索并阅读了一些关于
web
应用程序安全扫描器的文章。我发现几乎所有的扫描仪一开始都会抓取应用程序来查找所有的
页面
(或状态)。然后在
爬行
完成后,扫描仪开始测试应用程序(例如,模糊测试)。难道不可能(出于某些原因)同时
爬行
和测试
页面
吗?例如,查找
页面
A然后
对
其
进行
模糊测试,然后再
爬行
并找到
页面
B等等。理论上是可能的吗?有实际意义吗?如果没有,请解释原因?
浏览 0
提问于2015-09-20
得票数 1
回答已采纳
2
回答
共享同一数据库的两个不同的
Java
应用程序
java
、
hibernate
、
integration
所以我想知道将它分成两个独立的应用程序是不是一个好的方法,其中一个应用程序将
进行
爬行
、数据处理并将数据存储在数据库中。而另一个应用程序将是
web
应用程序(安装在某个
web
服务器上),它将向用户呈现来自数据库的数据,并允许他与数据
进行
特定的交互。我认为我需要拆分的原因是,如果我
对
我的
web
应用程序
进行
了某些更改(如添加新功能、更改界面等)。我不希望
爬行
被打断。如果有
任何
关于这个问题的建议,我将不胜感激。用户(从
浏览 0
提问于2011-04-17
得票数 4
回答已采纳
1
回答
如何
使用
kentico为包括
web
部件在内的
页面
内容创建索引?
search
、
indexing
、
web-parts
、
kentico
我正在为
页面
创建一个索引,但是当我将它与智能搜索一起
使用
时,它只是用于
页面
的标题,而不是它的内容。我想搜索包括网页内容在内的所有网页。
浏览 0
提问于2018-11-26
得票数 0
回答已采纳
2
回答
网络爬虫数据存储在哪里?
c#
、
algorithm
、
web-crawler
我有一个简单的
web
爬虫,从根开始(给定url),下载根
页面
的html,然后扫描超链接并抓取它们。我目前将html
页面
存储在SQL数据库中。我目前面临两个问题: 似乎
爬行
达到了瓶颈,无法更快地
爬行
,我在某个地方读到过这样的消息:
对
页面
进行
多线程http请求可以使
爬行
器更快,但我不知道如何做到这一点。第二个问题是,我需要一个高效的数据结构来存储html
页面
,并能够在它们上运行数据挖掘操作(目前
使用
浏览 3
提问于2012-01-17
得票数 14
回答已采纳
1
回答
Robots.TXT和元标签机器人
meta-tags
、
robots.txt
meta content="noindex, nofollow" name="robots" />Robots.txt中的Disallow: /example-page.html
对
吗
浏览 0
提问于2012-02-11
得票数 1
回答已采纳
2
回答
识别访问网站中隐藏链接的用户
http
、
intrusion
、
css
(
使用
CSS可见性隐藏样式,以避免用户访问它)。 无论如何,我发现有很多HTTP请求引用了访问隐藏链接的浏览器。我在网上搜索,但找不到
任何
有价值的信息。请您给我提供一些资源,否则
任何
帮助将不胜感激。
浏览 0
提问于2013-12-30
得票数 1
回答已采纳
1
回答
谷歌改变
爬行
速度:似乎不起作用。为什么?
google
、
google-search-console
我已经改变了三天前谷歌
爬行
的速度我的网站。📷有人遇到过这个问题吗?
浏览 0
提问于2012-02-11
得票数 2
回答已采纳
1
回答
Nutch文档Solr中的语言检测
apache
、
solr
、
nutch
、
language-detection
如何
使用
Solr
对
爬行
nutch获得的文档
进行
语言识别?我通过添加字段来修改核心测试/conf中的schema.xml。<field name="language_s" type="string" stored="true" inde
浏览 0
提问于2015-05-19
得票数 0
1
回答
黑匣子测试javascript MVC
web
应用程序
web-application
、
penetration-test
、
javascript
我想测试一个
使用
backbone.js框架构建的
web
应用程序。是否有
任何
工具可以专注于AJAX密集型
web
应用程序?
浏览 0
提问于2013-02-18
得票数 2
1
回答
使用
Azure Service Fabric手动控制和生成作业处理代理
azure
、
parallel-processing
、
architecture
、
web-crawler
、
azure-service-fabric
问题域:我目前正在
进行
一项关于分布式大规模
web
爬行
架构的研究,涉及数十个并行代理,这些代理应该
爬行
web
服务器并下载资源以
进行
进一步的索引。因此,基本的高级设计外观如下所示:思想:中央
Web
爬行
系统引擎()在无限循环中运行,直到程序中止并获取服务总线队列消息,该消息包含要
爬行
的
页面
的URL。每个代理运行在自己的分区(例如: example.com)上,递归地只
爬行
此主机名的
页面
浏览 0
提问于2020-04-27
得票数 1
回答已采纳
2
回答
快速搜索Dokuwiki
页面
的Sharepoint Crawler问题
sharepoint-2010
、
dokuwiki
我的等级是最大限度的
爬行
Dokuwiki网站。 我有一个
使用
快速搜索SharePoint的内容源,我已经设置它来抓取dokuwiki/doku.php站点。我的爬虫规则设置为:*,匹配大小写,并
使用
爬行
复杂urls包含此路径中的所有项。
对
爬行
规则中的内容源
进行
测试表明,它将由爬虫
进行
爬行
。但是.
爬行
总是持续不到2分钟,完成只抓取了我指向的
页面
,而没有其他链接在该
页面
上。我
浏览 1
提问于2011-06-23
得票数 0
3
回答
使用
Scrapy
对
需要填写表单的html
页面
进行
Python
Web
爬行
python
、
forms
、
scrapy
、
web-crawler
我正在尝试
爬行
这个网站,它首先要求我填写表单,然后进入所需的
页面
:start_urls = ['http://fcainfoweb.nic.in/PMSver2/Reports/Report_Menu_
web
.aspxresponse): 'http://
浏览 0
提问于2017-02-21
得票数 1
1
回答
更改内容类型会导致google抓取错误
wordpress
、
url
、
google-analytics
、
indexing
、
google-crawlers
现在,问题是谷歌正在索引/
爬行
旧的'A‘CPT名称,以及旧的猫爪结构,这会导致随机
页面
(因为WordPress用URL中的关键字
进行
猜测和显示
页面
)或404错误。
浏览 1
提问于2014-10-21
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
不慌,带你透彻了解爬虫类型
七款必备的Python爬虫库,你知道几个?
南挚seo:什么是搜索引擎?常见的搜索引擎蜘蛛有哪些?
网络安全扫描平台-Gryffin
最佳免费网络爬虫工具(3)
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券