使用Java对任何页面进行Web爬行_使用Java Swing进行Web爬行_使用python对多个Web页面进行web抓取 - 腾讯云开发者社区

jsoup、crawler4j

我对这个网络爬行是个新手。我正在使用crawler4j抓取网站。我正在通过爬行这些网站来收集所需的信息。我这里的问题是我无法抓取内容。因为抓取的结果是JavaScript代码。但我可以在web浏览器的检查上获得DOM HTML。如何使用java获取实际的DOM HTML。下面是使用Jsoup或Crawler4j获取DOM的方法。 <!

浏览 17提问于2019-05-21得票数 0

3回答

使用java进行Web爬行(Ajax/JavaScript启用页面)

java、web-crawler、crawler4j

我对这个网络爬行非常陌生。我正在使用crawler4j来抓取网站。我正在通过抓取这些网站收集所需的信息。我在这里的问题是，我无法抓取以下网站的内容。。我正在使用下面的代码来抓取内容。

浏览 2提问于2014-06-23得票数 9

回答已采纳

1回答

内部搜索结果:没有索引还是robots.txt阻塞？

seo、googlebot、robots.txt、noindex、crawl-rate

这些结果目前是可爬行的，但是没有索引元标记，所以它们不会出现在搜索索引中。我们应该做什么?我们应该禁止使用robots.txt对这些页面进行索引，还是应该继续使用元索引(以下)，以便链接到这些搜索结果页面的人仍然传递他们的“链接果汁”？谷歌在他们的网站管理员指南中说：“通过防止搜索结果页面等无限空间的爬行，使用

浏览 0提问于2017-07-13得票数 1

2回答

Java EE Web应用程序的搜索功能

jakarta-ee、search

我想在使用Java开发的web应用程序中添加一个搜索功能(它的工作方式与这个stackoverflow网站搜索功能的搜索功能相同)。适合使用Nutch搜索引擎吗？

浏览 0提问于2012-11-15得票数 1

回答已采纳

0回答

使用Java* Swing进行Web爬行*

java、swing、web-crawler

我正在开发一个基于Java的网络爬虫。我创建了一个JFrame (Java: Swing)。我的爬虫程序运行成功。它正在访问创建的链接。但我想在JTextArea中添加动态爬行链接，但它没有。

浏览 8提问于2017-06-15得票数 1

1回答

将数据映射到Nutch 1.x的弹性搜索中

indexing、elasticsearch、mapping、nutch

我一直在使用Nutch 1.10进行一些小的web爬行，并使用Elasticsearch 1.4.1对爬行数据进行索引--优化索引映射的唯一方法似乎是先爬行，检查ES自己完成的映射，然后使用映射API(如果必要的话)对其进行相应的更改。有谁知道一个更有效的解决方案来优化ES索引中的映射以供web爬行吗？更新：甚至可以从Nutch爬行</

浏览 4提问于2015-08-10得票数 0

回答已采纳

2回答

谷歌或其他搜索引擎(机器人)可以扫描SSL/HTTPS页面/网站吗？

search、ssl、https

好的，标题差不多说明了问题……

浏览 1提问于2011-01-05得票数 0

回答已采纳

1回答

网络扫描仪可以同时抓取和测试网页吗？

web-scanners

我搜索并阅读了一些关于web应用程序安全扫描器的文章。我发现几乎所有的扫描仪一开始都会抓取应用程序来查找所有的页面(或状态)。然后在爬行完成后，扫描仪开始测试应用程序(例如，模糊测试)。难道不可能(出于某些原因)同时爬行和测试页面吗？例如，查找页面A然后对其进行模糊测试，然后再爬行并找到页面B等等。理论上是可能的吗？有实际意义吗？如果没有，请解释原因？

浏览 0提问于2015-09-20得票数 1

回答已采纳

2回答

所以我想知道将它分成两个独立的应用程序是不是一个好的方法，其中一个应用程序将进行爬行、数据处理并将数据存储在数据库中。而另一个应用程序将是web应用程序(安装在某个web服务器上)，它将向用户呈现来自数据库的数据，并允许他与数据进行特定的交互。我认为我需要拆分的原因是，如果我对我的web应用程序进行了某些更改(如添加新功能、更改界面等)。我不希望爬行被打断。如果有任何关于这个问题的建议，我将不胜感激。用户(从

浏览 0提问于2011-04-17得票数 4

回答已采纳

1回答

如何使用kentico为包括web部件在内的页面内容创建索引？

search、indexing、web-parts、kentico

我正在为页面创建一个索引，但是当我将它与智能搜索一起使用时，它只是用于页面的标题，而不是它的内容。我想搜索包括网页内容在内的所有网页。

浏览 0提问于2018-11-26得票数 0

回答已采纳

2回答

网络爬虫数据存储在哪里？

c#、algorithm、web-crawler

我有一个简单的web爬虫，从根开始(给定url)，下载根页面的html，然后扫描超链接并抓取它们。我目前将html页面存储在SQL数据库中。我目前面临两个问题：似乎爬行达到了瓶颈，无法更快地爬行，我在某个地方读到过这样的消息:对页面进行多线程http请求可以使爬行器更快，但我不知道如何做到这一点。第二个问题是，我需要一个高效的数据结构来存储html页面，并能够在它们上运行数据挖掘操作(目前使用

浏览 3提问于2012-01-17得票数 14

回答已采纳

1回答

Robots.TXT和元标签机器人

meta-tags、robots.txt

meta content="noindex, nofollow" name="robots" />Robots.txt中的Disallow: /example-page.html 对吗

浏览 0提问于2012-02-11得票数 1

回答已采纳

2回答

识别访问网站中隐藏链接的用户

http、intrusion、css

(使用CSS可见性隐藏样式，以避免用户访问它)。无论如何，我发现有很多HTTP请求引用了访问隐藏链接的浏览器。我在网上搜索，但找不到任何有价值的信息。请您给我提供一些资源，否则任何帮助将不胜感激。

浏览 0提问于2013-12-30得票数 1

回答已采纳

1回答

谷歌改变爬行速度:似乎不起作用。为什么？

google、google-search-console

我已经改变了三天前谷歌爬行的速度我的网站。📷有人遇到过这个问题吗？

浏览 0提问于2012-02-11得票数 2

回答已采纳

1回答

Nutch文档Solr中的语言检测

apache、solr、nutch、language-detection

如何使用Solr对爬行nutch获得的文档进行语言识别？我通过添加字段来修改核心测试/conf中的schema.xml。<field name="language_s" type="string" stored="true" inde

浏览 0提问于2015-05-19得票数 0

1回答

黑匣子测试javascript MVC web应用程序

web-application、penetration-test、javascript

我想测试一个使用backbone.js框架构建的web应用程序。是否有任何工具可以专注于AJAX密集型web应用程序？

浏览 0提问于2013-02-18得票数 2

1回答

使用Azure Service Fabric手动控制和生成作业处理代理

azure、parallel-processing、architecture、web-crawler、azure-service-fabric

问题域：我目前正在进行一项关于分布式大规模web爬行架构的研究，涉及数十个并行代理，这些代理应该爬行web服务器并下载资源以进行进一步的索引。因此，基本的高级设计外观如下所示：思想:中央Web爬行系统引擎()在无限循环中运行，直到程序中止并获取服务总线队列消息，该消息包含要爬行的页面的URL。每个代理运行在自己的分区(例如: example.com)上，递归地只爬行此主机名的页面

浏览 0提问于2020-04-27得票数 1

回答已采纳

2回答

快速搜索Dokuwiki页面的Sharepoint Crawler问题

sharepoint-2010、dokuwiki

我的等级是最大限度的爬行Dokuwiki网站。我有一个使用快速搜索SharePoint的内容源，我已经设置它来抓取dokuwiki/doku.php站点。我的爬虫规则设置为：*，匹配大小写，并使用爬行复杂urls包含此路径中的所有项。对爬行规则中的内容源进行测试表明，它将由爬虫进行爬行。但是.爬行总是持续不到2分钟，完成只抓取了我指向的页面，而没有其他链接在该页面上。我

浏览 1提问于2011-06-23得票数 0

3回答

使用Scrapy对需要填写表单的html页面进行Python Web爬行

python、forms、scrapy、web-crawler

我正在尝试爬行这个网站，它首先要求我填写表单，然后进入所需的页面：start_urls = ['http://fcainfoweb.nic.in/PMSver2/Reports/Report_Menu_web.aspxresponse): 'http://

浏览 0提问于2017-02-21得票数 1

1回答

更改内容类型会导致google抓取错误

wordpress、url、google-analytics、indexing、google-crawlers

现在，问题是谷歌正在索引/爬行旧的'A‘CPT名称，以及旧的猫爪结构，这会导致随机页面(因为WordPress用URL中的关键字进行猜测和显示页面)或404错误。

浏览 1提问于2014-10-21得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云