java爬虫抓取_java爬虫抓取页面_java爬虫抓取网站 - 腾讯云开发者社区

python

我想抓取一些图像和他们的网页。我需要将抓取结果保存在本地磁盘中以供进一步分析。我想知道这个问题有没有开源的？

浏览 0提问于2010-06-16得票数 0

2回答

有没有可以下载整个网站的网络爬虫？

dynamic、hyperlink

需要知道是否有一个爬虫/下载器，可以抓取和下载和整个网站的链接深度至少为4页。我正在尝试下载的站点有java script超链接，这些超链接只能由浏览器呈现，因此爬虫程序无法抓取这些超链接，除非爬虫程序自己呈现它们！

浏览 4提问于2010-09-30得票数 0

回答已采纳

1回答

用于爬虫应用的数据库系统

database、web-crawler

我在一个基于java的爬虫上工作。我想在我的爬虫恢复功能，用户可以在任何时候暂停爬虫，在他想要的情况下，爬虫崩溃的情况下，他应该能够开始从爬虫停止的点上一次爬行。

浏览 2提问于2012-01-06得票数 1

回答已采纳

2回答

浏览器限制会影响网页爬虫吗？

redirect、asp.net-mvc-4、web-crawler

return Redirect("/h"); return View(); 问题:如果我限制一些浏览器访问我的主视图，它也会限制对网络爬虫的访问吗

浏览 0提问于2013-02-21得票数 0

回答已采纳

1回答

用Java开发自动web爬虫

web-crawler

你好，我想抓取多个电子商务网站，并获得所有可用的产品被抓取和显示在我的网站。我已经使用Java开发了爬虫，但在这方面，我们必须通过提供URL和HTML标记来手动抓取网站，并通过连接URL和解析URL来抓取站点，并在相应的HTML标记中获取产品。如果我想爬行佳能相机，爬虫应该自动完成。有可能使爬虫自动化吗？如果是，请帮助我做这件事。

浏览 1提问于2014-01-20得票数 1

4回答

我看过Java中关于析构函数的帖子，了解到Java没有析构函数，但我很困惑，如果没有析构函数，我的应用程序需要做什么。我的应用程序允许用户创建一系列的网络爬虫，这些爬虫保存在一个数组列表中。每个crawler都有一个进度面板gui，显示已爬行的页面等，并允许用户暂停该爬虫。但是，用户可能还想“终止”该爬虫程序。我需要做什么才能让用户按下"Terminate“，对于那个爬行器，它的抓取器，以及抓取器的DatabaseConnection，都被

浏览 4提问于2011-07-08得票数 0

回答已采纳

1回答

使用javascript URL数组的网络爬虫？

javascript、java、arrays

我让用户输入他们想要抓取最新更新的URL列表。我对Java很熟悉，所以我试着用Java做一个网络爬虫，但我不太明白如何把这个数组从javascript转换成Java。为了能够抓取数组中的每个URL，最兼容的语言是什么？

浏览 3提问于2016-01-17得票数 0

1回答

使用java抓取纬编的IFrame内容

java、html、iframe、web-crawler

我想抓取网页的IFrame内容(动态内容)；是否有人曾尝试过这种方法/是否有任何新的解决方案来抓取动态内容，如IFrame？

浏览 3提问于2014-12-09得票数 1

5回答

C#中任何好的开源网络爬行框架

c#、screen-scraping、web-crawler、web-scraping

我已经决定在C#中构建爬虫。我对HttpWebRequest/HttpWebResponse类有很多不好的体验，众所周知，它们对于大型爬虫来说是高度错误和不稳定的。如果他们知道有什么好的开源爬虫框架，比如java有nutch和apache commons，它们是非常稳定和高度健壮的库，我想要这里的专家们的意见，他们已经编码爬虫程序。编辑:我必须抓取的一些网站使用非常复杂的Java Script呈现页面，现在这增加了我的网络爬虫的复杂性，因为我

浏览 2提问于2010-12-06得票数 9

回答已采纳

2回答

使用javascript导入外部页面

javascript、greasemonkey、web-crawler

我想做一个java脚本爬虫，从php服务器获得一个分配，然后索引页面。但是我想抓取的网站是外部的，我不能用javascript访问它们，有没有人有其他赋值语言或javascript的解决方案。我想过在加载新站点时使用greasemonkey抓取页面。

浏览 1提问于2012-03-06得票数 0

2回答

数据挖掘，用于收集网站的详细信息并放入CSV或SQL中

data-mining

我如何开始编写一个程序，它将抓取他们的页面，并将页面的选择性信息放入CSV格式，然后我可以将其导入到我的网站中？至少，我可以在哪里学到这一点？谢谢。

浏览 9提问于2011-03-26得票数 0

回答已采纳

2回答

使用Web Crawler爬行Web数据

java、web-crawler

我想使用一个网络爬虫和抓取一个特定的网站。该网站是一个学习管理系统，许多学生在这里上传他们的作业，项目演示文稿等。我的问题是，我可以使用网络爬虫下载已经上传到学习管理系统中的文件吗？爬虫能做到这点吗？我知道webeater (用Java编写的Crawler )

浏览 1提问于2011-03-30得票数 1

回答已采纳

2回答

我需要为特定的用户代理编写一个网络爬虫

php、web-crawler

我需要编写一个网络爬虫，并希望能够爬行使用一个已知的用户代理。例如，我希望我的爬虫程序充当iphone来抓取网站的移动站点，然后使用Mozilla PC代理再次抓取，等等。这样，我将能够抓取每一个“类型”的网站(移动和个人电脑)。然而，我也希望能够设置我的爬虫的用户代理，这样网站管理员也可以在他们的统计数据中看到访问整个网站的是一个爬虫，而不是真正的用户。所以我的问题是，你们知道如何在PHP中同时设置一个移动代理和一个爬虫代理吗？这有可能吗？

浏览 1提问于2011-05-14得票数 3

回答已采纳

1回答

将Nutch web爬行功能集成到Java应用程序中

java、web-crawler、nutch

我会在我的Java应用程序中使用Apache从一个或多个网站抓取网页。基本上，为了处理页面内容(文本等)，我需要为web爬虫找到的每个网页调用我的Java应用程序的方法。如何做到这一点？

浏览 7提问于2016-06-01得票数 2

回答已采纳

1回答

使用X509爬行某些urls时的StormCrawler证书异常

java、web-crawler、apache-storm、x509certificate、stormcrawler

我一直在使用StormCrawler来抓取网站。作为https协议，我在StormCrawler中设置了默认的https协议。然而，当我抓取一些网站时，我收到以下例外情况：at java.security.cert.CertPathBuilder.build(CertPathBuilder.java:280) ~[?:1.8.0_131] at

浏览 1提问于2018-03-21得票数 2

回答已采纳

2回答

用crawler4j请求发送cookies？

java、cookies、web-crawler

我需要抓取一些链接，这些链接依赖于GET请求中发送的cookie。因此，当我想用crawler4j抓取页面时，我需要发送一些cookie来获取正确的页面。或者，有没有Java爬虫能够做到这一点？感谢您的帮助。

浏览 3提问于2011-12-16得票数 3

回答已采纳

1回答

从单个MongoDB队列获取信息的多个工作人员

python、mongodb、queue、mongodb-query、worker

我正在用Python构建一个web爬虫，使用MongoDB来存储一个队列，其中包含所有要爬行的URL。我将有几个独立的工人，将抓取URL。每当工作人员完成URL抓取时，它将在MongoDB集合"queue“中发出请求，以获得要爬行的新URL。我的问题是，既然会有多个爬虫，我如何确保两个爬虫器不会同时查询数据库并获得相同的URL来抓取？非常感谢你的帮助

浏览 0提问于2014-03-29得票数 0

回答已采纳

2回答

web爬行工具，支持在开始爬行之前与目标站点进行交互

web-crawler、nutch

我正在寻找一个爬虫，它能够处理与Ajax的页面，并能够在开始爬行网站之前与目标网站执行某些用户交互(例如，点击某些菜单项，填写一些表格等).I尝试webdriver/selenium (这是真正的网络抓取工具)，现在我想知道是否有任何爬虫程序，支持模拟某些用户交互之前开始爬行？(用Java、Python或Ruby ...)如果是，我很感谢任何描述这一点的链接。

浏览 1提问于2011-06-28得票数 0

6回答

爬虫vs刮板

web-crawler、terminology、scraper

有人能在范围和功能方面区分爬虫和刮板吗？

浏览 0提问于2010-07-09得票数 71

回答已采纳

2回答

Google为我的网站显示了错误的标题- robots.txt问题

wordpress、web-crawlers、robots.txt

我们直截了当地说吧。我已经建立了这个网站以及所有的东西，但是当我在google上输入"lissa mariage“时，它显示了这从罗马尼亚翻译过来的意思："pages_rss_title”。User-agent: GoogleDisallow: /现在，我需要你们的帮助，帮助我创建一个合适的robots.txt，因为我知道如果你不知道自

浏览 0提问于2015-12-17得票数 4

点击加载更多