java爬虫队列 - 腾讯云开发者社区

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

如果某个字段值不是唯一的，则rabbitmq丢弃消息？

、

我在我的网络爬虫中使用了一个ampq队列-每个爬虫实例都将从队列中的消息中获得一个url，然后将它找到的url添加到队列中。由于将有多个爬虫实例，每个实例都可能找到相同的url并将其添加到队列中。在已知url的情况下，是否有内置的方式告诉rabbitmq删除消息，或者如果带有url的消息已经存在，则检查队列？

浏览 4提问于2014-04-30得票数 2

回答已采纳

1回答

运行网站爬虫

、

我正在用java编写一个网站爬虫，我想知道运行它最明智的方式是什么？换句话说，我是走标准的web应用程序路线，放入web服务器并使用某种类型的消息队列，还是忘记容器而将其作为独立的java应用程序运行？这不是一个真正的网络爬虫，因为它只关心x个网站，但我想不断循环通过这些网站(24小时)，以确保我有最新的内容。

浏览 0提问于2012-01-10得票数 0

回答已采纳

3回答

构建url队列

、、

哪种方法更适合于在大规模网络爬虫中构建URL队列。链表还是B树？

浏览 2提问于2009-06-02得票数 0

1回答

我有一个爬虫，爬行几个不同的领域为新的帖子/内容。总内容数为十万页，每天都有很多新的内容添加。因此，为了能够通过所有这些内容，我需要我的爬虫爬行24/7。目前，我将爬虫脚本托管在与爬虫添加内容的站点相同的服务器上，而且我只能在夜间运行cron作业来运行脚本，因为当我这样做时，网站基本上停止工作，因为脚本的加载。换句话说，一个非常糟糕的解决方案。是否有可能继续从同一主机运行爬虫，但在某种程度上平衡负载，以便脚本不会扼杀网站？我会找什么样的主机/服务器来托管爬虫</

浏览 3提问于2014-03-06得票数 10

回答已采纳

3回答

非常简单的C++网络爬虫/蜘蛛？

、

我试图在C++中做一个非常简单的网页爬虫/蜘蛛应用程序。我一直在使用谷歌搜索一个简单的，以了解这个概念。我发现了这个：然而，这是复杂的理解对我来说，因为我开始学习C++大约一个月前。

浏览 15提问于2010-11-25得票数 22

回答已采纳

1回答

如何顺利地重启scrapy-redis蜘蛛？

、、

我用scrapy-redis写了一个简单的爬虫来制作分布式蜘蛛。当我启动两只蜘蛛，然后把它们都杀死时，我发现了这点。redis队列只留下了‘dupfilter’队列。当我重新启动这两个爬虫时，它们根本不起作用。那么，如果蜘蛛意外死亡或崩溃，如何重新启动它们呢？

浏览 0提问于2016-05-30得票数 0

2回答

每个线程有一个数据库连接？

、、、、

我制作了一个网络爬虫，每个线程不断地插入页面和链接。我必须为每个线程建立一个数据库连接，还是与它们共享一个连接？

浏览 0提问于2011-05-18得票数 1

回答已采纳

1回答

如何使用PHP从另一个网站获取数据并将其存储在MySQL数据库中？

、、

我需要使用PHP从网站中获取数据，并将其保存在MySQL数据库中。我还想获取图像并将它们保存在我的服务器中，以便在我的站点中显示它们。我听说可以使用API，但是我想知道我是否可以使用CURL来完成这个任务。我想每天获取大量的数据，那么使用CURL会消耗大量的服务器端资源吗？还有哪些其他方法可以获取数据？

浏览 5提问于2011-08-17得票数 1

5回答

.Net 4中的多线程C#队列

、、

我正在开发一个简单的网页爬虫。我搜索并找到了很多实现多线程爬虫的解决方案。创建线程安全队列以包含唯一URL的最佳方法是什么？编辑：.Net 4.5中有没有更好的解决方案？

浏览 3提问于2012-04-10得票数 1

回答已采纳

2回答

多线程爬虫，每个线程有不同的代理，正确的方式吗？

、、、

我要写一个多线程爬虫，计划在大约1000万个页面上运行，为了加快速度，我需要同时获取大约10~不同的页面。每个爬虫线程将使用不同的代理，并将结果推送到队列中，另一方面，我将有更多的工作者从队列中获取结果，解析并将其插入到DB中。这是正确的方法吗？在队列中保存太多结果会出现问题吗？我应该担心锁吗？(使用队列模块)。哪个HTTP库最适合我的需求？(httplib2/urllib2)。

浏览 0提问于2012-06-17得票数 0

2回答

爬虫url队列还是哈希列表？

、、、

我正在重写我以前写过的Delphi6SiteMapper应用程序的爬虫/爬虫部分。这个应用程序只搜索一个站点。以前，这些都是分别用TList和StringList完成的。我的问题是，这些队列/列表应该使用什么来确保最佳性能？我对哈希没有什么经验。

浏览 7提问于2011-07-28得票数 6

2回答

爬虫设计-调用异步作业与调用服务

、、、、

爬虫服务处理一个新抓取的url，然后：如果爬虫服务同步调用这两个服务

浏览 5提问于2020-03-01得票数 1

回答已采纳

2回答

线程化是否违反了robots.txt？

、、、

我刚接触抓取，最近我意识到线程可能是快速抓取站点的一种方法。在我开始讨论这个问题之前，我想这可能是明智的，以确定这是否会最终让我节流。所以问题是，如果我重写我的程序，使用线程来更快地爬行，这会违反大多数网站的robots.txt吗？

浏览 0提问于2011-06-07得票数 3

回答已采纳

2回答

typo3网站爬网程序未编制索引

、、、、

我试图在一个旧的TYPO3 4.5网站上用索引搜索和站点爬虫来索引一个页面--但是我尝试了几乎所有的方法都没有效果。我正在运行站点爬虫程序，它将获得可以爬行的URL的完整列表，并且我正在运行整个队列我已经设置了“索引配置”和一个网站爬虫但它不会建立索引"cache_pages

浏览 5提问于2016-01-17得票数 3

1回答

从单个MongoDB队列获取信息的多个工作人员

、、、、

我正在用Python构建一个web爬虫，使用MongoDB来存储一个队列，其中包含所有要爬行的URL。我将有几个独立的工人，将抓取URL。我的问题是，既然会有多个爬虫，我如何确保两个爬虫器不会同时查询数据库并获得相同的URL来抓取？非常感谢你的帮助

浏览 0提问于2014-03-29得票数 0

回答已采纳

4回答

实现多线程爬虫

、

我想实现一个多步爬虫使用我现在拥有的单线程爬虫代码。基本上，我从文本文件中读取urls，获取每个urls，并对其进行爬行和解析。

浏览 0提问于2010-02-02得票数 1

回答已采纳

2回答

木偶人爬行器大规模爬行

、、

我们正在使用Puppeteer编写一个网络爬虫。我们写的木偶爬虫执行和爬行网站的网址没有问题的网页，如约1,500 - 5,000，但是，当我们执行的网站超过5,000，如果它在中间由于一些错误或崩溃而中断，那么它需要重新开始。如果出现任何错误，如何使基于Puppeteer的网络爬虫从爬行的最后状态恢复？在Puppeteer中有没有内置的函数？如何让这个木偶手无头的chrome web爬行通过一个队列系统？

浏览 14提问于2020-12-05得票数 2

1回答

Java -更新静态变量

、、

我在java中有两个类需要同时运行-一个crawler类(它基本上实现了一个网络爬虫，并在遇到它们时不断打印出urls )，还有一个Indexer类，到目前为止，它应该只是打印抓取的urls。为此，我的Indexer类有一个队列：在我的Crawler类的toVisit()函数中，我有以下内容：爬虫

浏览 0提问于2012-03-30得票数 0

回答已采纳

1回答

如何使用gevent和线程爬行和处理(cpu密集型)数千个URL？

、、、、

将所有urls解析为一组(避免重复) 首先，用我从异步爬行器获得的结果填充队列会消耗很多内存--我需要解决这个问题，什么是好的实践呢

浏览 2提问于2015-03-29得票数 0

5回答

简单唯一非优先级排队系统

、

我正在用python编写一个简单的网络爬虫，我不想创建一个简单的queue类，但我不太确定最好的开始方法。我想要的东西，只持有唯一的项目来处理，这样爬虫将只抓取每一页每次脚本运行一次(只是为了避免无限循环)。有没有人能给我一个简单的队列示例？

浏览 0提问于2009-02-14得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如果某个字段值不是唯一的，则rabbitmq丢弃消息？

运行网站爬虫

构建url队列

托管爬虫的最佳解决方案？

非常简单的C++网络爬虫/蜘蛛？

如何顺利地重启scrapy-redis蜘蛛？

每个线程有一个数据库连接？

如何使用PHP从另一个网站获取数据并将其存储在MySQL数据库中？

.Net 4中的多线程C#队列

多线程爬虫，每个线程有不同的代理，正确的方式吗？

爬虫url队列还是哈希列表？

爬虫设计-调用异步作业与调用服务

线程化是否违反了robots.txt？

typo3网站爬网程序未编制索引

从单个MongoDB队列获取信息的多个工作人员

实现多线程爬虫

木偶人爬行器大规模爬行

Java -更新静态变量

如何使用gevent和线程爬行和处理(cpu密集型)数千个URL？

简单唯一非优先级排队系统

扫码

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐