腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如果某个字段值不是唯一的,则rabbitmq丢弃消息?
、
我在我的网络
爬虫
中使用了一个ampq
队列
-每个
爬虫
实例都将从
队列
中的消息中获得一个url,然后将它找到的url添加到
队列
中。 由于将有多个
爬虫
实例,每个实例都可能找到相同的url并将其添加到
队列
中。在已知url的情况下,是否有内置的方式告诉rabbitmq删除消息,或者如果带有url的消息已经存在,则检查
队列
?
浏览 4
提问于2014-04-30
得票数 2
回答已采纳
1
回答
运行网站
爬虫
、
我正在用
java
编写一个网站
爬虫
,我想知道运行它最明智的方式是什么?换句话说,我是走标准的web应用程序路线,放入web服务器并使用某种类型的消息
队列
,还是忘记容器而将其作为独立的
java
应用程序运行?这不是一个真正的网络
爬虫
,因为它只关心x个网站,但我想不断循环通过这些网站(24小时),以确保我有最新的内容。
浏览 0
提问于2012-01-10
得票数 0
回答已采纳
3
回答
构建url
队列
、
、
哪种方法更适合于在大规模网络
爬虫
中构建URL
队列
。链表还是B树?
浏览 2
提问于2009-06-02
得票数 0
1
回答
托管
爬虫
的最佳解决方案?
、
、
、
我有一个
爬虫
,爬行几个不同的领域为新的帖子/内容。总内容数为十万页,每天都有很多新的内容添加。因此,为了能够通过所有这些内容,我需要我的
爬虫
爬行24/7。目前,我将
爬虫
脚本托管在与
爬虫
添加内容的站点相同的服务器上,而且我只能在夜间运行cron作业来运行脚本,因为当我这样做时,网站基本上停止工作,因为脚本的加载。换句话说,一个非常糟糕的解决方案。是否有可能继续从同一主机运行
爬虫
,但在某种程度上平衡负载,以便脚本不会扼杀网站? 我会找什么样的主机/服务器来托管
爬虫</
浏览 3
提问于2014-03-06
得票数 10
回答已采纳
3
回答
非常简单的C++网络
爬虫
/蜘蛛?
、
我试图在C++中做一个非常简单的网页
爬虫
/蜘蛛应用程序。我一直在使用谷歌搜索一个简单的,以了解这个概念。我发现了这个: 然而,这是复杂的理解对我来说,因为我开始学习C++大约一个月前。
浏览 15
提问于2010-11-25
得票数 22
回答已采纳
1
回答
如何顺利地重启scrapy-redis蜘蛛?
、
、
我用scrapy-redis写了一个简单的
爬虫
来制作分布式蜘蛛。当我启动两只蜘蛛,然后把它们都杀死时,我发现了这点。redis
队列
只留下了‘dupfilter’
队列
。当我重新启动这两个
爬虫
时,它们根本不起作用。那么,如果蜘蛛意外死亡或崩溃,如何重新启动它们呢?
浏览 0
提问于2016-05-30
得票数 0
2
回答
每个线程有一个数据库连接?
、
、
、
、
我制作了一个网络
爬虫
,每个线程不断地插入页面和链接。我必须为每个线程建立一个数据库连接,还是与它们共享一个连接?
浏览 0
提问于2011-05-18
得票数 1
回答已采纳
1
回答
如何使用PHP从另一个网站获取数据并将其存储在MySQL数据库中?
、
、
我需要使用PHP从网站中获取数据,并将其保存在MySQL数据库中。我还想获取图像并将它们保存在我的服务器中,以便在我的站点中显示它们。我听说可以使用API,但是我想知道我是否可以使用CURL来完成这个任务。我想每天获取大量的数据,那么使用CURL会消耗大量的服务器端资源吗?还有哪些其他方法可以获取数据?
浏览 5
提问于2011-08-17
得票数 1
5
回答
.Net 4中的多线程C#
队列
、
、
我正在开发一个简单的网页
爬虫
。我搜索并找到了很多实现多线程
爬虫
的解决方案。创建线程安全
队列
以包含唯一URL的最佳方法是什么? 编辑:.Net 4.5中有没有更好的解决方案?
浏览 3
提问于2012-04-10
得票数 1
回答已采纳
2
回答
多线程
爬虫
,每个线程有不同的代理,正确的方式吗?
、
、
、
我要写一个多线程
爬虫
,计划在大约1000万个页面上运行,为了加快速度,我需要同时获取大约10~不同的页面。每个
爬虫
线程将使用不同的代理,并将结果推送到
队列
中,另一方面,我将有更多的工作者从
队列
中获取结果,解析并将其插入到DB中。 这是正确的方法吗?在
队列
中保存太多结果会出现问题吗?我应该担心锁吗?(使用
队列
模块)。哪个HTTP库最适合我的需求?(httplib2/urllib2)。
浏览 0
提问于2012-06-17
得票数 0
2
回答
爬虫
url
队列
还是哈希列表?
、
、
、
我正在重写我以前写过的Delphi6SiteMapper应用程序的
爬虫
/
爬虫
部分。这个应用程序只搜索一个站点。 以前,这些都是分别用TList和StringList完成的。我的问题是,这些
队列
/列表应该使用什么来确保最佳性能?我对哈希没有什么经验。
浏览 7
提问于2011-07-28
得票数 6
2
回答
爬虫
设计-调用异步作业与调用服务
、
、
、
、
爬虫
服务处理一个新抓取的url,然后: 如果
爬虫
服务同步调用这两个服务
浏览 5
提问于2020-03-01
得票数 1
回答已采纳
2
回答
线程化是否违反了robots.txt?
、
、
、
我刚接触抓取,最近我意识到线程可能是快速抓取站点的一种方法。在我开始讨论这个问题之前,我想这可能是明智的,以确定这是否会最终让我节流。所以问题是,如果我重写我的程序,使用线程来更快地爬行,这会违反大多数网站的robots.txt吗?
浏览 0
提问于2011-06-07
得票数 3
回答已采纳
2
回答
typo3网站爬网程序未编制索引
、
、
、
、
我试图在一个旧的TYPO3 4.5网站上用索引搜索和站点
爬虫
来索引一个页面--但是我尝试了几乎所有的方法都没有效果。我正在运行站点
爬虫
程序,它将获得可以爬行的URL的完整列表,并且我正在运行整个
队列
我已经设置了“索引配置”和一个网站
爬虫
但它不会建立索引"cache_pages
浏览 5
提问于2016-01-17
得票数 3
1
回答
从单个MongoDB
队列
获取信息的多个工作人员
、
、
、
、
我正在用Python构建一个web
爬虫
,使用MongoDB来存储一个
队列
,其中包含所有要爬行的URL。我将有几个独立的工人,将抓取URL。我的问题是,既然会有多个
爬虫
,我如何确保两个
爬虫
器不会同时查询数据库并获得相同的URL来抓取? 非常感谢你的帮助
浏览 0
提问于2014-03-29
得票数 0
回答已采纳
4
回答
实现多线程
爬虫
、
我想实现一个多步
爬虫
使用我现在拥有的单线程
爬虫
代码。基本上,我从文本文件中读取urls,获取每个urls,并对其进行爬行和解析。
浏览 0
提问于2010-02-02
得票数 1
回答已采纳
2
回答
木偶人爬行器大规模爬行
、
、
我们正在使用Puppeteer编写一个网络
爬虫
。我们写的木偶
爬虫
执行和爬行网站的网址没有问题的网页,如约1,500 - 5,000,但是,当我们执行的网站超过5,000,如果它在中间由于一些错误或崩溃而中断,那么它需要重新开始。如果出现任何错误,如何使基于Puppeteer的网络
爬虫
从爬行的最后状态恢复?在Puppeteer中有没有内置的函数?如何让这个木偶手无头的chrome web爬行通过一个
队列
系统?
浏览 14
提问于2020-12-05
得票数 2
1
回答
Java
-更新静态变量
、
、
我在
java
中有两个类需要同时运行-一个crawler类(它基本上实现了一个网络
爬虫
,并在遇到它们时不断打印出urls ),还有一个Indexer类,到目前为止,它应该只是打印抓取的urls。为此,我的Indexer类有一个
队列
:在我的Crawler类的toVisit()函数中,我有以下内容:
爬虫
浏览 0
提问于2012-03-30
得票数 0
回答已采纳
1
回答
如何使用gevent和线程爬行和处理(cpu密集型)数千个URL?
、
、
、
、
将所有urls解析为一组(避免重复) 首先,用我从异步爬行器获得的结果填充
队列
会消耗很多内存--我需要解决这个问题,什么是好的实践呢
浏览 2
提问于2015-03-29
得票数 0
5
回答
简单唯一非优先级排队系统
、
我正在用python编写一个简单的网络
爬虫
,我不想创建一个简单的queue类,但我不太确定最好的开始方法。我想要的东西,只持有唯一的项目来处理,这样
爬虫
将只抓取每一页每次脚本运行一次(只是为了避免无限循环)。有没有人能给我一个简单的
队列
示例?
浏览 0
提问于2009-02-14
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
热门
标签
更多标签
云服务器
ICP备案
对象存储
云直播
腾讯会议
活动推荐
运营活动
广告
关闭
领券