腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
5
回答
.Net 4中的
多线程
C#队列
、
、
我正在开发一个简单的
网页
爬虫
。我搜索并找到了很多实现
多线程
爬虫
的解决方案。创建线程安全队列以包含唯一URL的最佳方法是什么? 编辑:.Net 4.5中有没有更好的解决方案?
浏览 3
提问于2012-04-10
得票数 1
回答已采纳
3
回答
如何处理中多个线程的内存不足错误
、
我对编程相当陌生,并且正在为我在网络
爬虫
上的论文而工作。我已经提供了一个网络
爬虫
,但我发现它太慢,因为它是单线程。花了30分钟才爬上1000个
网页
。我试图创建多个线程来执行,同时使用20个线程运行1000个
网页
只需2分钟。但现在我遇到了“内存堆出”的错误。我确信我所做的是错误的,即为20个线程创建了一个 for 循环。在不给出错误的情况下
多线程
java爬行器的正确方法是什么?说到这一点,
多线程
是否解决了我的问题?
浏览 10
提问于2009-07-18
得票数 2
回答已采纳
1
回答
什么是一个好的基于Java的
爬虫
,一个关于建立搜索引擎的学术项目?
、
、
、
、
好吧,过去两天我一直在寻找一台适合我需要的
爬虫
。我想建立一个搜索引擎,我想自己做索引。这将是一个学术项目的一部分。虽然我没有处理能力来抓取整个
网页
,我想使用一个
爬虫
,实际上是能够做到这一点。所以我要找的是一台
爬虫
我还找到了。这确实支持
多线程
,但在查找和跟踪
网页</
浏览 3
提问于2013-01-30
得票数 2
3
回答
Python线程模块的处理顺序
、
、
我正在编写一个web
爬虫
,它同时处理多个URL,并以下列方式工作:就像大多数网络
爬虫
一样。当我使其为单线程时,我可以以与seed_list.txt中的URL相同的顺序获得seed_list.txt中的数据,但当它是
多线程
时,我似乎无法控制它,因为每个线程都会在数据完成后将数据写入data.txt有没有办法使我的
网页
爬虫
多线程
,但保持原来的秩序? @Lance,Ignac
浏览 5
提问于2012-04-02
得票数 2
回答已采纳
2
回答
网络
爬虫
对服务器的连续请求之间的最小延迟
、
、
、
、
我已经建立了一个
多线程
的网络
爬虫
,使请求从相应的服务器获取
网页
。因为它是
多线程
的,所以会使服务器不堪重负。由于哪个服务器可以阻止
爬虫
(礼貌)。 我只想添加功能的结果请求之间的最小延迟到相同的服务器。
浏览 2
提问于2012-10-10
得票数 0
4
回答
我应该同时打开多少个Java HttpURLConnections?
、
、
我正在编写一个
多线程
的Java网络
爬虫
。根据我对
网页
的理解,当用户加载
网页
时,浏览器请求第一个文档(例如,index.html),当它接收到超文本标记语言时,它会找到需要包括的其他资源(图像,CSS,JS),并同时请求这些资源。我的
爬虫
程序只请求原始文档。由于某些原因,我不能让它每5秒抓取超过2到5页。我正在为我制作的每一个HttpURLConnection创建一个新的线程。看起来我应该至少能够每秒抓取20-40页。
浏览 1
提问于2009-09-04
得票数 2
回答已采纳
7
回答
对于我的应用程序,多少个线程会是最优的?
、
我有一个简单的Python网络
爬虫
。它使用SQLite来存储它的输出,也用来保存一个队列。我想让
爬虫
是
多线程
的,这样它就可以一次抓取几个页面。请记住,每个线程转到一个
网页
,下载html,运行几次正则表达式搜索,将找到的信息存储在SQLite数据库中,然后从队列中弹出下一个url。
浏览 2
提问于2009-03-08
得票数 3
回答已采纳
5
回答
Python中的
多线程
爬虫
真的可以提高速度吗?
、
、
我想用python写一个小的网络
爬虫
。我开始研究将其编写为
多线程
脚本,一个线程下载池和一个池处理结果。由于有了GIL,它真的可以同时下载吗?GIL对网络
爬虫
有什么影响?基本上我想问的是,用python做一个
多线程
爬虫
真的比单线程能给我带来更多的性能吗? 谢谢!
浏览 4
提问于2010-05-14
得票数 10
回答已采纳
5
回答
快速网络
爬虫
、
、
、
为此,我需要一个快速
爬虫
。所有我需要的是下载一个
网页
,提取链接和递归跟随他们,但不访问相同的网址两次。基本上,我想避免循环。编辑:解决方案是组合multiprocessing和threading模块。
浏览 4
提问于2011-10-05
得票数 8
回答已采纳
2
回答
需要web爬网帮助
我想知道是否有人知道他们使用过的一个像样的健壮的开源网络
爬虫
?新手应该很容易安装和使用。 感谢您没有搜索网络
爬虫
和粘贴列表。
浏览 2
提问于2010-02-21
得票数 4
4
回答
为什么我不能在python中加快
多线程
爬行速度呢?
、
、
下面你可以看到我的
爬虫
的蓝图。我以为我可以用
多线程
来加快速度,但我做不到。通常情况下,当我加载一个页面时,when服务器是缓慢的,然后再用
多线程
来爬行另一个加载得更快的
网页
是很好的。但不会更快。
浏览 4
提问于2015-08-21
得票数 1
回答已采纳
1
回答
搜索引擎如何唯一地识别web上的每个页面
、
、
、
、
如果我写了一篇文章,他的链接是'example.com/abc.php‘&这篇文章在搜索引擎中排名靠前。 几天后,我更新了这篇文章,包括它的内容和'xyz.php‘的永久链接。 现在,之前URL为'example.com/abc.php‘的帖子被更新为'example.com/xyz.php’。 那么搜索引擎将如何知道这是与URL example.com/abc.php排名相同的页面/帖子。并且需要将搜索结果中的链接更新为“example.com/xyz.php”,而不影响排名。 在更新固定链接之前和之后,在为搜索引擎创建一个唯一标识页面的新帖子时,有
浏览 35
提问于2021-01-25
得票数 0
1
回答
使用
多线程
改进网络
爬虫
/
爬虫
、
我已经开始学习网络
爬虫
,在一篇文章的帮助下,我构建了下面这个简单的
爬虫
。此外,如果您有任何其他建议或改进,请随时分享这个
爬虫
。
浏览 3
提问于2013-03-10
得票数 0
回答已采纳
1
回答
学习
多线程
Java
爬虫
的良好开端
、
、
我正在用Java开发一个网络
爬虫
。我正在寻找一个很好的项目开发这个
爬虫
的基础上。然而,实际上有超过几百个用Java编写的
爬虫
程序。我要找的是一个相当简单的
爬虫
,它有: 基于最新的Java构建和新的functionalityGood performanceImplemented好documentationNot的
多线程
documentationNot
浏览 1
提问于2012-04-16
得票数 0
回答已采纳
1
回答
谷歌网站
爬虫
如何找到我的网站,如果我没有张贴网址任何地方?
、
想知道谷歌网站
爬虫
是如何找到我的网站。假设我没有在谷歌索引的任何其他地方发布网址。 有人能解释一下吗?
浏览 2
提问于2016-04-22
得票数 0
回答已采纳
3
回答
非常简单的C++网络
爬虫
/蜘蛛?
、
我试图在C++中做一个非常简单的
网页
爬虫
/蜘蛛应用程序。我一直在使用谷歌搜索一个简单的,以了解这个概念。我发现了这个: 然而,这是复杂的理解对我来说,因为我开始学习C++大约一个月前。
浏览 15
提问于2010-11-25
得票数 22
回答已采纳
2
回答
浏览器限制会影响
网页
爬虫
吗?
、
、
return Redirect("/h"); return View(); 问题:如果我限制一些浏览器访问我的主视图,它也会限制对网络
爬虫
的访问吗
浏览 0
提问于2013-02-21
得票数 0
回答已采纳
5
回答
如何将动态站点转换为可从CD演示的静态站点?
、
、
有没有人对
爬虫
有什么好的建议,可以处理像链接清理,flash,一些ajax,css等等?我知道机会很小,但我认为在我开始编写自己的工具之前,我应该在这里抛出这个问题。
浏览 3
提问于2008-09-22
得票数 9
回答已采纳
1
回答
Robots.txt:允许除根目录之外的所有内容
、
我有一个站点,它的根目录是,任何到的流量都被重定向到。在网站管理员工具中,我将站点添加为,但我只在/blog目录和其他静态页面上获取谷歌。对吗?有人能验证一下这是否会达到我想要达到的目的吗?Allow: /$
浏览 1
提问于2015-11-18
得票数 0
回答已采纳
1
回答
Python
多线程
爬虫
、
、
、
我正在尝试用python编写网络
爬虫
。我想使用python
多线程
。即使在阅读了之前的建议论文和教程之后,我仍然有问题。
浏览 5
提问于2012-05-29
得票数 5
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python之多线程爬虫抓取网页图片
多线程爬虫
Python 多线程爬虫实战
小白爬虫之爬虫快跑,多进程和多线程
Python3爬虫与多线程
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券