腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
3
回答
复制还是?
、
、
、
、
最近,我们受到谷歌机器人和其他各种机器人的打击(我们平均体验到的
网站
流量的60%来自于机器人。)我们正在尝试将Google流量分割到另一个服务器(低成本服务器)。但是,需要复制/或镜像数据库。
浏览 0
提问于2011-06-08
得票数 2
1
回答
将请求传递给不同的
蜘蛛
、
、
我正在开发一个使用两种不同
蜘蛛
的网络爬虫(使用scrapy): 非常通用的
蜘蛛
,可以抓取(几乎)任何
网站
使用一串启发式提取数据。专门的
蜘蛛
,能够
爬行
一个特定的
网站
A,不能与一般
蜘蛛
爬行
,因为
网站
的特殊结构(该
网站
必须被
爬行
)。到目前为止,一切都运行得很好,但是
网站
A包含到其他“普通”
网站
的链接,这些
网站
也应该被刮掉(使用
蜘蛛
浏览 2
提问于2017-08-09
得票数 1
1
回答
为什么百度会疯狂地爬我的
网站
?
、
、
当我检查我的apache
日志
时,我可以看到百度在过去的2周里每天都在我的
网站
上
爬行
10次。 这并不是说我很在乎,但我真的很好奇他为什么这么做。这是一个非常小的单一网页
网站
,没有多少传入链接。
浏览 0
提问于2012-03-11
得票数 12
回答已采纳
2
回答
抓取Django限制链接
爬行
、
、
首先,我应该说,我对刮擦和
蜘蛛
网站
完全陌生。 你能限制
爬行
的链接数量吗?我有一个
网站
,不使用分页,只是列出了很多链接(我
爬行
)在他们的主页。当我真的需要
爬行
前10个左右的时候,我感觉很糟糕
爬行
所有这些链接。如何同时运行多个
蜘蛛
?现在,我使用的是命令scrapy crawl example.com,但我还为example2.com和example3.com提供了
蜘蛛
。我想用一个命令来运行我所有的
蜘蛛
。这有可能吗?
浏览 2
提问于2010-11-24
得票数 6
1
回答
使用Python请求打开页面时出错
、
、
requests.get(link)soup.prettify()任何帮助理解为什么这个
网站
挂起将不胜感激这是一个流媒体音乐
网站
。我只想刮一下页面上写着当前歌曲是什么的部分。这就是全部。但是,也许这个页面是一个音乐流媒体
网站
这一事实导致了这个问题?我只想要消息来源的文本。没别的了。href="http://www.winamp.com/">Winamp</a
浏览 2
提问于2013-12-13
得票数 1
回答已采纳
1
回答
用Anaconda运行抓取
蜘蛛
、
、
、
你好,我正在努力完成在以下
网站
上找到的教程: 文件"//anaconda/lib/python2.7/site-packages/scrapy/spiderloader.py",第43行,在load KeyError(“
蜘蛛
未找到:{}".format(spider_nam
浏览 5
提问于2016-10-06
得票数 2
回答已采纳
1
回答
使用scrapy管理多个
爬行
器
、
、
起初我只有几个
蜘蛛
,但随着项目的发展,随着我抓取越来越多的站点,我可能会有数百甚至1000个不同的
蜘蛛
。管理这些
蜘蛛
的最好方法是什么,因为一些
网站
只需要
爬行
一次,有些
网站
需要更定期地
爬行
?在处理这么多
网站
时,scrapy仍然是一个很好的工具,或者你会推荐一些其他的技术吗?
浏览 1
提问于2012-01-04
得票数 2
2
回答
robots.txt中的Noindex
、
我一直阻止谷歌使用robots.txt文件为我的
网站
建立索引。最近,我从谷歌的一位员工那里读到一篇文章,他说你应该用元标签来做这件事。这是否意味着Robots.txt不能工作?
浏览 0
提问于2018-09-04
得票数 3
回答已采纳
2
回答
iOS中的Web
爬行
、
、
、
如何在中实现
爬行
技术。任何参考/样例程序都会有帮助。提前谢谢。网络爬虫(也称为网络
蜘蛛
或网络机器人)是一种程序或自动脚本,它以一种有条不紊、自动化的方式浏览万维网。这个过程称为Web
爬行
或
爬行
。许多合法的
网站
,特别是搜索引擎,都将
蜘蛛
作为提供最新数据的一种手段。
浏览 4
提问于2015-12-15
得票数 0
1
回答
如何用刮擦
爬行
多个域
、
、
我有一个项目,在其中我必须爬很多不同的
网站
。所有这些
网站
爬行
都可以使用相同的
蜘蛛
,因为我不需要从它的正文页面中提取项目。我认为的方法是将要在
蜘蛛
文件中
爬行
的域参数化,并调用scrapy
爬行
命令,传递域并启动urls作为参数,这样我就可以避免为每个站点生成一个
蜘蛛
(站点列表将随着时间的推移而增加)。如果是的话,如果我用不同的参数调度同一个
蜘蛛
几次,那么是否存在并发问题? 如果这不是最好的方法,最好是每个站点创建一个
蜘蛛</e
浏览 2
提问于2014-07-01
得票数 4
回答已采纳
1
回答
刮擦,如何限制每个域的时间?
、
、
答案之一是在一段时间后可以停止
蜘蛛
,但这不适合我,因为我通常每只
蜘蛛
都会发布10个
网站
。因此,我的挑战是,我有10个
网站
蜘蛛
,我想限制时间在每个域名20秒,以避免陷入某些
网站
。该怎么做呢?一般来说,我也可以告诉你,我爬了2000家公司的
网站
,为了在一天之内,我把这些
网站
分成200组10个
网站
,并并行推出200只
蜘蛛
。这可能是业余的,但我是我所知道的最好的。计算机几乎冻结,因为
蜘蛛
消耗整个CPU和内存
浏览 6
提问于2016-06-08
得票数 0
回答已采纳
1
回答
用反应器在不同的时间执行不同的
蜘蛛
、
我想点击django
网站
上的一个按钮,我的
蜘蛛
应该开始抓取。我尝试CrawlerProcess,但因为我使用不同的
蜘蛛
。我决定使用CrawlerRunner。在第一次
爬行
之后,一切都很好,但是第二个过程给了我这个错误。twisted.internet.error.ReactorNotRestartable因此,我尝试按照下面的代码解决方案,但是
爬行
器永远不会停止,它说的是ReactorAlreadyRunningmyspider.My_Spider) d.addBot
浏览 1
提问于2020-08-26
得票数 1
回答已采纳
2
回答
使用Scrapy用单个
蜘蛛
抓取多个
网站
、
、
、
、
下面是
蜘蛛
的代码。现在,我不得不使用相同的
蜘蛛
来抓取下面的
网站
(例如)。 事实上,被废弃的
网站
列表是无穷无尽的。所以,我想要一个普通的
蜘蛛
,可以刮任何
网站
。 对于一个
网站
来说,它运行得很好。但是,对于具有不同结构的多个站点,如何实现呢?刮擦够解决这个问题了吗?
浏览 3
提问于2015-08-25
得票数 2
2
回答
刮伤Start_URL不正确
、
、
、
当我使用 (我从“检查(铬)”中的最上面一行得到)时,它会
爬行
,但看起来这是完全错误的站点。(我从检查页面的顶部获得了这个链接)有什么想法吗?提前谢谢![2]/li[3]/dd').extract() return items 检查了robots.txt,这应该允许
爬行
他们的大部分
网站
奇怪的是,我已经将start_urls用于我的其他
蜘蛛
,它的工作方式与其他
蜘蛛
无关
浏览 0
提问于2016-04-12
得票数 0
3
回答
“索引,跟随”和“跟随”的区别是什么?
、
、
以下清单有哪些不同之处: <meta name="
浏览 4
提问于2018-07-11
得票数 6
1
回答
HOw渴望seo更改采用effect?>
、
我有一个
网站
,我提交给谷歌,做了一些
网站
管理员工具的东西(
网站
地图,首选领域等),并建立了大约一周前的分析。非常感谢
浏览 1
提问于2014-03-25
得票数 0
回答已采纳
2
回答
抓饼干怎么操作?
、
、
我必须
爬行
一个
网站
,所以我使用Scrapy来完成它,但是我需要传递一个cookie来绕过第一个页面(这是一种登录页面,您可以选择您的位置)如何处理曲奇?
浏览 0
提问于2014-04-28
得票数 2
回答已采纳
1
回答
重复下载的文件来自相同的IP -建议?
我有一些文件,可以从我的
网站
下载。每隔几个小时,所有文件都从同一个IP地址(98.137.207.97 -可能是Yahoo?)下载。我该怎么做?
浏览 0
提问于2013-10-21
得票数 0
8
回答
我怎么知道Google多久爬一次我的
网站
?
、
、
我创建了一个相对较新的
网站
,我把它提交给了谷歌和所有的公司。我也使用谷歌的
网站
管理员工具。我想知道谷歌
蜘蛛
访问我
网站
的频率。我经常听到人们在论坛上谈论“我每小时
爬行
250页”等等……有软件可以使用吗?或者有什么东西可以分析我服务器的
日志
呢?谢谢
浏览 0
提问于2010-01-23
得票数 7
3
回答
抓取:
爬行
多个
蜘蛛
,共享相同的项、管道和设置,但具有不同的输出。
、
、
、
我试图使用Python脚本运行多个
蜘蛛
,该脚本基于官方文档中提供的代码。我的scrapy项目包含多重
爬行
器(Spider1、Spider2、 等),它
爬行
不同的
网站
,并将每个
网站
的内容保存在不同的JSON文件中(output1.json、output2.json等)。在不同
网站
上收集的项目具有相同的结构,因此
蜘蛛
使用相同的项、管道和设置类。输出由管道中的自定义JSON类生成。当我单独运行这些
蜘蛛
时,它们会像预期的那样工作,但是当我使用下面的脚本使用sc
浏览 2
提问于2017-07-25
得票数 3
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
搜索引擎蜘蛛为什么对网站不爬行呢?
从业多年的SEO大牛讲述快速吸引蜘蛛爬行网站的技巧
程序员运维神器:网站日志分析蜘蛛
用系统日志了解你的 Linux 系统
Linux操作系统的日志筛选、日志文件的位置
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
即时通信 IM
活动推荐
运营活动
广告
关闭
领券