腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(6083)
视频
沙龙
3
回答
为什么部署腾讯云CDN加速以后,百度
蜘蛛
就
抓取
不了了?
[图片][图片]
浏览 1618
提问于2018-02-27
2
回答
404:有没有办法避免在使用scrapy进行
抓取
时
被
网站
屏蔽
?
、
、
、
我试着使用Scrapy来
抓取
一些网站上大约70k个项目。但每次它
抓取
了大约200个项目后,其余的项目都会弹出错误:我相信这是因为我的爬虫
被
网站
屏蔽
了,我试着使用随机用户代理建议的,但根本解决不了问题。
浏览 5
提问于2016-02-03
得票数 0
4
回答
开启CDN加速以后…百度
蜘蛛
抓取
403,该如何解决?
如题,源站跟百度都说不是他们的原因,我设置的也没有问题,还专门咨询过腾讯的客服,他们教我设置的,现在就是
抓取
403 ,用户可以正常访问,用其他的模拟
蜘蛛
抓取
都没有问题…所以我该
怎么办
呢?
浏览 1710
提问于2018-03-01
2
回答
网站内容评级有没有元标签?
、
、
我的一位客户说,她注意到她的网站在一家杂货店的wifi咖啡厅
被
屏蔽
了。它不包含任何丑闻--它只是一个旅游博客。该公司表示,这一限制的原因是禁药类别“未评级”。有没有办法对网页内容进行分级,这样它就不会被
屏蔽
了?我以前从来没有遇到过这个问题。
浏览 5
提问于2010-07-09
得票数 3
1
回答
web爬虫如何构建URL目录以
抓取
所需内容
、
、
、
我在试着了解网络爬行是如何工作的。有三个问题:
浏览 2
提问于2018-10-11
得票数 1
1
回答
如何处理海量的web
抓取
请求
、
、
、
、
当我们的网页
被
许多客户
抓取
时,我们的
服务器
承受着巨大的压力。有时我们的网页是从许多不同的IP地址
抓取
的,这些IP地址不属于一些著名的
蜘蛛
,如Google,Bing。我们希望我们的一些网页
被
正常的
蜘蛛
以适当的频率爬行,但我们反对任何可能给我们的
服务器
带来损害的人。缓存可能是一种选择。但我们有这么多的网址搜索引擎优化。例如,我们有一些urls的模式为"“。因此,我想知道是否有其他解决方案来减轻我们
服务器
的压力。
浏览 2
提问于2018-12-09
得票数 1
3
回答
如何从这个javascript网站上
抓取
图片?
、
、
我只是想下载这本书作为学习的目的,所以有没有人可以推荐一些编程工具,比如网络
蜘蛛
,它可以模拟翻页的过程,并自动获取图片。谢谢!
浏览 1
提问于2010-12-10
得票数 1
回答已采纳
1
回答
被
网站
屏蔽
的
抓取
、
、
我试图从纳斯达克获取所有索引,但当我执行脚本时,它会停在那里,直到我点击Ctrl+C。有没有人知道怎么解决这个问题?(或者甚至是我可以获取索引的另一个页面) from bs4 import BeautifulSoupurl = "https://www.nasdaq.com/market-activity/quotes/nasdaq-ndx-index" soup_data = BeautifulSoup(read_data,"lxml
浏览 37
提问于2021-07-02
得票数 0
回答已采纳
1
回答
使用网络爬虫的伦理
、
我最近建立了一个简单的网络爬虫,我希望在网上使用它一点。我的问题是,我应该遵循什么道德准则,以及如何遵守它们。我听说了robot.txt文件,如何在python中打开它,以及如何处理它?它们是否是我需要遵循的其他道德准则,比如每秒最多的网站,等等?先来看看。
浏览 3
提问于2013-08-23
得票数 1
回答已采纳
1
回答
在同一个Ec2实例上运行Splash
服务器
和Scrapy
蜘蛛
、
、
、
我正在部署一个由
蜘蛛
组成的web
抓取
应用程序,它可以从网站中
抓取
内容,也可以使用 javascript呈现服务来截图网页。我希望将整个应用程序部署到一个Ec2实例中。但是,为了使应用程序工作,我必须在运行
蜘蛛
的同时,从码头映像运行一个启动
服务器
。如何在Ec2实例上运行多个进程?如能就最佳做法提出任何建议,将不胜感激。
浏览 0
提问于2018-04-26
得票数 1
回答已采纳
1
回答
如何人工创建ConnectionRefusedError?
、
、
、
、
我想在Scrapy中调试ConnectionRefusedError处理。如果不能模拟错误,我就不能进行调试。如何模拟ConnectionRefusedError?
浏览 11
提问于2020-05-27
得票数 0
1
回答
将请求传递给不同的
蜘蛛
、
、
我正在开发一个使用两种不同
蜘蛛
的网络爬虫(使用scrapy): 将所有的功能移到
蜘蛛
1,但这可能会变得非常
浏览 2
提问于2017-08-09
得票数 1
1
回答
当我遇到网站阻塞时,我如何暂停刮除?
、
、
我使用scrapy
抓取
'douban.com‘中的用户页面。我的数据库里有2W的用户,我需要
抓取
所有这些独立用户的页面。但问题是,有时网站会阻止我的爬虫,如果我立即注意到,我可以手动关闭
蜘蛛
通过Ctrl+C和重新启动
蜘蛛
和继续前进。在模拟这种行为时,我遇到了很多问题,我有两个想法,如下所示: 暂停
蜘蛛
在刮痕中检测403页,因为它是
被
阻塞的标志。拆分start_urls并逐个启动
蜘蛛
,因为start_url代表一个用户,我拆分了这个start_urls列表,
浏览 4
提问于2015-02-13
得票数 2
2
回答
蜘蛛
只在站点地图中爬行urls吗?
、
、
、
、
我在我的网站上有一些限制部分供
蜘蛛
爬行。或者我应该将下面的元标记添加到我想限制访问的页面中?
浏览 1
提问于2014-10-29
得票数 0
回答已采纳
1
回答
我在我的应用程序中使用了一个网站的img url。有些人得了reCaptcha
、
、
在我的Chrome扩展中,我渲染了一些来自一个网站的图像。一个图像源是这样的: 当他们访问镜像地址时,他们会得到一个reCaptcha,检查他们是否是自动机器人。发生这种情况有什么原因吗?有什么解决方案吗?
浏览 1
提问于2019-07-10
得票数 0
1
回答
scrapy增量提取不起作用
、
、
我使用的是scrapy 0.20我使用的是插件。'TestSpider.deltafetch.DeltaFetch': 100,DELTAFETCH_ENABLED = True但
蜘蛛
会继续
抓取
已经
被
抓取
的项目
浏览 0
提问于2014-03-23
得票数 2
1
回答
用NodeJS查找域上的所有页面
、
、
我也在谷歌上搜索过这个问题,但我发现的都是刮刀器,它们没有找到可以自己
抓取
的链接。
浏览 0
提问于2014-07-08
得票数 3
1
回答
在Django中向用户显示Scrapy结果
、
、
以下是我想要实现的目标: 用户分配属性(如果必要的话),然后将其保存到数据库。
浏览 2
提问于2014-01-17
得票数 0
回答已采纳
1
回答
为什么scrapy在特定的站点上不能工作?
、
、
、
我正在尝试为usnews.com写一个
蜘蛛
,代码和错误如下。
浏览 20
提问于2020-11-23
得票数 0
1
回答
如何在Scrapy中存储
抓取
的链接
基本上,我想写一个
蜘蛛
,将能够保存
抓取
的链接,并检查是否一些其他链接已经
被
抓取
。scrapy中有没有内置的函数可以做到这一点? 非常感谢
浏览 0
提问于2021-05-06
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
SEO优化:如何限制蜘蛛的抓取流量来提升seo效果
百度排名优化:如何限制蜘蛛的抓取流量来提升seo效果
如何限制蜘蛛的抓取流量来提升seo效果
搜索引擎蜘蛛为什么对网站不爬行呢?
两种原因导致搜索引擎蜘蛛不爬你网站
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券