腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(7073)
视频
沙龙
1
回答
Scrapy
-
当
访问
被
拒绝
时
如何
抓取
网站
[
Lowes
]
python
、
curl
、
web-scraping
、
scrapy
因此,我正在尝试为Lowe的
网站
创建一个网络摩天大楼,但似乎该
网站
不允许使用机器人。当在
scrapy
shell上运行时,我得到:twisted.internet.error.TimeoutError: User timeout caused connection failure: 然后我运行命令:curl -v "https://www.
lowes
.com/pd/ZLINE-KITCHEN-BATH-ZLINE-24-2-8-cu-ft-Dual-Fuel-Range-w
浏览 34
提问于2021-04-15
得票数 0
1
回答
Scrapy
-查找正确的CSS选择器
python
、
css
、
scrapy
# -*- coding: utf-8 -*-from ..items import LowesspiderItem name = '
lowes
' start_urls = ['https://www.
lowes
.com/pdart-pd
浏览 5
提问于2020-03-28
得票数 0
回答已采纳
2
回答
如何
为
scrapy
编写规则以添加
访问
过的urls
python
、
scrapy
、
web-crawler
当
scrapy
关闭
时
,它会忘记所有的urls。我想给
scrapy
一组网址,已
抓取
,
当
它是开始。
如何
向爬虫添加规则,让爬虫知道哪些urls
被
访问
过?tags=('a', 'area'), attrs=('href'), canonicalize=True, unique=True, process_value=None) 只需使用parse告诉爬虫
抓取
哪个我<
浏览 0
提问于2012-11-28
得票数 3
1
回答
如果我想要
抓取
的图像被cloudflare保护并给出1020错误,有没有办法使用cheerio
抓取
网站
?
javascript
、
node.js
、
web-scraping
、
cloudflare
、
cheerio
我正在尝试创建一个漫画
抓取
网站
作为个人项目,当我完成整个
网站
时
,我知道图像不能被我的
网站
抓取
或查看,当我试图转到图像的链接
时
,我得到了1020错误,说明
访问
被
拒绝
,有什么方法可以绕过这个错误而不从
网站
所有者那里获得授权令牌, 如果答案是否定的,那么谁能解释一下cloudflare是
如何
防止图像被
抓取
的,因为据我所知,前端的所有东西都可以
被
浏览 92
提问于2021-02-06
得票数 2
回答已采纳
1
回答
如何
在使用
scrapy
框架进行
抓取
时
排除已
抓取
的urls
python
、
web-scraping
、
scrapy
我正在
抓取
一个新闻
网站
,该
网站
提取新闻数据并将其转储到MongoDB。from MongoDB # do scraping hereclass NewsCraw
浏览 13
提问于2021-05-12
得票数 0
回答已采纳
1
回答
如何
使用
scrapy
或selenium
抓取
动态页面?
javascript
、
python
、
html
、
parsing
、
screen-scraping
我正在尝试
抓取
web动态页面,但使用
scrapy
时
,我不能检索所有信息,因为我想要的信息是动态的。 我试着使用Selenium,但与
Scrapy
不同的是,你不能指定头部,
网站
阻止了我。(我不能说出这个
网站
的名字,因为
抓取
是非法的,但它是一个著名的旅游元搜索引擎...)。我有一个带有验证码解算器的页面(用脚本很难解决重新验证码),因为
网站
会检测到我是机器人。我想拥有所有的动态信息,并有权
访问
网站
,但不可能与seleni
浏览 23
提问于2019-06-13
得票数 0
1
回答
抓取
Justdial
python
、
web-scraping
我想从Justdial中
抓取
学校名称、地址和电话号码的数据。我已经准备好脚本了。我使用Scrappy和selenium。上面写着
访问
被
拒绝
。对于任何其他
网站
,当我使用scrappy使用fetch
时
,我们可以获得源代码,但对于Justdial,它显示
访问
被
拒绝
。import
scrapy
name = 'school
浏览 17
提问于2021-10-07
得票数 0
1
回答
不确定在Anaconda平台上加载
Scrapy
的位置
web-scraping
、
scrapy
当
涉及到
抓取
网站
的话题
时
,我太天真了。到目前为止,我已经从预先生成的数据集中手动
抓取
或
抓取
数据。不过,我想解决一个分析问题,由于其规模,这个问题需要解决。因此,我决定尝试学习
如何
在python中刮刮。
Scrapy
是我
被
推荐使用的工具,所以这也是我将要使用的工具。 我正在尝试按照教程加载我的第一个
Scrapy
项目,但遇到了一个障碍。当我尝试在Spyder中输入启动项目的代码来启动新项目
时
: impor
浏览 13
提问于2020-01-29
得票数 0
2
回答
使用Selenium
抓取
lowes
.com与BeautifulSoup价格问题
python
、
selenium
、
web-scraping
、
beautifulsoup
我正在尝试获取
lowes
.com产品的详细信息,下面是我尝试运行的脚本 from bs4 import BeautifulSoupdriver.close() 当我尝试执行此脚本
时
,price元素导致错误,该元素不存在,当我查看使用selenium打开的chrome
浏览 16
提问于2021-05-06
得票数 2
回答已采纳
1
回答
403禁止或
拒绝
访问
某些
网站
的原因?
python-2.7
、
beautifulsoup
当
使用bs4从
网站
抓取
时
,它将响应对象显示为
拒绝
访问
和禁止
访问
,
如何
解决此问题?
浏览 0
提问于2017-11-03
得票数 0
1
回答
抓取
响应: twisted.internet.error.TCPTimedOutError: TCP连接超时: 10060
tcp
、
scrapy
、
scrapy-splash
、
scrapy-shell
、
request-timed-out
我从3个月前开始从一个
网站
上
抓取
数据,但今天我不能再
访问
这个
网站
,也不能用我的网络浏览器。该
网站
仍然可以通过移动电话
访问
。当我在
Scrapy
shell中测试链接
时
,我会收到以下消息: twisted.internet.error.TCPTimedOutError: TCP connection timed out: 10060你觉得我
被
列入黑名单了吗?我在Windows10下通过docker使用python3 +
scrap
浏览 194
提问于2020-01-16
得票数 1
回答已采纳
1
回答
Scrapy
和硒:让
scrapy
等待硒?
python
、
selenium
、
scrapy
、
web-crawler
我有一个蜘蛛,我用它来
抓取
一个
网站
。我只需要为我的项目的一部分javascript。所以我用
scrapy
抓取
了站点的一部分,然后在selenium中打开URL。
当
URL打开
时
,
scrapy
仍在继续。
如何
让
scrapy
等待我的selenium逻辑完成? 提前谢谢。
浏览 0
提问于2016-12-16
得票数 0
2
回答
刮痕不爬行
python
、
python-2.7
、
xpath
、
web-crawler
、
scrapy
//div[@class='lotusMeta']/span[3]/span/text()").extract()我想
抓取
的信息: c:\Users\~\crawlKMSS>
scrapy
crawl kmss 2015-07-28 17:54:59 [
scrapy
] INFO:
Scrapy
1.0.1 started[
scrapy</em
浏览 1
提问于2015-07-28
得票数 0
1
回答
如何
在
Scrapy
中有条件地重试和重新整理当前页面?
python
、
web-scraping
、
scrapy
我是
Scrapy
的新手,对Python也不是很熟悉。我已经设置了一个
抓取
器来从
网站
上
抓取
数据,但是虽然我使用的是代理,但如果同一个代理
被
使用太多次,那么我的请求就会显示一个页面,告诉我
访问
太多页面太快(HTTP状态代码200)。因为我的
抓取
器看到的是页面的状态代码为on,它找不到所需的数据并移动到下一页。 我可以确定何时通过HtmlXPathSelector显示这些页面,但是我
如何
通知
Scrapy
重试该页面呢?
浏览 1
提问于2013-03-25
得票数 3
回答已采纳
1
回答
Selenium python:
如何
避免
访问
被
拒绝
python
、
selenium
、
scrapy
我试图在
抓取
一个
网站
时点击一个链接来阅读那里的数据。当我单击该链接
时
,将打开“
拒绝
访问
”页面。有没有可能跳过这个?import
scrapy
from selenium import webdriver name = 'getdata
浏览 0
提问于2021-04-02
得票数 0
1
回答
重新登录到Scraped
网站
以恢复
Scrapy
工作
python
、
scrapy
有没有办法让爬虫在恢复之前暂停的
抓取
作业
时
登录到
网站
? 编辑:为了澄清,我的问题实际上是关于
Scrapy
爬虫,而不是一般的cookie。也许一个更好的问题是,
当
Scrapy
爬虫在作业目录中被冻结后复活
时
,是否有任何方法
被
调用。
浏览 0
提问于2012-05-09
得票数 1
1
回答
使用
Scrapy
下载PDF文件
python
、
session
、
cookies
、
scrapy
我正在使用一个Python web
抓取
框架
Scrapy
从一个
网站
抓取
pdf文件。为什么会这样&你知道
如何
克服这个问题吗?
浏览 1
提问于2011-11-13
得票数 0
1
回答
Scrapy
-遇到重复项目
时
停止crawler
python
、
web-scraping
、
scrapy
、
web-crawler
有很多
网站
我必须硬编码页面跟随(爬行项目后增加页码),其中一些
网站
在最后一页后返回到第一页。例如,如果一个
网站
有25页的项目,向第26页发送请求会得到first page的响应。在这一点上,
Scrapy
的复制过滤器工作得很好,不会
抓取
项目,但爬虫会继续运行。
当
重复过滤器像这样
被
触发
时
,有没有办法停止
抓取
进程? yield <e
浏览 0
提问于2019-09-29
得票数 1
1
回答
从
网站
上
抓取
隐藏部件
python
、
selenium
、
web-crawler
、
scrapy
目前,我正试图从中
抓取
文章和评论。文章部分和上的评论但就评论而言,事情变得艰难起来。当我使用
Scrapy
直接
访问
page_source
时
,注释部分将被隐藏(没有内容)。我在想,也许
网站
承认我的请求是一个非浏览器的请求,并
拒绝
显示他们。然后我使用Chromeriver (来自webdriver)
访问
这个
网站
,但是只有第一页给了我一些
浏览 3
提问于2015-06-21
得票数 1
1
回答
无法从该
网站
获得回复,postal.co.uk
scrapy
在本
网站
输入关键字后,我试图
抓取
结果,但
被
定向到另一个只有“受限”的
网站
,通过使用带有关键字的链接:,我尝试在其标题中添加一个引用程序,
当
使用命令:
scrapy
.http.Request(url=')但仍然无法解决它
时
,请帮助.谢谢。
浏览 4
提问于2022-01-11
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
怪不得你的爬虫一页数据都抓不到,原来是忽视了这一点
5个技巧防止爬虫被墙,高效爬取大量数据
又被墙了!你的爬虫应该怎么保护?
Scrapy 爬虫(2):听说你的爬虫又被封了?
爬虫你可能都会用,但是背后的架构你真的懂了吗?
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券