腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Scrapy
不
抓取
任何
页面
python
、
scrapy
我正在
抓取
网站https://oa.mo.gov/personnel/classification-specifications/all。我需要到每个位置
页面
,然后提取一些信息。爬虫不会显示
任何
错误,但也不会爬行
任何
页面
: import
scrapy
from
scrapy
.linkextractorsimport
浏览 20
提问于2019-01-30
得票数 2
回答已采纳
1
回答
使用
Scrapy
抓取
ajax
页面
python
、
selenium
、
scrapy
我已经用
Scrapy
一个月了。我能够
抓取
和
抓取
几个网站(事实上我已经
抓取
了900个网站),基于pipelines.Now给出的关键字,问题是当我们遇到javapages (ajax)时,
抓取
不能
抓取
。我正在尝试使用以下代码,并对
抓取
ajax
页面
进行适当的更改第二个问题是,我面临的问题是
scrapy
无法
抓取
登录
页面<
浏览 2
提问于2013-06-19
得票数 0
回答已采纳
1
回答
Scrapy
不
抓取
页面
python
、
scrapy
我不知道这个爬虫出了什么问题,但它不会
抓取
任何
页面
:from
scrapy
.contrib.spiders import CrawlSpider, Rulefrom
scrapy
.contrib.linkextractors.sgml import SgmlLinkExtractor from
scrapy
.selector import HtmlXPathSelector
浏览 2
提问于2014-04-26
得票数 1
1
回答
从呈现的网站
抓取
时出现的问题
python
、
html
、
xpath
、
web-scraping
、
scrapy
我正试图从这个网站上刮掉一件衣服的价格:response.xpath('//span[@data-id="current-price"]/text()').extract()谢谢!
浏览 13
提问于2017-02-24
得票数 0
回答已采纳
2
回答
如何
抓取
一个网站只给定域网址与
scrapy
python
、
web-crawler
、
scrapy
、
scrape
我正在尝试使用
scrapy
抓取
一个网站,但网站没有网站地图或
页面
索引。如何使用
scrapy
抓取
网站的所有
页面
? 我只需要下载网站的所有
页面
,而不提取
任何
项目。我只需要在蜘蛛规则中设置关注所有链接吗?但我不知道
scrapy
是否会以这种方式避免复制urls。
浏览 0
提问于2013-01-06
得票数 5
回答已采纳
2
回答
使用Python
Scrapy
时的HTTP 403响应
python
、
http
、
scrapy
我一直在测试下面的
Scrapy
代码,以递归地
抓取
www.whoscored.com站点上的所有
页面
,该站点用于足球统计:from
scrapy
.contrib.linkextractors.sgml import SgmlLinkExtractor from
scrapy
.selector import Selectorfrom
scrapy
.item impor
浏览 0
提问于2014-07-18
得票数 11
回答已采纳
2
回答
Requests / BeautifulSoup VS robots.txt
python
、
web-scraping
、
beautifulsoup
、
scrapy
、
python-requests
我正在尝试
抓取
某个网站,只有一个输入。现在我已经用
Scrapy
构建了它,在所有的调整(包括
不
遵守robots.txt)之后,它工作得很好,并且它自动地运行在数据挖掘的循环上。现在我需要做一些东西,它将通过输入
抓取
单个
页面
问题是,我唯一能够访问的
页面
是robots.txt
页面
,并且我无法在网上找到
任何
关于robots.txt的信息。
浏览 35
提问于2019-12-05
得票数 1
回答已采纳
9
回答
BeautifulSoup和
Scrapy
crawler有什么区别?
python
、
beautifulsoup
、
scrapy
、
web-crawler
我对BeautifulSoup比较熟悉,但对
Scrapy
crawler不太熟悉。
浏览 323
提问于2013-10-30
得票数 146
回答已采纳
1
回答
在newzealand.com上
抓取
一些数据的xpath是什么?
python
、
web-scraping
、
scrapy
我想知道是否有人能告诉我如何在上选择xpath?例如:我无法使用上面的选择器获取response.xpath中的数据,有人能帮我吗?
浏览 1
提问于2015-08-19
得票数 0
1
回答
带有刮刀的Web爬行器,使用木偶和刮除器
javascript
、
html
、
reactjs
、
selenium
、
scrapy
我必须
抓取
和刮相当多的网站,这些网站是由React / javascript / html技术组合而成的。这些网站在所有地方都有大约。10万至50万页。我计划使用Selenium和
Scrapy
来完成爬行和
抓取
。单是
Scrapy
就不能对
页面
进行
抓取
,使用Selenium来
抓取
常规的javascript/html是非常耗时的。我想知道是否有
任何
方法我的爬虫/刮刀可以理解反应
页面
与Javascript
浏览 3
提问于2019-12-04
得票数 0
回答已采纳
1
回答
如何使用爬行ajax
页面
python-3.x
、
selenium
、
scrapy
、
selenium-chromedriver
我对
Scrapy
很陌生,我需要刮一页,而且我在
抓取
这一页时遇到了困难。from selenium import webdriver from
scrapy
.selector impor
浏览 1
提问于2018-05-09
得票数 0
回答已采纳
1
回答
如何使用
Scrapy
更新价格
python
、
web-scraping
、
beautifulsoup
、
scrapy
、
scrapy-splash
我正在开发价格下降通知应用程序,我正在考虑使用
Scrapy
,但是,我不确定如何使用它,我是否需要在特定间隔后定期检查产品价格,或者有
任何
其他方法来做到这一点。
浏览 2
提问于2021-06-13
得票数 0
1
回答
Scrapy
:如何在不重新下载html的情况下重现结果?
python
、
web-scraping
、
scrapy
、
reproducible-research
在使用
Scrapy
将HTML下载到我的硬盘后(例如,使用带有字段HTML的内置项目导出器,或者将所有HTML文件存储到一个文件夹中),我如何使用
Scrapy
再次从硬盘读取数据并执行管道中的下一步?
浏览 10
提问于2017-06-20
得票数 0
1
回答
Scrapy
表示没有
抓取
任何
页面
/项目?
python
、
logging
、
scrapy
我的爬虫当前正在从网站上
抓取
xml。这样做是成功的,因为我可以看到通过数据库管道存储的项。2013-04-12 11:58:03-0400 [traffics] INFO: Dumping
Scrapy
-04-12 11:58:03-0400 [traffics] INFO: Spider closed (finished) 当它确实在爬行(并随后将它们保存到数据库中
浏览 0
提问于2013-04-19
得票数 1
1
回答
登录
页面
上的
抓取
内容未通过管道传递
scrapy
我有一个elasticsearch管道,它将索引所有
抓取
的内容到elasticsearch。我的问题是从start_urls
页面
抓取
的内容被编入了索引。在
scrapy
中有什么设置可以实现它吗?
scrapy
是否只考虑从start_url
页面
抓取
页面
中的
抓取
内容?
浏览 0
提问于2014-08-26
得票数 0
2
回答
Scrapy
CrawlSpider不会
抓取
第一个登录
页面
python
、
scrapy
、
web-crawler
我是
Scrapy
的新手,我正在做一个
抓取
练习,我正在使用CrawlSpider。尽管
Scrapy
框架工作得很好,而且它遵循相关的链接,但我似乎不能让CrawlSpider
抓取
第一个链接(主页/登录页)。相反,它会直接
抓取
规则确定的链接,但不会
抓取
链接所在的登录
页面
。我不知道如何修复这个问题,因为
不
建议覆盖CrawlSpider的解析方法。修改follow=True/False也不会产生
任何
好的结果。
浏览 0
提问于2013-04-05
得票数 16
回答已采纳
1
回答
如何从xpath中
抓取
业务名称并获取csv文件
python
、
scrapy
i am trying to scrape yellow page by using
scrapy
and python getting all other result right but not
浏览 20
提问于2020-04-05
得票数 0
回答已采纳
1
回答
如何并行运行Selenium-
scrapy
python
、
selenium
、
web-scraping
、
scrapy
、
multiprocessing
我正在尝试使用
scrapy
和selenium来
抓取
javascript网站。我使用selenium和一个chrome驱动程序打开javascript网站,使用
scrapy
从当前
页面
抓取
到不同列表的所有链接,并将它们存储在一个列表中(到目前为止,这是最好的方法,因为尝试使用seleniumRequest然后,我循环遍历URL列表,在selenium驱动程序中打开它们,并从
页面
中
抓取
信息。到目前为止,这个网站每分钟
抓取
16个
页面
,考虑到这
浏览 36
提问于2021-02-05
得票数 0
回答已采纳
1
回答
使用
Scrapy
递归地从
页面
上找到的每个表中
抓取
数据
python
、
scrapy
我有下面这段代码,它从一个web
页面
中
抓取
一个命名表:from
scrapy
.selector import Selectorfrom
scrapy
.contrib.spiders import CrawlSpider, Rule from
scrapy
.contrib.linkextractors.sgml','crawl','
浏览 4
提问于2014-07-30
得票数 0
1
回答
使用
scrapy
抓取
重定向的urls
python
、
scrapy
我正在尝试使用
抓取
来
抓取
www.mywebsite.com。我如何告诉
scrapy
我需要它来
抓取
重定向的url?我只需要它来爬行重定向的网址,而不是其他网址,导致的网站(如facebook
页面
等) 2016-11-27 14:48:42 [
scrapy
浏览 1
提问于2016-11-27
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
scrapy爬虫实战-国外soybase网站跨页面抓取
预热页面这样做,不浪费任何一个流量
目前最快的Python爬虫速成法!两步即可学会
怪不得你的爬虫一页数据都抓不到,原来是忽视了这一点
scrapy官方文档提供的常见使用问题
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券