腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
可以将pyexecjs与
scrapy
一起使用吗?
、
、
、
、
不久前我偶然发现了pyexecjs,我想知道它是否可以与
scrapy
一起用于
抓取
JS
生成的数据。 我检查了应该
如何
使用该库的示例,但我不确定
如何
将其与
scrapy
集成。
浏览 4
提问于2014-10-12
得票数 0
1
回答
如何
将Keep_Fragments参数设置为True?
我正在尝试
抓取
一个使用
Js
的站点,但
scrapy
一直将下一个页面的url作为副本丢弃,并停止
抓取
。根据我的理解,
scrapy
通过检查请求所指向的资源的散列来检查重复项,默认情况下会丢弃URL中的片段。(参见下面的
scrapy
发布说明摘录) “
scrapy
.utils.request.request_fingerprint()的新keep_fragments参数允许为URL中具有不同片段的请求生成不同的指纹(问题4104)” 我的问题是,
如何
实际修改这个
浏览 20
提问于2020-09-09
得票数 0
回答已采纳
1
回答
为什么
Scrapy
中的数据没有完全加载视图(响应)?
、
我正试着用
Scrapy
从Youtube上收集一些评论。但是,当我进入
scrapy
shell模式并使用view(response)打开它时,除了加载旋转器之外,我找不到任何注释。
scrapy
shell https://www.youtube.com/watch?v=kkl7-NzqxWo在注释部分显示无限旋转器。
浏览 1
提问于2018-12-01
得票数 0
回答已采纳
1
回答
将在
Scrapy
中建立的会话cookie传递给Splash,以便在
抓取
js
页面时使用
、
、
、
首先,我想说我是
Scrapy
的新手! 我有一个网站,需要登录后才能用
Scrapy
刮任何数据。我将要
抓取
的数据是在登录后由JavaScript生成的。 我已经能够成功地使用
Scrapy
登录。我的问题是,现在我已经登录并拥有必要的cookies来继续请求网站,当我在报告页面上调用SplashRequest时,
如何
将这些cookies传输到Splash,我想用
Scrapy
抓取
这些cookie?我的思维过程是错误的,我应该使用
Scrapy
登录,然后将cooki
浏览 26
提问于2021-01-23
得票数 0
回答已采纳
1
回答
如何
使用
Scrapy
更新价格
、
、
、
、
我正在开发价格下降通知应用程序,我正在考虑使用
Scrapy
,但是,我不确定
如何
使用它,我是否需要在特定间隔后定期检查产品价格,或者有任何其他方法来做到这一点。
浏览 2
提问于2021-06-13
得票数 0
1
回答
使用
scrapy
进行web
抓取
数据的难度
、
、
、
我正在尝试从https://www.ta.com/portfolio/business-services中使用
scrapy
抓取
数据,但是响应为空。我正在寻找
抓取
href在div.tiles
js
-portfolio-tiles中使用代码response.css("div.tiles.
js
-portfolio-tiles a::attr(href)
如何
解压这个文件?website HTML
浏览 10
提问于2020-01-17
得票数 0
回答已采纳
1
回答
为什么
scrapy
在这个例子中不能工作?
、
我试图从一个网站
抓取
数据,如文章枚举,定价和股票,并将其导出到excel工作表。 以下脚本成功登录。未登录时,仅可见articl枚举器。我测试了刮刀,它成功地
抓取
了文章编号。在下面的示例中,我尝试将登录和
抓取
数据结合起来,但它不起作用。 我做错了什么?import
scrapy
from
scrapy
import FormRequestprice_list= []link_s
浏览 15
提问于2021-11-05
得票数 0
5
回答
Scrapy
-
如何
识别已经
抓取
的urls
、
、
我每天都在用
scrapy
抓取
一个新闻网站。
如何
限制
scrapy
抓取
已
抓取
的URL。此外,在SgmlLinkExtractor上是否有明确的文档或示例。
浏览 1
提问于2010-10-06
得票数 15
1
回答
使用
scrapy
splash对
抓取
速度有显著影响吗?
、
、
、
、
到目前为止,我一直在使用
scrapy
和编写自定义类来处理使用ajax的网站。但是,如果我使用
scrapy
-splash,据我所知,它会在javascript之后
抓取
呈现的html,爬虫的速度会受到严重影响吗?使用
scrapy
抓取
一个普通的html页面所需的时间与使用
scrapy
-splash
抓取
javascript渲染的html所需的时间进行了怎样的比较?最后,
scrapy
splash和Selenium的比较
如何
?
浏览 3
提问于2018-04-18
得票数 12
回答已采纳
1
回答
如何
在旋转代理中使用
scrapy
splash?
、
、
、
、
我仅通过使用以下内容作为请求才能成功
抓取
js
内容。def start_requests(self): yield
scrapy
.Request(self.parse, ) <e
浏览 10
提问于2017-08-14
得票数 1
1
回答
如何
从使用AJAX和JavaScript的网站中刮取数据?
如果网站使用AJAX和JavaScript加载内容,则可能很难从站点中
抓取
数据。数据可以动态生成并存储在JavaScript变量中,使web刮刀无法访问数据。
浏览 7
提问于2022-05-11
得票数 0
2
回答
python-
scrapy
:
如何
在爬虫中获取URL (而不是通过以下链接)?
、
我怎么能在我的爬虫里面有一些东西,可以获取一些网址,通过HtmlXPathSelector从页面中提取一些东西呢?但是URL是我想在代码中作为字符串提供的东西,而不是后面的链接。req = urllib2.Request('http://www.example.com/' + some_string + '/')response = urllib2.urlopen(req) hxs = HtmlXPathSelecto
浏览 0
提问于2011-01-10
得票数 0
回答已采纳
2
回答
如何
使用
Scrapy
创建Twitter爬虫?
、
、
我试过使用
Scrapy
从Pinterest这样的网站上
抓取
数据,这些网站不需要登录会话进行数据
抓取
,但
如何
使用
Scrapy
抓取
和爬行Twitter,因为要访问Twitter追随者和其他数据,我们需要首先登录
浏览 0
提问于2014-12-18
得票数 2
1
回答
如何
使用
scrapy
抓取
网站?
、
、
我要写一个基于
scrapy
的Gui应用程序,用户输入一个网站的URL,然后点击“爬网”按钮,整个网站就会被
抓取
并存储在内置的
scrapy
-db (sqlite)中。
如何
使用
scrapy
帮助我
抓取
网站?
浏览 4
提问于2012-03-09
得票数 0
1
回答
使用
scrapy
抓取
重定向的urls
、
我正在尝试使用
抓取
来
抓取
www.mywebsite.com。我
如何
告诉
scrapy
我需要它来
抓取
重定向的url?我只需要它来爬行重定向的网址,而不是其他网址,导致的网站(如facebook页面等) 2016-11-27 14:48:42 [
scrapy
] INFO: S
浏览 1
提问于2016-11-27
得票数 1
1
回答
用Python
抓取
加载AJAX的网站,我应该使用哪个url?
、
、
、
、
因此,我开始搜索替代方案,并在StackOverflow上使用API向服务器发送请求,但经过几个小时的尝试和搜索(例如,我放弃了),因为我没有得到一些东西: file = response.json() 一般说来,也许有人可以解释,我应该采取什么步骤来刮下后一个网页,我特别感兴趣的是
如何
从Chrome (-> -> Network -> XHR)中找到正确的信息,以及
如何
从后一种信息构建data变量(输入到
浏览 4
提问于2017-11-25
得票数 1
1
回答
无法使用
Scrapy
从下拉列表中进行
抓取
、
、
、
我正在尝试从网站上嵌入的
JS
下拉列表中
抓取
市场列表:https://e27.co/startups 使用
scrapy
shell,我试图从“markets”下拉菜单中
抓取
市场列表,但无法这样做。在运行了
scrapy
shell 'https://e27.co/startups'之后,我尝试了同时使用response.css()和response.xpath()。我可以知道
如何
从下拉列表中
抓取
浏览 9
提问于2019-06-13
得票数 0
回答已采纳
1
回答
在
Scrapy
中
抓取
用户评论-网站从哪里获取数据?
、
、
谁能告诉我
如何
使用
Scrapy
从this page
抓取
用户评论的文本?我知道
如何
使用选择器从
抓取
的代码中检索项,但页面似乎是从其他地方提取注释的数据。我想不出在哪里。我想它可能是'https://user.guancha.cn/static/
js
/comments-plugin-cms.
js
?201910221652‘,但我看不到存储在那里的评论。
浏览 16
提问于2020-01-30
得票数 0
回答已采纳
2
回答
如何
强制
scrapy
抓取
重复的网址?
、
、
默认情况下,它不会
抓取
重复的urls或
scrapy
已经
抓取
的urls。我试着在网上找,但找不到相关的帮助。
浏览 1
提问于2014-04-17
得票数 25
回答已采纳
1
回答
使用Xpath提取值时来自
Scrapy
的空列表
、
、
、
check-prices-widget-not-sponsored')]/a/div[contains(@class,'check-prices-widget-not-sponsored-link')]").extract()但是,类似的代码可以提取以下页面url (')中的价格。
浏览 2
提问于2018-02-12
得票数 2
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
谈谈scrapy抓取豆瓣影评
scrapy抓取 高考派大学数据
Scrapy递归抓取简书用户信息
scrapy爬虫实战-国外soybase网站跨页面抓取
Python爬虫:使用scrapy框架抓取360超清壁纸
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
云直播
活动推荐
运营活动
广告
关闭
领券