scrapy如何抓取js_scrapy 抓取js数据_scrapy 抓取js页面 - 腾讯云开发者社区

、、、、

不久前我偶然发现了pyexecjs，我想知道它是否可以与scrapy一起用于抓取JS生成的数据。我检查了应该如何使用该库的示例，但我不确定如何将其与scrapy集成。

浏览 4提问于2014-10-12得票数 0

1回答

如何将Keep_Fragments参数设置为True？

我正在尝试抓取一个使用Js的站点，但scrapy一直将下一个页面的url作为副本丢弃，并停止抓取。根据我的理解，scrapy通过检查请求所指向的资源的散列来检查重复项，默认情况下会丢弃URL中的片段。(参见下面的scrapy发布说明摘录) “scrapy.utils.request.request_fingerprint()的新keep_fragments参数允许为URL中具有不同片段的请求生成不同的指纹(问题4104)” 我的问题是，如何实际修改这个

浏览 20提问于2020-09-09得票数 0

回答已采纳

1回答

为什么Scrapy中的数据没有完全加载视图(响应)？

、

我正试着用Scrapy从Youtube上收集一些评论。但是，当我进入scrapy shell模式并使用view(response)打开它时，除了加载旋转器之外，我找不到任何注释。scrapy shell https://www.youtube.com/watch?v=kkl7-NzqxWo在注释部分显示无限旋转器。

浏览 1提问于2018-12-01得票数 0

回答已采纳

1回答

将在Scrapy中建立的会话cookie传递给Splash，以便在抓取js页面时使用

、、、

首先，我想说我是Scrapy的新手！我有一个网站，需要登录后才能用Scrapy刮任何数据。我将要抓取的数据是在登录后由JavaScript生成的。我已经能够成功地使用Scrapy登录。我的问题是，现在我已经登录并拥有必要的cookies来继续请求网站，当我在报告页面上调用SplashRequest时，如何将这些cookies传输到Splash，我想用Scrapy抓取这些cookie？我的思维过程是错误的，我应该使用Scrapy登录，然后将cooki

浏览 26提问于2021-01-23得票数 0

回答已采纳

1回答

如何使用Scrapy更新价格

、、、、

我正在开发价格下降通知应用程序，我正在考虑使用Scrapy，但是，我不确定如何使用它，我是否需要在特定间隔后定期检查产品价格，或者有任何其他方法来做到这一点。

浏览 2提问于2021-06-13得票数 0

1回答

使用scrapy进行web抓取数据的难度

、、、

我正在尝试从https://www.ta.com/portfolio/business-services中使用scrapy抓取数据，但是响应为空。我正在寻找抓取href在div.tiles js-portfolio-tiles中使用代码response.css("div.tiles.js-portfolio-tiles a::attr(href)如何解压这个文件？website HTML

浏览 10提问于2020-01-17得票数 0

回答已采纳

1回答

为什么scrapy在这个例子中不能工作？

、

我试图从一个网站抓取数据，如文章枚举，定价和股票，并将其导出到excel工作表。以下脚本成功登录。未登录时，仅可见articl枚举器。我测试了刮刀，它成功地抓取了文章编号。在下面的示例中，我尝试将登录和抓取数据结合起来，但它不起作用。我做错了什么？import scrapyfrom scrapy import FormRequestprice_list= []link_s

浏览 15提问于2021-11-05得票数 0

5回答

Scrapy -如何识别已经抓取的urls

、、

我每天都在用scrapy抓取一个新闻网站。如何限制scrapy抓取已抓取的URL。此外，在SgmlLinkExtractor上是否有明确的文档或示例。

浏览 1提问于2010-10-06得票数 15

1回答

使用scrapy splash对抓取速度有显著影响吗？

、、、、

到目前为止，我一直在使用scrapy和编写自定义类来处理使用ajax的网站。但是，如果我使用scrapy-splash，据我所知，它会在javascript之后抓取呈现的html，爬虫的速度会受到严重影响吗？使用scrapy抓取一个普通的html页面所需的时间与使用scrapy-splash抓取javascript渲染的html所需的时间进行了怎样的比较？最后，scrapy splash和Selenium的比较如何？

浏览 3提问于2018-04-18得票数 12

回答已采纳

1回答

如何在旋转代理中使用scrapy splash？

、、、、

我仅通过使用以下内容作为请求才能成功抓取js内容。def start_requests(self): yield scrapy.Request(self.parse, ) <e

浏览 10提问于2017-08-14得票数 1

1回答

如何从使用AJAX和JavaScript的网站中刮取数据？

如果网站使用AJAX和JavaScript加载内容，则可能很难从站点中抓取数据。数据可以动态生成并存储在JavaScript变量中，使web刮刀无法访问数据。

浏览 7提问于2022-05-11得票数 0

2回答

python-scrapy:如何在爬虫中获取URL (而不是通过以下链接)？

、

我怎么能在我的爬虫里面有一些东西，可以获取一些网址，通过HtmlXPathSelector从页面中提取一些东西呢？但是URL是我想在代码中作为字符串提供的东西，而不是后面的链接。req = urllib2.Request('http://www.example.com/' + some_string + '/')response = urllib2.urlopen(req) hxs = HtmlXPathSelecto

浏览 0提问于2011-01-10得票数 0

回答已采纳

2回答

如何使用Scrapy创建Twitter爬虫？

、、

我试过使用Scrapy从Pinterest这样的网站上抓取数据，这些网站不需要登录会话进行数据抓取，但如何使用Scrapy抓取和爬行Twitter，因为要访问Twitter追随者和其他数据，我们需要首先登录

浏览 0提问于2014-12-18得票数 2

1回答

如何使用scrapy抓取网站？

、、

我要写一个基于scrapy的Gui应用程序，用户输入一个网站的URL，然后点击“爬网”按钮，整个网站就会被抓取并存储在内置的scrapy-db (sqlite)中。如何使用scrapy帮助我抓取网站？

浏览 4提问于2012-03-09得票数 0

1回答

使用scrapy抓取重定向的urls

、

我正在尝试使用抓取来抓取www.mywebsite.com。我如何告诉scrapy我需要它来抓取重定向的url？我只需要它来爬行重定向的网址，而不是其他网址，导致的网站(如facebook页面等) 2016-11-27 14:48:42 [scrapy] INFO: S

浏览 1提问于2016-11-27得票数 1

1回答

用Python抓取加载AJAX的网站，我应该使用哪个url？

、、、、

因此，我开始搜索替代方案，并在StackOverflow上使用API向服务器发送请求，但经过几个小时的尝试和搜索(例如，我放弃了)，因为我没有得到一些东西： file = response.json() 一般说来，也许有人可以解释，我应该采取什么步骤来刮下后一个网页，我特别感兴趣的是如何从Chrome (-> -> Network -> XHR)中找到正确的信息，以及如何从后一种信息构建data变量(输入到

浏览 4提问于2017-11-25得票数 1

1回答

无法使用Scrapy从下拉列表中进行抓取

、、、

我正在尝试从网站上嵌入的JS下拉列表中抓取市场列表：https://e27.co/startups 使用scrapy shell，我试图从“markets”下拉菜单中抓取市场列表，但无法这样做。在运行了scrapy shell 'https://e27.co/startups'之后，我尝试了同时使用response.css()和response.xpath()。我可以知道如何从下拉列表中抓取

浏览 9提问于2019-06-13得票数 0

回答已采纳

1回答

在Scrapy中抓取用户评论-网站从哪里获取数据？

、、

谁能告诉我如何使用Scrapy从this page抓取用户评论的文本？我知道如何使用选择器从抓取的代码中检索项，但页面似乎是从其他地方提取注释的数据。我想不出在哪里。我想它可能是'https://user.guancha.cn/static/js/comments-plugin-cms.js?201910221652‘，但我看不到存储在那里的评论。

浏览 16提问于2020-01-30得票数 0

回答已采纳

2回答