scrapy 抓取js数据_scrapy 抓取js数据库_scrapy 抓取js页面 - 腾讯云开发者社区

python、scrapy、pycharm、scrapy-splash

首先，我想说我是Scrapy的新手！我有一个网站，需要登录后才能用Scrapy刮任何数据。我将要抓取的数据是在登录后由JavaScript生成的。我已经能够成功地使用Scrapy登录。我的问题是，现在我已经登录并拥有必要的cookies来继续请求网站，当我在报告页面上调用SplashRequest时，如何将这些cookies传输到Splash，我想用Scrapy抓取这些cookie？我的思维过程是错误的，我应该使用Scrapy登录

浏览 26提问于2021-01-23得票数 0

回答已采纳

9回答

BeautifulSoup和Scrapy crawler有什么区别？

python、beautifulsoup、scrapy、web-crawler

我对BeautifulSoup比较熟悉，但对Scrapy crawler不太熟悉。

浏览 323提问于2013-10-30得票数 146

回答已采纳

1回答

可以将pyexecjs与scrapy一起使用吗？

javascript、python、web-scraping、scrapy、screen-scraping

不久前我偶然发现了pyexecjs，我想知道它是否可以与scrapy一起用于抓取JS生成的数据。我检查了应该如何使用该库的示例，但我不确定如何将其与scrapy集成。

浏览 4提问于2014-10-12得票数 0

1回答

在heroku上部署scrapy项目

python-2.7、heroku、scrapy、scrapyd

我有一个抓取蜘蛛项目，它报废了一些网站，并获取我的数据上。我的爬行器生成两个JSON文件，所有抓取的数据都存储在这两个文件中。我这里的问题是，我每天在本地机器上运行scrapy spider，然后手动更新heroku上的两个JSON文件。我想自动化这个过程，即scrapy项目应该每天运行，产生的JSON文件应该自动更新。我在这里找到的解决方案是，如果scrapy和web服务被部署为单个项目，它将像I want....but一样工作，我不确定是否可以做到。我搜索了关于部

浏览 1提问于2014-04-24得票数 2

1回答

使用scrapy抓取动态网页中的数据

javascript、dynamic、scrapy

我正在尝试从中抓取一些数据。它成功地抓取了活动摘要、活动详细信息和为什么它的绿色部分，但是，当我爬行LEED仪表板部分时，响应是空的。scrapy shell "http://www.gbig.org/activities/leed-1000020523" response.xpath("//*[@id='overview']/div

浏览 3提问于2021-05-06得票数 0

1回答

使用scrapy从facebook中抓取数据

facebook、web、web-crawler、scrapy

因此，在抓取这个url之前，我通过scrapy登录，然后通过这个结果页面登录。但是，即使这个页面的http响应是200，它也不会丢弃任何数据。守则如下：from scrapy.spider import BaseSpiderfrom scrapy.selectorimport HtmlXPathSelector from scrapy.contrib.spiders imp

浏览 3提问于2013-05-31得票数 5

1回答

您如何区分哪些站点是HTML & JS，哪些站点是使用React、Angular等通过JS呈现的？

javascript、scrapy、rabbitmq、scrapy-splash

在创建我的第一个爬虫时，我想检查网站是否使用了某个框架。我知道我可以使用SplashRequest来使用无头浏览器来呈现它，但这样做效率不高。我如何才能弄清楚哪些网站需要通过Splash，哪些网站不需要这样做，而不是真正制作无用的SplashRequests？

浏览 3提问于2021-03-26得票数 0

1回答

为什么Scrapy中的数据没有完全加载视图(响应)？

web-scraping、scrapy

我正试着用Scrapy从Youtube上收集一些评论。但是，当我进入scrapy shell模式并使用view(response)打开它时，除了加载旋转器之外，我找不到任何注释。scrapy shell https://www.youtube.com/watch?v=kkl7-NzqxWo在注释部分显示无限旋转器。

浏览 1提问于2018-12-01得票数 0

回答已采纳

1回答

使用scrapy进行web抓取数据的难度

python、python-3.x、web-scraping、scrapy

我正在尝试从https://www.ta.com/portfolio/business-services中使用scrapy抓取数据，但是响应为空。我正在寻找抓取href在div.tiles js-portfolio-tiles中使用代码response.css("div.tiles.js-portfolio-tiles a::attr(href)

浏览 10提问于2020-01-17得票数 0

回答已采纳

2回答

如何使用Scrapy创建Twitter爬虫？

twitter、scrapy、web-crawler

我试过使用Scrapy从Pinterest这样的网站上抓取数据，这些网站不需要登录会话进行数据抓取，但如何使用Scrapy抓取和爬行Twitter，因为要访问Twitter追随者和其他数据，我们需要首先登录

浏览 0提问于2014-12-18得票数 2

1回答

关于XPath选择器的问题(用于Scrapy)

python、scrapy、web-crawler、screen-scraping

目的:从div类list_area daily_all中抓取文本数据。使用scrapy shell，我首先“抓取”了我想要抓取数据的网站：https://comic.naver.com/webtoon/weekday.nhn 使用'scrapy shell‘脚本：scrapyshell 'https://comic.naver.com/webtoon/w

浏览 18提问于2019-06-10得票数 2

1回答

如何使用Scrapy更新价格

python、web-scraping、beautifulsoup、scrapy、scrapy-splash

我正在开发价格下降通知应用程序，我正在考虑使用Scrapy，但是，我不确定如何使用它，我是否需要在特定间隔后定期检查产品价格，或者有任何其他方法来做到这一点。

浏览 2提问于2021-06-13得票数 0

1回答

为什么scrapy在这个例子中不能工作？

python、scrapy

我试图从一个网站抓取数据，如文章枚举，定价和股票，并将其导出到excel工作表。以下脚本成功登录。未登录时，仅可见articl枚举器。我测试了刮刀，它成功地抓取了文章编号。在下面的示例中，我尝试将登录和抓取数据结合起来，但它不起作用。我做错了什么？import scrapyfrom scrapy import FormRequestprice_list= [] stoc

浏览 15提问于2021-11-05得票数 0

2回答

在Scrapy响应中执行内联JavaScript

javascript、python、scrapy、scrapy-splash、splash-js-render

我试图用Scrapy登录一个网站，但收到的响应是一个只包含内联JavaScript的超文本标记语言文档。JS重定向到我想要从中抓取数据的页面。但是Scrapy不执行JS，因此不会路由到我想要的页面。'request_id': request_id, } yield scrapy.FormRequestcallback=s

浏览 72提问于2017-06-22得票数 3

1回答

如何使用Scrapy进行多页抓取？

python、python-2.7、web-scraping、scrapy

---- * <-- START / #-----*-----/ 这是一个我想用scrapy我想抓取#页的数据。我已经做了一个可以从一个页面抓取数据的抓取器。import scrapy topic = <

浏览 2提问于2017-03-07得票数 1

3回答

Scrapy pause/resume是如何工作的？

scrapy

有人能给我解释一下Scrapy中的暂停/恢复功能是如何工作的吗？没有提供太多细节。我在我的scrapy_cache文件夹中看到一个名为requests.queue的文件夹。但是，这始终是空的。看起来requests.seen文件正在(使用SHA1散列)保存发出的请求，这很棒。我在Scrapy代码中跟踪了这个问题，看起来RFPDupeFilter打开了带有'a+‘标志的requests.seen文件。因此，它将始终丢弃文件中以前的值(至少这是我的Mac上的行为)

浏览 0提问于2015-03-04得票数 8

1回答

如何从多个页面中抓取项目？

python、scrapy

我正在尝试抓取#页的数据。我已经做了一个可以从一个页面抓取数据的抓取器。但它在刮掉第一页后突然完成了工作# -*- coding: utf-8 -*-import csvfrom scrapy.selector import Selector class Proddduc

浏览 11提问于2019-11-07得票数 1

1回答

如何将Keep_Fragments参数设置为True？

scrapy

我正在尝试抓取一个使用Js的站点，但scrapy一直将下一个页面的url作为副本丢弃，并停止抓取。根据我的理解，scrapy通过检查请求所指向的资源的散列来检查重复项，默认情况下会丢弃URL中的片段。(参见下面的scrapy发布说明摘录) “scrapy.utils.request.request_fingerprint()的新keep_fragments参数允许为URL中具有不同片段的请求生成不同的指纹

浏览 20提问于2020-09-09得票数 0

回答已采纳

2回答