scrapy 抓取js数据库 - 腾讯云开发者社区

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

在heroku上部署scrapy项目

、、、

我有一个抓取蜘蛛项目，它报废了一些网站，并获取我的数据上。我的爬行器生成两个JSON文件，所有抓取的数据都存储在这两个文件中。我这里的问题是，我每天在本地机器上运行scrapy spider，然后手动更新heroku上的两个JSON文件。我想自动化这个过程，即scrapy项目应该每天运行，产生的JSON文件应该自动更新。我在这里找到的解决方案是，如果scrapy和web服务被部署为单个项目，它将像I want....but一样工作，我不确定是否可以做到。我搜索了关于部署scrapy项目

浏览 1提问于2014-04-24得票数 2

9回答

BeautifulSoup和Scrapy crawler有什么区别？

、、、

我对BeautifulSoup比较熟悉，但对Scrapy crawler不太熟悉。

浏览 323提问于2013-10-30得票数 146

回答已采纳

2回答

Scrapy / Python和SQL Server

、、

有没有可能使用Scrapy从网站上获取数据，并将这些数据保存在Microsoft SQL Server数据库中？如果是，有没有这样做的例子？这主要是Python的问题吗？也就是说，如果我发现一些Python代码保存到SQL Server数据库中，那么Scrapy也可以这样做吗？

浏览 0提问于2013-02-07得票数 0

回答已采纳

1回答

为什么Scrapy中的数据没有完全加载视图(响应)？

、

我正试着用Scrapy从Youtube上收集一些评论。但是，当我进入scrapy shell模式并使用view(response)打开它时，除了加载旋转器之外，我找不到任何注释。scrapy shell https://www.youtube.com/watch?v=kkl7-NzqxWo在注释部分显示无限旋转器。

浏览 1提问于2018-12-01得票数 0

回答已采纳

2回答

从子目录中为托管在Heroku上的Django项目运行非Django命令？

、、

我的Django项目使用了名为Scrapy的Python web抓取库。Scrapy附带了一个名为scrapy crawl abc的命令，它可以帮助我抓取我在scrapy应用程序中定义的网站。当我在本地机器上运行诸如scrapy crawl spidername之类的抓取命令时，应用程序能够抓取日期并将其复制到我的数据库中。pipelines.py将抓取的项目保存到数据库中。在pi

浏览 1提问于2012-01-27得票数 3

回答已采纳

1回答

将在Scrapy中建立的会话cookie传递给Splash，以便在抓取js页面时使用

、、、

首先，我想说我是Scrapy的新手！我有一个网站，需要登录后才能用Scrapy刮任何数据。我将要抓取的数据是在登录后由JavaScript生成的。我已经能够成功地使用Scrapy登录。我的问题是，现在我已经登录并拥有必要的cookies来继续请求网站，当我在报告页面上调用SplashRequest时，如何将这些cookies传输到Splash，我想用Scrapy抓取这些cookie？我的思维过程是错误的，我应该使用Scrapy登录，然后将cookie传递给Splas

浏览 26提问于2021-01-23得票数 0

回答已采纳

4回答

从urls列表中下载<very large> number of pages的最佳方式是什么？

、、、、

我有一个>100,000的urls (不同的域名)在一个列表中，我想下载并保存在数据库中，以便进一步处理和修补。使用scrapy而不是python的多处理/多线程是否明智？

浏览 2提问于2013-06-06得票数 5

回答已采纳

3回答

Scrapy pause/resume是如何工作的？

有人能给我解释一下Scrapy中的暂停/恢复功能是如何工作的吗？没有提供太多细节。我在我的scrapy_cache文件夹中看到一个名为requests.queue的文件夹。但是，这始终是空的。看起来requests.seen文件正在(使用SHA1散列)保存发出的请求，这很棒。我在Scrapy代码中跟踪了这个问题，看起来RFPDupeFilter打开了带有'a+‘标志的requests.seen文件。因此，它将始终丢弃文件中以前的值(至少这是我的Mac上的行为)

浏览 0提问于2015-03-04得票数 8

1回答

为什么scrapy在这个例子中不能工作？

、

我试图从一个网站抓取数据，如文章枚举，定价和股票，并将其导出到excel工作表。以下脚本成功登录。未登录时，仅可见articl枚举器。我测试了刮刀，它成功地抓取了文章编号。在下面的示例中，我尝试将登录和抓取数据结合起来，但它不起作用。我做错了什么？import scrapyfrom scrapy import FormRequestprice_list= []link_s

浏览 15提问于2021-11-05得票数 0

3回答

在使用Scrapy进行抓取之前，检查URL是否在文件中

、、

我正在抓取一个包含URL列表的大文件。显然，我不能连续地抓取所有的URL。我当前的解决方案从文件中读取URL。一旦它从该页面抓取和下载文档，我就会写入一个新文件，如下所示： # > scrapy crawl fbo-

浏览 6提问于2019-10-11得票数 0

4回答

如何在抓取的CrawlSpider中访问特定的start_url？

、、

我正在使用Scrapy，特别是Scrapy的CrawlSpider类来抓取包含某些关键字的web链接。我有一个相当长的start_urls列表，它从一个连接到Django项目的SQLite数据库中获取条目。我想将抓取的web链接保存在此数据库中。为了将抓取的web链接正确地保存到数据库中，我需要告诉CrawlSpider的parse_item()方法，抓取的web链接属于哪个起始url。我该如何做呢?Scrapy的D

浏览 1提问于2012-05-15得票数 7

回答已采纳

2回答

Scrapy -如何抓取网站并将数据存储在Microsoft SQL Server数据库中？

、、、

我已经在MSSQL Server中为Scrapy数据创建了一个表。我还设置了Scrapy并配置了Python来抓取和提取网页数据。我的问题是，如何将Scrapy抓取的数据导出到本地MSSQL Server数据库中？这是Scrapy用于提取数据的代码： name = "quotes" start_url

浏览 1提问于2017-04-07得票数 2

1回答

如何将Keep_Fragments参数设置为True？

我正在尝试抓取一个使用Js的站点，但scrapy一直将下一个页面的url作为副本丢弃，并停止抓取。根据我的理解，scrapy通过检查请求所指向的资源的散列来检查重复项，默认情况下会丢弃URL中的片段。(参见下面的scrapy发布说明摘录) “scrapy.utils.request.request_fingerprint()的新keep_fragments参数允许为URL中具有不同片段的请求生成不同的指纹

浏览 20提问于2020-09-09得票数 0

回答已采纳

1回答

使用Scrapy抓取大型数据库

、、、、

我的项目需要我抓取myfitnesspal的数据库，我如何使用搜索选项抓取某些食物的营养信息？基本上，我如何在scrapy上浏览搜索表单

浏览 1提问于2013-08-20得票数 1

1回答

可以将pyexecjs与scrapy一起使用吗？

、、、、

不久前我偶然发现了pyexecjs，我想知道它是否可以与scrapy一起用于抓取JS生成的数据。我检查了应该如何使用该库的示例，但我不确定如何将其与scrapy集成。

浏览 4提问于2014-10-12得票数 0

0回答

抓取-按日期抓取链接

、、、

有没有可能通过与链接相关的日期来抓取链接？我正在尝试实现一个每日运行的爬行器，它将文章信息保存到数据库中，但我不想重新抓取我以前已经抓取过的文章--即昨天的文章。但是，这依赖于根据先前保存在数据库中的检查新请求。我假设，如果每天的抓取持续一段时间，那么数据库将需要大量的内存开销来存储已经抓取的请求指纹。因此，给出一个像这样的网站上的文章列表，我想要抓取今天发布的所有文章6/14/17，但是一旦抓取

浏览 6提问于2017-06-15得票数 1

回答已采纳

1回答

scrapy增量提取不起作用

、、

我使用的是scrapy 0.20我使用的是插件。'TestSpider.deltafetch.DeltaFetch': 100,DELTAFETCH_ENABLED = True但蜘蛛会继续抓取已经被抓取的项目

浏览 0提问于2014-03-23得票数 2

1回答

如何报废网站上的所有页面(第1页直到无穷大)

、、、、

伙计们，我想从上抓取一切都好，我抓取它的成功import datetimeimport socketfrom scrapy.loader.processors import

浏览 1提问于2016-07-25得票数 0

回答已采纳

1回答

抓取抓取整个网站的爬虫

、、

我正在使用scrapy抓取我拥有的旧网站，我使用下面的代码作为我的蜘蛛。我不介意为每个网页输出文件，或者一个包含所有内容的数据库。但是我确实需要能够让蜘蛛抓取整个东西，而不是我必须放入我当前必须做的每个单独的url。import scrapy name = "dmoz" allowed_domains = ["www.example.com

浏览 1提问于2016-04-25得票数 15

回答已采纳

2回答

抓取并发或分布式爬网

、、

我想用scrapy抓取相当大的网站。在某些情况下，我已经有了抓取的链接，而在其他情况下，我需要提取(抓取)它们。我还需要在运行时访问数据库两次。一次是为了确定是否需要抓取url (蜘蛛中间件)，一次是为了存储所提取的信息(项目流水线)。理想情况下，我可以运行并发或分布式爬行，以加快速度。使用scrapy运行并发或分布式爬网的推荐方式是什么？

浏览 5提问于2015-05-28得票数 4

点击加载更多