如何解决使用scrapy时的排序问题？

文章/答案/技术大牛

发布

1回答

、、

我相信这是一个简单的问题，我愿意学习更多。事情是，我想通过网址抓取网站标题。其目的是预测在线新闻的受欢迎程度，数据来自UCI机器学习存储库。这是the link。我按照Scrapy的教程修改了"quotes spider“中的代码，如下所示。在终端中运行"scrapy crawl quotes“之后，我使用"scrapy crawl quotes -o quotes.json”将所有的标题保存到JSON中

浏览 36提问于2019-04-01得票数 2

回答已采纳

3回答

如何使用fields_to_export属性在BaseItemExporter中排序我的Scrapy数据？

、、

我做了一个简单的蜘蛛，我使用命令行将我的数据导出为CSV格式，但是数据的顺序似乎是随机的。如何在输出中排序CSV字段？我使用以下命令行获取CSV数据：根据fields_to_export Scrapy文档，我应该能够使用BaseItemExporter类的BaseItemExporter属性来控

浏览 8提问于2013-12-24得票数 21

回答已采纳

2回答

在python中使用scrapy执行Javascript函数

、

我对"scrapy“非常陌生，我正在废弃一个网站，因为我有一些锚标记，其中包含了带有java脚本SubmitForm函数的href属性。当我单击javascript函数时，需要从中获取数据的页面正在打开。我使用了Xpath，并为特定的锚标记找到了href，但无法执行包含javascript函数的href属性。有人能告诉我如何在scrapy python.My HTML代码中执行javascript提交锚标记的</em

浏览 7提问于2012-05-18得票数 5

2回答

如何改变抓取蜘蛛的网址顺序？

、、、

我正在从成千上万的网页上得到更新。可以有多个具有相同域的页面。我已经将DOWNLOAD_DELAY设置为1秒，这样就不会使服务器超载。Spider运行良好，但是如果有相同域的100个urls在一起，它会减慢爬行速度，因为Spider必须在每个请求之后等待1秒。 ...def start_requests(self): for url in self.u

浏览 3提问于2017-04-22得票数 0

回答已采纳

1回答

不确定在Anaconda平台上加载Scrapy的位置

、

当涉及到抓取网站的话题时，我太天真了。到目前为止，我已经从预先生成的数据集中手动抓取或抓取数据。不过，我想解决一个分析问题，由于其规模，这个问题需要解决。因此，我决定尝试学习如何在python中刮刮。Scrapy是我被推荐使用的工具，所以这也是我将要使用的工具。我正在尝试按照教程加载我的第一个Scrapy项目，但遇到了一个障碍。当我尝试在Spy

浏览 13提问于2020-01-29得票数 0

1回答

网站禁用爬虫后抓取一些链接

、、

我对scrapy有点问题。当我使用scrapy spider访问网站时。20-30分钟后，网站阻止我的爬虫。Scrapy总是返回500个代码。(DELAY_TIME = 10s)当scrapy运行时，我如何改变它的会话？或者解决这个问题？

浏览 0提问于2013-04-10得票数 0

回答已采纳

1回答

用Scrapy按升序导出刮擦数据

、、、

我使用刮除我的网站4栏(库存数量/名称/价格/url)。我希望输出的文件按字母顺序从name列中排序。我可以进入csv并手动对其进行排序，但是某个向导必须知道如何在脚本中这样做吗？代码：from scrapy.crawler import CrawlerProcess cs = open('results/2x2_results.csvurl&#x

浏览 9提问于2022-10-03得票数 1

回答已采纳

3回答

刮刮需要python2.7，但我已经有了

、、、

首先，我正在研究osx 10.6.8sudo easy_install Scrapyscrapy startproject tutorialScrapy 0.22.2 requires Python 2.7我尝试了解决方案，但我也遇到了同样的问题。我怎么才能解决这个问题

浏览 1提问于2014-03-15得票数 4

回答已采纳

2回答

从Python脚本中运行scrapy* - CSV导出程序不起作用*

、、、、

当我从命令行运行它时，我的刮取器工作得很好，但是当我试图在python脚本中运行它(使用使用Twisted的方法概述 )时，它不会输出它通常所做的两个CSV文件。我有一个创建和填充这些文件的管道，其中一个使用CsvItemExporter()，另一个使用writeCsvFile()。命令行末尾的输出表明，预期的页面数已被爬行，并且爬行器似乎已经正常完成。我没有收到任何错误信息。 -

浏览 3提问于2013-07-20得票数 6

回答已采纳

1回答

安装后，“‘scrapy”不能识别为内部或外部命令。

、

我正在使用python版本3.7。我使用命令pip install scrapy安装了这个包，该命令与其他依赖项一起成功安装。然后我运行命令scrapy startproject newproject，这导致一个读取'scrapy' is not recognized as an internal or external command, operable program or batch file的错误。我还在命令行上运行了命令scrapy，它给出

浏览 5提问于2021-06-02得票数 0

1回答

如何在使用无限滚动加载的页面中刮取完整列表，每次请求的URL是相同的

、、、

我仍然在做我的第几个刮擦项目，我偶然发现这个网站有一个无限的滚动，其中所要求的URL是相同的，每次。我试图寻找解决方案，但所有我读到的材料都涉及到一些区别的网址(页号、文本等)。如何从https://www.baincapital.com/people中提取出所有的名字。我已经找出了我的选择器等，但它只是返回最初可见的信息。任何帮助都将不胜感激。到目前为止我的代码是： import <e

浏览 2提问于2020-02-05得票数 0

回答已采纳

1回答

如何修复CrawlSpider重定向？

、、

我试图为这个站点编写一个CrawlSpider：，这是我的代码：from scrapy.contrib.spiders import CrawlSpider, Rulefrom scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from scrapy.selector import HtmlXPathSelectorshamsstores2时得到的响应。，这些链接重定向到其他链接，然后

浏览 1提问于2013-11-05得票数 0

回答已采纳

6回答

刮擦抛出ImportError:无法导入名称xmlrpc_client

、、

通过pip安装Scrapy之后，并拥有Python 2.7.10Traceback (most recent call last):from scrapy.cmdline import execute File "/Library/Python/2.7/site-packages

浏览 5提问于2015-06-21得票数 34

回答已采纳

2回答

使用scrapy按字段订购json

、、、、

我创建了一个蜘蛛来从projecteuler.net中清除问题。我对一个相关问题的回答用我用命令scrapy -o euler.json启动这个命令，它输出一个无序的json对象数组，每个人都有一个问题:这对我来说很好，因为我要用javascript来处理它，即使我认为通过scrapy解决排序问题非常简单。但不幸的是，按scrapy (我需要按id字段进行升序)在json中<e

浏览 1提问于2018-02-16得票数 1

回答已采纳

1回答

刮伤的request.priority不起作用

、

正式文档对scrapy.Request.priority的解释如下：scrapy version: 2.6.2class TestSpider(scrapy<

浏览 3提问于2022-07-26得票数 0

2回答

名为six.moves的Linux Python Scrapy* No模块*

、、、、

我们想在linux机器上使用scrapy。我们使用python 2.7版本并安装scrapy 1.4.0 (pip install scrapy)。我们将导入剪贴画添加到.py文件中。当我们运行.py文件时，会出现如下错误： import scrapy File "/usr/local/lib/pyth

浏览 27提问于2017-12-19得票数 0

1回答

刮擦^ AttributeError：‘模块’对象没有属性'Spider‘

、、、、

我不知道为什么，但最近出了个错误： class ScrapySpider(scrapy.Spider):我的完整代码： import scrapy

浏览 7提问于2019-12-17得票数 1

回答已采纳

1回答

用cmdline抓取导入错误

、、、

最近，我安装了Scrapy，并在使用import和从scrapy.cmdline导入执行时收到了此错误。python如何寻找这些模块，我将如何解决这个问题？谢谢!>>> import scrapy File "<stdin>", line 1, in <module> File "C:\Python27\

浏览 1提问于2014-07-01得票数 0

回答已采纳

1回答

抓取跟随javascript输入按钮

、、、

type="submit">类GetData显示一些可点击的图标.当单击它时，将打开新页。我已经尝试了下面的代码，只是看看是否有scrapy跟随输入，但没有成功。links = sel.xpath("//input[@class=

浏览 1提问于2016-01-21得票数 3

回答已采纳

3回答

清理时安装scrapy失败

、、、、

我一直在尝试使用pip安装Scrapy，以便获得本赛季的NBA赛程和得分。在过去的6个小时里，我一直在试着安装它。我已经逐字地按照设置说明进行了操作，但仍然无法使其正常工作。任何帮助都将不胜感激。使用mac osx btw。Requirement already satisfied (use --upgrade to upgrade): Scrapy in /Library/Frameworks/Python.framework/Versions&

浏览 0提问于2014-04-27得票数 3

点击加载更多