scrapy的问题-没有抓取任何项目

文章/答案/技术大牛

发布

1回答

python、scrapy

我试图删除这个网站("")中的所有信息，但我无法将其写入文件中。我的文件甚至都没有创建。下面是我的代码：import json # JSON manipulation name = 'Karl' # Spider's n

浏览 5提问于2018-07-24得票数 1

回答已采纳

1回答

Scrapy表示没有抓取任何页面/项目？

python、logging、scrapy

我的爬虫当前正在从网站上抓取xml。这样做是成功的，因为我可以看到通过数据库管道存储的项。2013-04-12 11:58:03-0400 [traffics] INFO: Dumping Scrapy2013-04-12 11:58:03-0400 [traffics] INFO: Spider

浏览 0提问于2013-04-19得票数 1

1回答

不确定在Anaconda平台上加载Scrapy的位置

web-scraping、scrapy

当涉及到抓取网站的话题时，我太天真了。到目前为止，我已经从预先生成的数据集中手动抓取或抓取数据。不过，我想解决一个分析问题，由于其规模，这个问题需要解决。Scrapy是我被推荐使用的工具，所以这也是我将要使用的工具。我正在尝试按照教程加载我的第一个Scrapy项目，但遇到了一个障碍。当我尝试在Spyder中输入启动项目的代码来启动新项目时： i

浏览 13提问于2020-01-29得票数 0

1回答

通过Scrapy存储抓取的数据

python、json、scrapy

如何在一个文件中存储整个抓取的数据？例如:抓取的数据是[u\ 7564.2021]，但存储在json文件中的数据只有[ 哪里出了问题？

浏览 0提问于2011-12-19得票数 1

1回答

scrapy增量提取不起作用

python、python-2.7、scrapy

我使用的是scrapy 0.20我使用的是插件。我对我的设置做了如下设置： 'TestSpider.deltafetch.DeltaFetch': 100,DELTAFETCH_ENABLED= True但蜘蛛会继续抓取已经被抓取的项目。

浏览 0提问于2014-03-23得票数 2

2回答

如何抓取一个网站只给定域网址与scrapy

python、web-crawler、scrapy、scrape

我正在尝试使用scrapy抓取一个网站，但网站没有网站地图或页面索引。如何使用scrapy抓取网站的所有页面？我只需要下载网站的所有页面，而不提取任何项目。我只需要在蜘蛛规则中设置关注所有链接吗？但我不知道scrapy是否会以这种方式避免复制urls。

浏览 0提问于2013-01-06得票数 5

回答已采纳

1回答

递归地爬行网站及其外部链接，为数据分析项目n Python创建一个图表。

python、beautifulsoup、scrapy、web-crawler、scrapy-spider

我有一个项目，我想把它放在一起做一个数据分析实验。我有一个管道，但我不知道如何继续获取我需要的数据。我想抓取一个网站，并找到所有的内部和外部链接，分开他们和爬行的外部链接递归，直到它达到一定的深度。我想要这样做，以创建一个网站的所有连接的图表，然后使用中心算法找到中心节点并从那里开始。理想情况下，我希望在这个项目中使用python 2。我看了一看刮擦的、漂亮的汤和其他图书馆，但这一切都很令人困惑。在爬行和创建图表时，

浏览 2提问于2017-11-25得票数 0

1回答

将从selenium获得的页面源代码传递给scrapy

python、selenium、scrapy

我正在尝试实现一个scrapy + selenium爬虫，但在使用selenium与页面交互后，我似乎无法获得scrapy来解析HTML。代码如下import seleniumfrom selenium import webdriver importWebDriverWa

浏览 4提问于2018-09-12得票数 3

9回答

BeautifulSoup和Scrapy crawler有什么区别？

python、beautifulsoup、scrapy、web-crawler

我想做一个网站，显示亚马逊和易趣产品价格的比较。其中哪一个会工作得更好?为什么？我对BeautifulSoup比较熟悉，但对Scrapy crawler不太熟悉。

浏览 323提问于2013-10-30得票数 146

回答已采纳

1回答

从py转换为exe后，App无法正常工作

python、scrapy、pyqt5

我有一个PyQt5应用程序，旨在与抓取蜘蛛工作。用户可以选择Scrapy的项目.cfg文件，应用程序会检测到它的蜘蛛。然后，用户可以启动/停止运行爬行器并查看日志。下面是它的代码： GUI.py： from functools import partial self.scrapy

浏览 9提问于2019-03-11得票数 0

1回答

挣扎着用Scrapy刮一个网站

python、web-scraping、scrapy

我最近开始了我的第一个Python项目。我对火车很感兴趣，我在我的国家铁路公司的网站上没有发现任何CSV数据，所以我决定在Scrapy做网络抓取。当我试图获取第二个链接时，终端会结冰--这些是我想为我的项目抓取数据的网站：在看了几篇关于这个问题的文章之后，我改变了蜘蛛的设置，以克服错误，比如禁用cookie，使用刮除<em

浏览 7提问于2022-10-25得票数 0

1回答

从脚本运行爬行器时获得scrapy爬行命令的功能

python、django、postgresql、web-scraping、scrapy

我在一个scrapy项目中编写了一个爬行器，它正确地从url和管道中抓取数据--响应到postgresql表中，但只在使用scrapy命令时。当从项目根目录中的脚本运行蜘蛛时，似乎只调用蜘蛛类的解析方法，因为仅使用python命令运行脚本时不会创建表。我遵循了中包含的说明，但在数据被刮掉后，它们似乎不处理流水线数据。这就引发了一个问题:我甚至应该尝试运行一个脚本来运行蜘蛛，或者我是否应该以某种方式使用scrapy命令

浏览 3提问于2015-07-26得票数 2

回答已采纳

1回答

如何获取Python Scrapy工具抓取的项目数？

python、scrapy

我正在使用Python Scrapy工具从网站提取数据。我能够抓取数据。现在我想要从一个特定的网站上刮下来的项目的计数。我怎样才能得到抓取的项目数？在Scrapy中有内置的类吗？任何帮助都将不胜感激。

浏览 0提问于2013-10-24得票数 1

1回答

如何使Selenium页面刷新到其元素的最新状态？

python、selenium、selenium-webdriver、web-scraping、selenium-chromedriver

我有一个Python + Selenium脚本，可以帮助我抓取信息。然而，网页不时会遇到错误，然后我需要刷新页面并再次抓取。问题是这个错误是不稳定的，当我已经点击了一些按钮或填写了一些表单时，它可能会使我的刮刀崩溃。我需要找到一个优雅的方法来刷新页面完全相同的按钮点击(我的意思是，完全相同的状态)。有什么帮助吗？

浏览 20提问于2017-08-29得票数 0

1回答

在heroku上部署scrapy项目

python-2.7、heroku、scrapy、scrapyd

我有一个抓取蜘蛛项目，它报废了一些网站，并获取我的数据上。我的爬行器生成两个JSON文件，所有抓取的数据都存储在这两个文件中。现在，我有一个flask web服务，它使用上述两个JSON文件来满足用户的请求。我想自动

浏览 1提问于2014-04-24得票数 2

1回答

还有其他方法可以获得代理列表和站点抓取吗？

python、scrapy

通过抓取，我使用随机代理中间件为Scrapy ()。首先，我通过抓取免费的代理站点(不使用代理旋转)获得list.txt (代理列表)，然后，当我通过两个不同的Scrapy项目运行它时，我会对另一个站点进行抓取(使用代理旋转)，它工作得很好。问题是如何将获取代理和抓取合并到一个粗糙的项目中，还是有其他方法来处理它？我试图在一个Scrapy项目中

浏览 1提问于2019-06-23得票数 0

回答已采纳

1回答

如何将javascript呈现模块集成到scrapy中？

javascript、python、web-scraping、scrapy

我正在做一个网络抓取程序，但我遇到了一个问题，使用刮擦与javascript生成的内容。我知道scrapy不是为进行这种类型的抓取而构建的，但我一直试图使用或来完成我所需要的工作。但是，我无法让这两个模块中的任何一个正确地使用scrapy。我的问题是，如果有人有一个最小的示例，他们可以显示使用scrapyjs或splash来呈现javascrip

浏览 0提问于2014-02-04得票数 4

回答已采纳

1回答

使用Scrapy抓取ajax页面

python、selenium、scrapy

我已经用Scrapy一个月了。我能够抓取和抓取几个网站(事实上我已经抓取了900个网站)，基于pipelines.Now给出的关键字，问题是当我们遇到javapages (ajax)时，抓取不能抓取。我正在尝试使用以下代码，并对抓取ajax页面进行适当的更改第二个问题是

浏览 2提问于2013-06-19得票数 0

回答已采纳

2回答

从子目录中为托管在Heroku上的Django项目运行非Django命令？

django、heroku、scrapy

我的Django项目使用了名为Scrapy的Python web抓取库。Scrapy附带了一个名为scrapy crawl abc的命令，它可以帮助我抓取我在scrapy应用程序中定义的网站。当我在本地机器上运行诸如scrapy crawl spidername之类的抓取命令时，应用程序能够抓取日期并将其复制到我的</e

浏览 1提问于2012-01-27得票数 3

回答已采纳

3回答

在使用Scrapy进行抓取之前，检查URL是否在文件中

python、scrapy、file-read

我正在抓取一个包含URL列表的大文件。显然，我不能连续地抓取所有的URL。我当前的解决方案从文件中读取URL。一旦它从该页面抓取和下载文档，我就会写入一个新文件，如下所示： https://url_i_completed_crawling E:/location_I_stored_crawled_fileshttps://another_url_i_completed_crawling E:/another_location_I_

浏览 6提问于2019-10-11得票数 0

点击加载更多