使用大量计算机存储的Scrapy

文章/答案/技术大牛

发布

1回答

python、selenium、web-scraping、scrapy

我是python和scrapy的新手。现在，我正在使用一个利用selenium加载JS页面的爬行器。我正在通过Bootcamp运行一台windows计算机，我还有大约10 up的存储空间，然而，当我运行我的scrapy spider时，在运行30分钟内，它几乎占据了一半的存储空间，我不知道为什么。我在settings.py中关闭了HTTP Cache，但它仍然占用了几GB的存储空间

浏览 18提问于2020-07-25得票数 0

2回答

还有什么更有效:读取和解析大型JSON文件或大型CSV文件？

python、cpu

我计划使用Scrapy抓取本地网站获取大量数据，并将其存储在文件中。然后，我计划解析该文件，并将一些数据放在SQL数据库中。我的计算机会使用较少的CPU和RAM来读取和解析一个大的CSV文件或JSON文件吗？不管是哪种方式，哪种方法对我的机器的负担更小？

浏览 0提问于2018-03-25得票数 1

2回答

刮擦初始化错误

python、scrapy

我正在开始使用Scrapy，但是在LinuxMint17.2(基于Ubuntu的版本)上安装有两个问题。我不明白安装pip install scrapy和sudo apt-get install scrapy的区别是什么当我安装这两个中的一个时，我试着使用命令scrapy startprojecttutorial来学习Scrapy的第一个教程，它会给出错误/usr/bin:

浏览 5提问于2015-10-22得票数 2

回答已采纳

1回答

使用Scrapy抓取Youtube用户页面上的标题和持续时间信息

python、web-scraping、youtube、scrapy

正如标题所暗示的，我想构建一个存储用户视频标题信息和持续时间的应用程序，并使用Scrapy存储它。使用BeautifulSoup解析HTML源文件相对容易，但在处理上传了大量视频的Youtube用户页面时，我认为使用BeautifulSoup是不可能的。任何帮助都将不胜感激。

浏览 2提问于2017-07-16得票数 0

2回答

ImportError:没有名为misc.log的模块

python、python-2.7、scrapy、scrapy-spider

我试着运行中的"scrapy“示例我应该在哪里找“misc.log”？

浏览 5提问于2016-01-05得票数 0

回答已采纳

1回答

如何使用scrapy-redis管道？

python、redis、scrapy

我现在正在使用scrapy-redis，我可以使用它，并且我成功地通过使用相同的redis服务器在不同的计算机上爬行。但我不明白如何正确使用scrapy-redis管道。在我的理解中，我认为我需要另一个脚本而不是爬行器来处理redis管道列表中的项，然后我可以做一些事情，比如将它们存储到数据库中。

浏览 13提问于2017-07-31得票数 0

1回答

如何将Scrapy的屏幕输出存储到Linux中的文件中

linux、scrapy、scrapy-spider

我经常用要调试Scrapy项目，请执行以下操作。然而，当有大量的项目爬行，这些日志信息将嵌入到许多无用的信息。scrapy crawl xxx_spider >> my_log 但这不管用

浏览 0提问于2016-02-18得票数 0

回答已采纳

1回答

如何使用psycopg2将抓取的项(或dict /命名元组)放入postgres存储过程(函数)中执行插入操作

python、sql、postgresql、scrapy、psycopg2

其中一些是简单的异步插入。然而，它们有大量的参数。请注意，复合类型在开始时声明了两次。第一个是postgres中的create table语句，第二个是<em

浏览 0提问于2012-07-13得票数 2

回答已采纳

1回答

我对scrapy框架是个新手。他们有一个很棒的文档，我在里面学到了各种东西。我正在尝试卷曲各种教育网站到深度3级，在每个网站中找到cse部门(尝试找到cse或计算机或在该页面上抓取的链接中的单词列表)。如果他们有cse部门在他们的网站，这些链接或网址将被存储在一个.csv文件。如何修改我的XPath以在每个网站中找到cse部门(尝试在该页面上抓取的链接中找到cse或计算机或单词列表)，以及我在哪里应用条件(如果链接有

浏览 2提问于2012-11-08得票数 0

1回答

通过Django视图运行Scrapy

python、django、web-scraping、scrapy、web-crawler

因此，我正在做以下项目：我正在使用Django开发一个网站，将作为一个网络爬虫的远程管理工作。更具体地说，我用Scrapy创建了一个蜘蛛，可以从另一个网站下载一些PDF文件。我的目标是找到一种通过POST (我猜)请求调用爬行器的方法，并让爬虫在我的Django视图中运行。下载的文件将存储到运行网站的服务器上，而不是存储到运行爬行器的任何人的个人计算机上。因此，

浏览 0提问于2017-08-16得票数 2

1回答

如何用Scrapy爬行本地HTML文件

python、scrapy

我尝试用下面的代码爬行存储在桌面中的本地HTML文件，但是在爬行过程之前我遇到了以下错误，例如“没有这样的文件或目录：'/robots.txt'”。是否可以在本地计算机(Mac)中抓取本地HTML文件？ $ scrapy crawl test -o test01.csvclass TestSpider(sc

浏览 1提问于2018-11-15得票数 4

回答已采纳

1回答

如何从这个页面获得链接？

xpath、web-scraping、scrapy、scrapy-spider

本页有一些数据： $ scrapy shell 'https://www.catalogs.ssg.asia/toyota/?

浏览 1提问于2017-02-11得票数 0

2回答

HTML抓取的最佳可用选项是什么？

web-development、html、scraping

我目前正在使用PHP与CURL和简单的HTML DOM分析器进行HTML抓取。我需要刮大量的内容，它需要存储。我使用PHP作为我的主要语言，使用MySQL作为存储DB，但是我对任何语言的选项都感兴趣，并且可以将它集成到我的工作流中。还有其他的HTML抓取包我应该调查吗？我听说过基于Python的名为“Scrapy”和“Beautiful”<em

浏览 0提问于2014-03-05得票数 0

回答已采纳

2回答

使用scrapy提取大量登录页面的原始html内容

python、scrapy、web-crawler

对于一个分类项目，我需要大约1000个网站的原始html内容。我只需要登录页面，而不是更多，所以爬虫不必遵循链接！我想为它使用scrapy，但我无法获得代码。因为我在文档中读到JSON文件首先存储在内存中，然后保存(这会在抓取大量页面时导致问题)，所以我想以“.js”格式保存文件。我使用Anaconda提示来执行我的代码。我希望生成的文件有两列，一列是域名，另一列是每个站点上的raw_html内容 domain, html_raw

浏览 10提问于2019-02-12得票数 0

回答已采纳

1回答

如何在不更换遥控器的情况下删除本地历史存储库？

git、git-extensions

我使用Git扩展来管理本地存储库(远程存储在Microsoft TFS服务器中)。当您最初将存储库克隆到本地计算机时，您可以选择不下载该存储库的整个历史记录，这节省了大量空间。然而，随着时间的推移，每次提交都会在您的本地计算机中不断累积，从而占用大量空间。如何从本地存储库中清除提交的历史记录，而不影响远程存储库？

浏览 50提问于2019-05-10得票数 0

1回答

两个抓取蜘蛛的例子，一个有内存泄漏，我找不到它

python、parsing、scrapy、bots

下面是我写的两只蜘蛛的例子。顶部有一个内存泄漏，导致内存缓慢扩展，直到其满。from wordscrape.items import WordScrapeItem from scrapy.

浏览 2提问于2015-01-14得票数 0

回答已采纳

1回答

如何在Windows 10下在Visual代码中打开的终端中安装和使用Scrapy？

python、powershell、visual-studio-code、scrapy、window

在具有提示PS C:\Rolf\py_scripts的终端窗口中，我已运行我得到消息成功安装了Automat-20.2.0 PyDispatcher-2.0.5.因此，我猜想，这批狮子是成功的，但是失败的消息“命令刮刮是未知的。”我已经看到，在我的计算机的硬盘上有一个"scrapy.exe“，我认为路径中

浏览 2提问于2022-05-06得票数 0

1回答

云上的Scrapy

python、cloud、scrapy

我在想，是否有这样的可能性，而不是通过大量代理使用scrapy来使用来自多个服务器的scrapy…例如云计算。有人试过了吗？

浏览 1提问于2012-05-13得票数 2

回答已采纳

1回答

Python包括子目录中的Scrapy

python、import、scrapy

我想知道是否有一种方法可以将Scrapy放入子目录并导入它。我用BeautifulSoup完成了这个操作，而不是安装它，而是将bs4目录放到我的应用程序的目录中，然后导入它：在我从scrapy.org下载的源代码中，没有scrapy.py，所以我尝试导入这还回了一大堆错误。_monkeypatches File "C:\Users\Kat\Desktop\

浏览 2提问于2016-01-02得票数 1

回答已采纳

1回答

抓取大容量插入

mysql、scrapy

我有一个爬虫，从多个网站获取数据，并更新到mysql表的信息。我使用scrapy编写的crawler.The爬虫将插入/更新大量的列。是否可以批量插入/更新scrapy中的项目？

浏览 0提问于2015-02-07得票数 0

点击加载更多