Python Scrapy字典项目

文章/答案/技术大牛

发布

1回答

在Scrapy中，如何使用JSON加载的项来填充新字段？

、、、

我使用scrapy Item Loaders清理HTML字符串，并将元数据转换为JSON对象。然后，我想使用该JSON中包含的信息来填充我的爬虫中的其他字段。下面是到目前为止的爬虫，它爬行最近的100个工作列表：from ..items import EthjobsScrapyItem, EthJobsLoaderclass EthioJobsSpider(scrapy.Spider): allowed_domains = [

浏览 2提问于2019-12-11得票数 0

2回答

、、、、

有没有可能制作一个Python Scrapy爬虫来抓取整个网站，创建一个字典，在一个列中包含网站中使用的每个单词，并在它旁边的列中显示每个单词的所有实例的URL？如果是，是如何实现的？我已经创建了一个爬行器(如下所示)，它列出了所有URL和每个URL处找到的所有纯文本，但是我的编程技能还不够好，无法知道如何从这里继续，使Python跳过已经抓取的数据/单词，并将其编入字典。import scrapy from scrapy.loader import Item

浏览 12提问于2020-04-28得票数 0

1回答

尝试在网站上抓取google地图api生成的动态数据，但正常抓取返回空白

、、、、

我正在使用scrapy从这个中抓取作业数据。一个作业页面看起来像。静态数据可以很容易地被scrapy抓取，但是google地图apis生成的动态数据，如“距离”和“时间”，给我带来了问题。有没有一种方法可以让我使用scrapy来获得这个由谷歌地图api生成的json输出？如果不是，那么有没有办法编写scrapy脚本来等待完整的页面加载(以便加载距离和时间值)，然后再抓取这些值？

浏览 1提问于2015-02-05得票数 0

1回答

寻找一个更好的方法来处理一个url中的所有项目

、、

我有一只蜘蛛要爬一个urls列表，就像 name = 'example.com' item['lastUpdate'] = 'success' return items 对于每个url，我需要处理项目在一起因此，我尝试将项目打包到一个容器<e

浏览 0提问于2016-10-24得票数 0

回答已采纳

1回答

Python Scrapy tutorial KeyError：‘找不到爬虫：

、

/hacks/prosum-scraper/scrapy/home/tim/.virtualenvs/proscraper/lib/python2.7/site-packagesPlease install it from <https://pypi.python.org/pypi/service_identity>./

浏览 2提问于2014-10-14得票数 6

回答已采纳

1回答

从脚本中运行Scrapy :模块未找到错误- projectname.items不是一个包

、

脚本是通过调用scrapy crawl crawler运行的。现在，通过python crawler.py调用它，我得到了以下错误： ModuleNotFoundError:没有名为“爬行器”的模块；“爬虫”不是一个包import scrapyfrom scrapy.linkextractors import LinkExtractorfrom scrap

浏览 3提问于2017-09-28得票数 1

回答已采纳

1回答

刮擦蜘蛛不返回任何信息

、、、、

我是一名学生，我正在为一个项目收集关于品牌的信息。我发现了一个名为Kit：的网站，我想为品牌而努力。它有将近500页，我用Python 3编写了一个Scrapy，它遍历每一个页面并将列表复制到字典中，但我无法计算出xpath或css来获取列表信息。这是我的items.py： creator = scrapy.Field()imp

浏览 0提问于2017-07-07得票数 3

回答已采纳

2回答

如何为Scrapy配置默认shell的全局设置

、、

我开始学习Scrapy，但在奇怪的情况下，我无法将默认shell设置为ipython。我的笔记本电脑的操作系统是Ubuntu15.10。我还安装了ipython和scrapy。根据scrapy的，我可以通过在全局配置文件中输入以下内容来更改默认的scrapy shell = ipython ~/.config/sc

浏览 5提问于2016-07-06得票数 0

1回答

我是否可以在另一个项目中引用Scrapy项目，就像c#中的多个项目引用一样？

、、、

1.创建一个新的python项目，创建一个新的.py文件；2.reference项目(甚至我也不知道怎么做)；3.在新的python文件中编写导入:从scrapy.selector导入选择器从scrapy.http导入HtmlResponse 4.

浏览 4提问于2017-10-13得票数 0

回答已采纳

1回答

“刮擦:命令找不到”，即使已经满足了要求

、、、

我试图在MacOS的Catalina版本10.15.7上创建一个带有刮刮的python刮刀。sudo pip3 install scrapy 我得到的输出我怎样才能解决这个问题？

浏览 4提问于2021-01-06得票数 0

回答已采纳

1回答

从项目目录外部运行的scrapy引发异常

、

我在下面的目录中有一个刮擦的项目“教程”项目目录结构如下所示。我想通过我的自定义python脚本runspiders.py运行这个蜘蛛。from __future__ import print_function from scrapy.crawler import CrawlerProcess from脚本从scrapy项目文件夹内运行时，蜘蛛将正确运行。C:\w

浏览 9提问于2016-12-14得票数 2

3回答

使用Scrapy创建爬行器，爬行器生成错误

、、

我刚刚在Windows32上下载了Scrapy (网络爬虫)，并且刚刚使用dos中的"scrapy-ctl.py startproject dmoz“命令创建了一个新的项目文件夹。然后，我使用以下命令创建了第一个爬行器：但它不起作用，并返回错误： Error running: scrapy-ctl.py genspider, Cannot find project settings mod

浏览 3提问于2010-05-16得票数 2

回答已采纳

2回答

如何使用crawl命令运行scrapy项目

、

我是Scrapy的新手，我正在浏览Scrapy教程。我已经能够使用windows7创建我的项目。我的scrapy安装在如下路径中： C:\Program Files\python2.7\scripts.我通过scrapy crawl项目源构建了一个名为元的项目，但当我尝试通过scrapy crawl元运行该项目时，出现了一个错误：“未知命令爬网”。我尝试在“C:\Program Files\python</e

浏览 5提问于2015-03-24得票数 1

1回答

获取AttributeError错误'str‘对象没有属性'get’

、、

builtin_function_or_method‘对象不是可订阅的# -*- coding: utf-8 -*- name = 'main' start_urls = ['https://experts.expcloud.com

浏览 0提问于2020-07-17得票数 0

回答已采纳

1回答

用Anaconda运行抓取蜘蛛

、、、

我正在努力完成在以下网站上找到的教程：文件"//anaconda/lib/python2.7/site-packages/scrapy/spiderloader.py"，第43行，在load KeyError(“蜘蛛未找到：{}".format(spider_name)) KeyError：‘

浏览 5提问于2016-10-06得票数 2

回答已采纳

1回答

在scrapy中抓取特定项目的所有页面

、

continue 每个项目的数据通过另一个函数存储avg_returns'] = numpy.average(returns_pages) yield item 我的问题是，如何编译来自多个页面的单个项目的返回

浏览 0提问于2015-05-25得票数 2

1回答

哪些元数据可以实际进入scrapy.Field对象？

、、

我今天在Scrapy上复习了，并看到了下面这条线： class ScrapyPracticeItem(scrapy.Item): age = scrapy.Field

浏览 7提问于2022-07-10得票数 1

回答已采纳

2回答

如何修复anaconda中的“启动器致命错误:无法使用path/scrapy.exe创建进程”？

、、、

我正在尝试在Windows 10上安装scrapy， Fatal error in launcher: Unable to create process using '"c:\bld\scrapy_1564100571450\_h_env\python.exe" "C:\U

浏览 1提问于2019-08-01得票数 6

3回答

刮除:从列表中删除行提要/n

、

考虑到抓取/python甚至编程，我是一个绝对的新手，但我需要学习和理解它。我创建了一个小蜘蛛，它爬行一个网站，并从网站中提取一些信息，并将其聚合到一个csv文件中。这是蜘蛛：class QuotesSpider(scrapy.Spider): allowed_domains = ['norisbank.defor next_page in all_pages : next_page = respo

浏览 1提问于2020-07-09得票数 0

回答已采纳

2回答

Scrapy 1.1.0 -无活动项目

、、

我是Python的新手，在eclipse中使用PyDev成功安装了Scrapy。当我运行该程序时，它显示如下所示(如图所示)我正在运行这段代码： name = "dmozallowed_domains = ["dmoz.org"] "http://www.dmoz.org/Compute

浏览 1提问于2016-06-27得票数 7

点击加载更多

在Scrapy中，如何使用JSON加载的项来填充新字段？