Scrapy连接不同的物品以获得收益

Scrapy是一个开源的Python框架，用于爬取网页数据。它提供了一种简单且灵活的方式来连接不同的物品以获得收益，即通过网络爬虫技术从互联网上获取数据，并进行相应的处理和分析。

Scrapy的主要特点包括：

高效性：Scrapy采用异步的方式进行数据爬取，能够同时处理多个请求，提高爬取效率。
可扩展性：Scrapy提供了丰富的扩展接口和插件机制，可以根据需求定制开发，满足不同场景的需求。
灵活性：Scrapy支持多种数据解析方式，如XPath、CSS选择器等，可以根据网页结构灵活提取所需数据。
自动化：Scrapy提供了自动化的机制，可以自动处理网页跳转、表单提交等操作，简化爬虫开发流程。
调度与优先级：Scrapy具备强大的调度器，可以根据需求设置请求的优先级，灵活控制爬取顺序。
分布式支持：Scrapy可以通过分布式部署，实现多台机器同时进行数据爬取，提高爬取效率和稳定性。

Scrapy的应用场景包括但不限于：

数据采集与分析：通过Scrapy可以方便地从各类网站上获取数据，并进行相应的处理和分析，如舆情监测、商品价格比较、新闻资讯聚合等。
搜索引擎：Scrapy可以用于构建搜索引擎的爬虫部分，从互联网上抓取网页内容，建立搜索引擎的索引库。
数据监控与更新：通过定时运行Scrapy爬虫，可以实现对特定网站数据的监控和更新，如股票行情、天气预报等。
网络安全：Scrapy可以用于网络安全领域，通过爬取恶意网站的内容，进行分析和检测，提升网络安全性。

腾讯云提供了一系列与Scrapy相关的产品和服务，包括：

云服务器（ECS）：提供弹性的云服务器实例，用于部署Scrapy爬虫程序。
云数据库（CDB）：提供高可用、可扩展的云数据库服务，用于存储和管理爬取的数据。
云监控（Cloud Monitor）：提供实时的监控和报警服务，用于监控Scrapy爬虫的运行状态和性能指标。
对象存储（COS）：提供安全、稳定的对象存储服务，用于存储爬取的图片、文件等非结构化数据。
弹性容器实例（Elastic Container Instance）：提供轻量级、弹性的容器实例服务，用于部署和运行Scrapy爬虫。

更多关于腾讯云相关产品和服务的介绍，请访问腾讯云官方网站：https://cloud.tencent.com/

获取python scrapy中的文本

、、

我从一个网站上得到这段代码： import scrapy class BrickSetSpider(scrapy.Spider): name = "brickset_spider" start_urls = ['http://brickset.com/sets/year-2016'] def parse(self, response): SET_SELECTOR = '.set' for brickset in response.css(SET_SELECTOR):

浏览 13提问于2017-07-06得票数 1

回答已采纳

1回答

抓取蜘蛛不会释放项目内存

、、、

我正在使用scrapy从不同的来源提取一些数据，它工作得非常好，但现在我已经编写了一个爬虫来从一个大的XML文件(大约100MB => 40000项)中提取数据。我使用的是scrapy 。问题是scrapy使用了很多内存(1 1GB或更多)，我不知道为什么它不释放我的项目使用的内存。当我使用scrapy的trackrefs工具(通过telnet连接到我的爬行器)时，我得到以下输出： >>> prefs() Libxml2Document 2 oldest: 160s ago CustomName

浏览 0提问于2012-04-05得票数 0

4回答

我有一个安全协议的想法！

、、

好吧，伙计们，昨天我在看“盗梦空间”的时候，我有了这个想法。我真的不太了解网络安全和互联网。所以这就是你们要做的，告诉我这是不是安全的，或者甚至是通过possible.Its在网络上发送安全的数据。我的想法是获取需要发送的数据并对其进行加密。然后，数据被分成几个小比特，并在多个套接字或连接中发送到接收器。然后发送包含加密密钥的最终分组。一旦接收者获得了信息，他就可以组装数据，然后解密它。我的想法是，如果有人试图收集正在发送的数据包，如果他只获得部分数据，那么它就变得无用了。那么，这是一种甚至是安全的，还是以前就这样做过呢？

浏览 0提问于2010-08-08得票数 2

回答已采纳

1回答

抓取网页，但不刮项目

、、、

这是我的蜘蛛 from scrapy import Selector from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors import LinkExtractor from Diplom.items import QuestionItem class ConsultSpider(CrawlSpider): name = "consultation" allowed_domains = ['health.mail.ru'] start_urls

浏览 1提问于2018-04-12得票数 0

回答已采纳

1回答

一个蜘蛛能处理多个项目和多个管道吗？

、、

scrapy.There的新鲜事物让我感到困惑:蜘蛛、管道和物品之间有什么关系？ 1.一个管道应该只处理一个特定的项目还是可以处理多个项目？ 2.如何使用一个蜘蛛来爬行多个项目，或者我应该使用一个蜘蛛来爬行一个项目？

浏览 3提问于2015-05-26得票数 1

1回答

刮伤不回我要找的短信

、

如果我不把这个寄到这里的话.但我们开始了。只是想尝试一些新的东西，并尝试和刮标题的产品和价格从这个网站。需要一些帮助，为什么我得到多个标题名称，为什么我不能得到的价格为我工作。 # -*- coding: utf-8 -*- import scrapy class SpidervenderSpider(scrapy.Spider): name = 'spidervender' allowed_domains = ['www.woolworths.com.au/shop/productdetails/306165/red-bul

浏览 4提问于2020-04-23得票数 0

回答已采纳

1回答

Scrapy返回200和图像URL，但不保存图像文件

、

如何保存文件？创建了文件夹，但没有保存任何数据。我已经检查了几个网上帖子征求意见，但无法解决这个问题。为什么未将URL传递给项加载程序？读文档 import scrapy from matsuscrapy2.items import ImageItem class Matsuscrape22Spider(scrapy.Spider): name = 'matsuscrape22' start_urls = ['https://www.matsukiyo.co.jp/store/online/p/4902102113632'

浏览 2提问于2021-06-27得票数 0

1回答

scrapy可以产生不同种类的物品吗？

、

我有两种物品： class MovieItem(scrapy.Item): id = scrapy.Field() image_urls=scrapy.Field() image_paths =scrapy.Field() torrents = scrapy.Field() #...other fields class TorrentItem(scrapy.Item): id = scrapy.Field() movie_id = scrapy.Field() image_urls=scrapy.Field() ima

浏览 1提问于2016-08-30得票数 0

回答已采纳

1回答

我试图通过抓取和获取代码中的错误从网站的链接中提取数据

、、

我试图从一个网站的链接中提取数据。我要走的路是：主页 -links -links 要提取的数据(基本上，我试图提取所有名人的birth_details ) 我的代码如下： import scrapy class celebritiesItem(scrapy.Item): Name = scrapy.Field() Profession = scrapy.Field() Died_On = scrapy.Field() Birth_Place = scrapy.Field()

浏览 1提问于2017-05-08得票数 0

回答已采纳

2回答

scrapy无法进行Request()回调

、

我试着用Scrapy做递归解析脚本，但是Request()函数没有调用回调函数Scrapy，也没有回调suppose_to_parse()中提供的任何函数。我尝试了不同的变体，但它们都不起作用。去哪里挖？ from scrapy.http import Request from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector class joomler(BaseSpider): name = "scrapy" allowed_domains = [&

浏览 0提问于2013-03-23得票数 3

回答已采纳

1回答

刮擦:蜘蛛不产生item_信号

、

Python 2.7.6.2在Windows 7上使用二进制WinPython-32bit-2.7.6.2、Scrapy 0.22.0、Eclipse 4.2.1和Twisted-13.2.0.win32-py2.7反应堆我在学刮痕。我让它做所有事情，除了正确调用pipelines.process_item()。它正在调用pipelines.open_spider()和pipelines.close_spider() OK。我认为这是因为蜘蛛没有生成任何“项”信号(不是item_passed、item_dropped或item_scraped)。我添加了一些代码来尝试捕获这些信号，而当我

浏览 3提问于2014-02-27得票数 2

回答已采纳

1回答

Scrapy输出空的JSON / CSV文件

、

我对scrapy和python非常陌生，真的需要一些帮助。我已经让这段代码在命令行中工作了。我可以看到它在浏览不同的页面时提取了所有正确的信息。我的问题是，当我试图将脚本的输出保存到一个文件中时，它是空的。我已经在这里看了很多其他问题，但找不到任何有帮助的东西。以下是代码 import scrapy from urlparse import urljoin class Aberdeenlocations1Spider(scrapy.Spider): name = "aberdeenlocations2" start_urls = [ &

浏览 49提问于2020-04-30得票数 0

回答已采纳

1回答

如何利用Scrapy和Selenium从亚马逊网站上提取产品信息？

、、

我想用Scrapy和Selenium从亚马逊网站上提取产品的信息。下面的源代码连接到Amazon网站，然后通过字母"A“进行搜索。然后恢复搜索结果集的链接。但是，当我循环到每个搜索结果时，什么都不会发生(它只是连接到第一个结果)。谢谢你帮我更正这段代码。源代码“蜘蛛” from scrapy.contrib.spiders import CrawlSpider from selenium import webdriver from selenium.webdriver.support.select import Select from time im

浏览 3提问于2015-07-20得票数 0

2回答

Scrapy-Redis中的Dupefilter没有按预期工作。

、、

我感兴趣的是使用来存储在Redis中刮过的物品。特别是，似乎是一个有用的特性。首先，我在上对蜘蛛进行了如下调整： import scrapy from tutorial.items import QuoteItem class QuotesSpider(scrapy.Spider): name = "quotes" start_urls = [ 'http://quotes.toscrape.com/page/1/', 'http://quotes.toscrape.com/page/2/',

浏览 25提问于2017-05-04得票数 1

回答已采纳

1回答

简单抓取爬行器不跟随链接&刮擦

、、

基本上问题是在下面的链接我从第1页.2.3.4.5.总共90页每一页都有大约100个链接。每一页都采用这种格式。 http://www.consumercomplaints.in/lastcompanieslist/page/1 http://www.consumercomplaints.in/lastcompanieslist/page/2 http://www.consumercomplaints.in/lastcompanieslist/page/3 http://www.consumercomplaints.in/lastcompanieslist/page/4 这是正则匹配规则

浏览 1提问于2015-07-21得票数 1

回答已采纳

1回答

如何知道我从Apple购买中得到的确切金额

、、、

我在我的应用程序里销售产品，解锁我的服务器上的物品。一旦购买完成，我的服务器需要将购进的钱分发给不同的方。我在iTunes连接上输入的帐户是一个EUR帐户，因此一切都将转换为EUR (据我所了解)。有没有办法让我知道我将收到的银行账户的确切金额(例如从收据)，这样我就可以正确地分配钱，还是苹果公司只是在付款时进行货币兑换？

浏览 0提问于2019-01-30得票数 1

回答已采纳

2回答

刮取:在满足条件时如何在start_urls中爬行下一个url

、、

是否有任何方法来停止当前url的爬行，并在满足给定条件时跳转和爬行start_urls中的下一个url。在这里，我用预定义的日期测试页面中的日期。当符合条件时，我不想再爬网址了。编辑我的代码如下， class MarketSpider(scrapy.Spider): name = 'test' allowed_domains = ['example.com'] start_urls = [] date_limit = datetime.strptime('07/01/2019', '%m/%d,/%Y&#

浏览 0提问于2019-07-28得票数 1

1回答

运行Scrapy是在控制台中运行结果，但CSV输出仍为空白。

、、

我对刮刮很陌生，所以我很难找出我做错了什么，以防csv文件中没有结果。不过，我可以在控制台中看到结果。以下是我尝试过的：主文件夹名为"realyp“。蜘蛛文件名为"yp.py“，代码： from scrapy.selector import Selector from scrapy.spider import BaseSpider from realyp.items import RealypItem class MySpider(BaseSpider): name="YellowPage" allowed_domains=["y

浏览 4提问于2017-04-01得票数 1

回答已采纳

1回答

刮擦-如何检查蜘蛛是否运行

、、、

我有一个Scrapy蜘蛛，我使用bash脚本和crontab每小时运行一次。蜘蛛的运行时间约为50分钟，但可能超过小时。我想要的是检查蜘蛛是否在运行，如果没有，就开始新的爬行。 BASH脚本 #!/usr/bin/env bash source /home/milano/.virtualenvs/keywords_search/bin/activate cd /home/milano/PycharmProjects/keywords_search/bot # HERE I WANT TO CHECK, WHETHER THE PREVIOUS CRAWLING ALREADY STOP

浏览 1提问于2018-02-21得票数 3

1回答

将python数据导出到csv文件

、、、

我试图通过命令行导出我的文件： scrapy crawl tunisaianet -o save.csv -t csv 但什么都没发生，有帮助吗？这里是我的代码： import scrapy import csv from tfaw.items import TfawItem class TunisianetSpider(scrapy.Spider): name = "tunisianet" allowed_domains = ["tunisianet.com.tn"] start_urls = [ 'htt

浏览 1提问于2016-04-29得票数 0

2回答

爬行抓取/巨蟒的联系人信息提取

、、、

总的来说，我对抓取和巨蟒非常陌生，但我真的很想学习，我已经付出了很大的努力！我试图抓取eb5info.com，选择每个地区中心，并复制电话号码和电子邮件从每一个。然而，当我爬它通知我，0网站被抓取。任何帮助都是非常感谢的！这是我的蜘蛛 from scrapy.item import Item, Field class Eb5Item(Item): description = Field() from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml import

浏览 2提问于2014-10-30得票数 2

回答已采纳

2回答

多个背包，其中的物品不能重复使用，对不同的背包具有不同的价值

、

我遇到了一个问题：有多个背包有一组固定的项目，你可以说是SuperSet 每个背包都有一个物品的specific subset 一个物品只能放在一个背包里，不能重复使用。每个项目对于不同的背包都有不同的价值。每件物品的重量相同，但价值因背包而异。现在，我需要以我最后的背包总数最高的方式分发物品。其他一些细节：我是个程序员，而不是作家，所以请原谅我不知道一些细节语言:任意(更喜欢C#) 我只需要一个解决我的情况的特定的algo，我会自己写代码目前，另一种方法是The Multiple Subset Sum Problem with

浏览 4提问于2016-06-26得票数 0

1回答

在scrapy中连接爬行器

、、

我想在Scrapy中连接多个爬虫，这样一个蜘蛛的输出就可以供给另一个蜘蛛。我知道Scrapy用于连接解析函数和使用请求的Meta参数来通信项的方式。 class MySpider(scrapy.Spider): start_urls = [url1] def parse(self, response): # parse code and item generated yield scrapy.Request(url2, call_back=self.parse2, meta={'item': item}) def par

浏览 5提问于2016-05-13得票数 0

3回答

使用第一个URL的结果刮取多个URL

、、

我使用Scrapy从第一个URL中抓取数据。第一个URL返回一个响应，其中包含一个URL列表。到目前为止对我来说还可以。我的问题是我如何进一步刮掉这个URL列表？搜索之后，我知道我可以在解析中返回一个请求，但似乎只能处理一个URL。这是我的解析： def parse(self, response): # Get the list of URLs, for example: list = ["http://a.com", "http://b.com", "http://c.com"] return sc

浏览 3提问于2015-03-11得票数 1

回答已采纳

1回答

刮除蜘蛛没有跟随到另一个页面的链接

、

我引用了这个，它用于获取第一页上的数据，以及随后的链接。但是，在我的示例中，在单击清单链接之前，我试图检查清单是否有3内容：项目必须有业务名称物品必须有电话号码物品必须有一个网站如果是这样的话，我希望scrapy点击业务链接到业务配置文件，在那里我可以检索电子邮件。在此之后，我希望scrapy返回到主页，并在该页面上的其余19个列表中重复这个过程。然而，它输出了如下所示的重复列表： service_name = input("Input Industry: ") city = input("Input The City: &#

浏览 0提问于2018-03-08得票数 0

回答已采纳

1回答

如何将这些信息解析成单独的项目？

、、、

我已经刮了以下信息从一个网页使用以下刮除蜘蛛。如何将此信息转换为单独的项目，即一个项目应该包括名称、大小、链接、扩展、月份和年份。下面是蜘蛛的代码： import scrapy from scrapy.crawler import CrawlerProcess class MapSpider(scrapy.Spider): name = 'map' allowed_domains = ['map.gob.do'] def start_requests(self): start_urls = [

浏览 4提问于2021-01-03得票数 0

回答已采纳

1回答

Scrapy -如何定义csv导出的结构(列等)

、

我是很新的刮刮，我要弄清楚如何设置一个csv出口的结构。我在下面的示例中有2种数据刮除: ids和链接下面是我使用的简单代码： class MybotSpider(scrapy.Spider): name = 'mybot' start_urls = ['url'] def parse(self, response): all_dataids = response.css('li::attr(data-id)').extract() all_links = response.xpath(

浏览 1提问于2019-05-21得票数 2

回答已采纳

1回答

如何通过Scrapy把Metrics送到普罗米修斯？

、、、、

我是普罗米修斯的新手。我也需要将刮过的物品的数量发送到Prometheus，并在Grafana中的图表上显示它们。我安装了、和。在“刮伤”设置中添加 STATS_CLASS = 'scrapy_prometheus.PrometheusStatsCollector' # Prometheus pushgateway host PROMETHEUS_PUSHGATEWAY = 'http://0.0.0.0:9090' # Metric name prefix PROMETHEUS_METRIC_PREFIX = 'scrapy_prometh

浏览 0提问于2019-01-11得票数 0

回答已采纳

2回答

从其他资源下载HTML，并且不使用scrapy

、、

我在scrapy项目的spiders目录中创建了以下文件。我面临的问题是middlewares.py内部的函数，即process_request和process_response没有被调用。这可能是什么原因呢？ import scrapy class QuotesSpider(scrapy.Spider): name = "quotes" def start_requests(self): urls = [ 'https://liv.ai/' ] for url in u

浏览 2提问于2019-11-11得票数 0

1回答

刮擦附加键:值对到另一个键

、、、

我试图废除以下地图坐标，并将坐标作为var Data = {lat: 45.000000，long : 68.00000} 我可以将上面的数据项“long”：68.0000和“lat”：45.0000分别作为单独的项。现在，我如何按照mongodb的要求将它们放入一个新的密钥'loc‘ loc:{ long : 68.000000，' lat ':45.0000} (我首先需要long，然后是lat值，这样我就可以将刮到的数据放入mongodb中)。大家好这是我的物品档案： class Citylist(scrapy.Item): lng = scrapy

浏览 3提问于2014-08-09得票数 2

回答已采纳

4回答

刮掉的csv文件有统一的空行吗？

、

这是蜘蛛： import scrapy from danmurphys.items import DanmurphysItem class MySpider(scrapy.Spider): name = 'danmurphys' allowed_domains = ['danmurphys.com.au'] start_urls = ['https://www.danmurphys.com.au/dm/navigation/navigation_results_gallery.jsp?params=fh_location%3D%

浏览 8提问于2016-09-13得票数 6

回答已采纳

2回答

Scrapy文件在运行后没有输出，但选择器在scrapy shell中工作

、

我已经创建了一个爬虫，当我在scrapy shell上运行response.css时，但当我运行爬虫时，它没有给出o/p。以下是我的代码： > import scrapy class tapo(scrapy.Spider): > name="mapit" > start_urls=["https://www.tapology.com/fightcenter?schedule=results"] > def event_parse(self,response): > event_li

浏览 51提问于2020-12-15得票数 0

2回答

Python在约束下查找max

、、、

我正在自学python，我无法找到解决特定问题的正确方法：我得到x $。我可以购买一个不同的项目清单，每个项目有一定的价格(成本)，并提供一个特定的增益(增益)，我想得到最大的收益，为x $。每项只有一项。让我们说： dollars = 10 cost = [5, 4, 1, 10] gain = [7, 6, 4, 12] 这里=>的最大增益是17 用一个天真的解决方案，基于置换，我设法找到了一个解决方案时，项目的数目是低的。但是当物品数量增加时，时间就会增加，计算机就会崩溃。有一个典型的算法来解决这类pb吗？

浏览 3提问于2021-07-03得票数 0

回答已采纳

1回答

刮除内容，但在shell中工作。

、、

我试图用Scrapy 0.22报废物品，当我称它为"scrapy crawl events_cinema“时，这段代码不起作用--它显示了技术信息，没有刮过的内容(抓取0页.等)。问题是，当我在scrapy中测试xpath时，我的意思是"sel.xpath("//a[@class='title_link']/text()").extract()"显示了正确的结果。我对其他网站也采用了同样的方法，但在这里我找不出哪里出了问题。 from scrapy.spider import Spider from scrapy.selector i

浏览 0提问于2014-02-14得票数 0

回答已采纳

1回答

如何使用Scrapy返回多个项目？

、

我在试着学习刮伤的基础知识。我写了下面的蜘蛛来刮一个练习网站，。蜘蛛抓取站点，当我告诉它print标题和价格时，它会为站点上的每一本书返回它们，但是当我使用yield时，它只返回站点上最后一本书的信息。毫无疑问，我的错误很简单，但我想不出是什么。有人能告诉我为什么这只会在网站上刮到最终的标题和价格列表吗？谢谢! import scrapy class FirstSpider(scrapy.Spider): name="CW" start_urls = ['http://books.toscrape.com/'] def parse(self,respo

浏览 3提问于2020-08-27得票数 0

回答已采纳

1回答

从剪贴画中提取.json文件到精确的格式，以便与Tipue搜索一起使用

、、、

我只是Python和Scrapy的新手，所以请耐心听我说。我正在我的网站中使用Tipuesearch，我需要从Scrapy中提取某些.json格式的抓取数据来进行搜索。json文件应如下所示： {"pages": [ {"title": "x", "text": "x", "tags": "x", "url": "x"}, {"title": "x", "text": "x"

浏览 0提问于2018-04-03得票数 1

2回答

SQL:具有多个类别的产品

、

Wich是存储每个产品多个类别(至少3个)的最佳数据库设计和性能吗？产品表可以有上百万的物品。有两个表，products和category_id( product_id和category_id存储在哪里)？选择既分配给第1类又分配给第2类的产品又如何？选择IN()将选择1或2 2每个products_relationship内部连接听起来不太好。

浏览 1提问于2013-11-28得票数 2

回答已采纳

1回答

为什么Scrapy不返回函数的值？

、、

代码： import scrapy from scrapy.spiders import CrawlSpider from scrapy import Request class TestSpider(CrawlSpider): name = "test_spyder" allowed_domains = ["stackoverflow.com"] start_urls = ['https://stackoverflow.com/tags'] def parse(self, response): title_1 =

浏览 1提问于2019-01-26得票数 0

回答已采纳

1回答

当解析url时，scrapy选择器返回空，在解析保存的url时返回ok。

、、、

我试着使用刮除选择器从网络上抓取数据表，但是得到了一个空数组。有趣的是，当我试图保存该文件并对其进行刮除时，我得到了预期的数组(非空)。有关Scrapy版本、选择器命令和预期响应的信息可以在下面找到。刮伤版 Scrapy : 0.18.2 lxml : 3.2.3.0 libxml2 : 2.9.0 Twisted : 13.1.0 Python : 2.7.5 (default, May 15 2013, 22:44:16) [MSC v.1500 64 bit (AMD64)] Platform: Windows-8-6.2.9200 选择器 hxs.select('/

浏览 2提问于2013-09-23得票数 1

2回答

Scrapy:无法以正确的格式获取输出文件

、、

我将输出作为连续数据以行形式显示，而不是以正确的记录格式显示(每行一条记录)。 import scrapy from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors import LinkExtractor class famousPeopleItem(scrapy.Item): # define the fields for your item here like: Name = scrapy.Field() Profession = scrapy.Field

浏览 5提问于2017-05-10得票数 0

回答已采纳

1回答

从一个简单的站点提取urls

我试图从一个基本站点( vapedonia.com )中提取基本数据。这是一个简单的电子商务网站，我很容易做到“重新发明轮子”(主要是在一个大的html字符串上工作)，但是当我不得不在这个叫做刮痕的模型中工作时，它就是不起作用。我首先分析html代码并使用插件创建xpath表达式。在这个插件中，一切都很好，但是当我创建我的代码时(甚至当我使用这个破壳时)，它就不能工作了。下面是代码： from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector class MySpider(BaseS

浏览 2提问于2017-09-17得票数 1

回答已采纳

2回答

Scrapy不是提取数据，css选择器是正确的。

、

这是我的第一个刮刀，我有点麻烦。首先，我创建了我的css选择器，它们在使用scrapy时工作。当我运行我的蜘蛛时，它只返回以下内容 2017-10-26 14:48:49 [scrapy.utils.log] INFO: Scrapy 1.4.0 started (bot: digikey) 2017-10-26 14:48:49 [scrapy.utils.log] INFO: Overridden settings: {'BOT_NAME': 'digikey', 'CONCURRENT_REQUESTS': 1, 'NEW SPID

浏览 3提问于2017-10-26得票数 0

回答已采纳

1回答

如何列出使用Scrapy从页面中抓取数据的URL？

我是一个真正的初学者，但我一直在到处寻找，似乎找不到解决办法。我正在构建一些蜘蛛，但我不知道如何识别我所抓取的数据来自哪个URL。我的蜘蛛现在是非常基本的，我正在努力学习。我尝试过在堆栈溢出中找到的几行代码，但是除了打印函数之外，什么都不能工作(我不记得是"URL：“+ response.request.url还是类似的。我尝试了一堆在代码的解析部分工作的东西，但是我无法在结果中得到任何有用的东西。我可以在输出中添加其他标识符，但理想情况下，我希望得到我正在开发的项目的URL import scrapy class FanaticsSpider(scrapy.Spider):

浏览 1提问于2019-07-16得票数 1

回答已采纳

2回答

合并具有相同pcode并计数为1的项

、

我的问题是如何依靠购物车中的物品数量来确定卖出了多少不同的物品。比方说吧在我的表“销售”中有这个ff值。 id | p_code | p_name | qty | 1 | 1553 | 33uf | 2 | 2 | 1553 | 33uf | 3 | 3 | 8812 | ic | 1 | 预期的输出必须是这样的。 " the number(s) of item sold : 2 " 为什么是2？这是因为id 1和2是相同的乘积，所以它算作1。而id 3和其他的2不同，所以它也算作1，这也是我们得到答案2的原因。我的想法是总结

浏览 3提问于2013-09-21得票数 0

回答已采纳

1回答

引入100 of内存错误的XML提要

、、、、

我正在使用scrapy在Amazon实例上刮取一个100 an的EC2提要。然而，我被困住了，因为当它运行时，它会谈到内存错误。我正在使用的编码器建议将100 to文件分解成更易于管理的块，但我确信一定有更好的方法来实现这一点。日志： File "/usr/local/lib/python2.7/dist-packages/scrapy/utils/iterators.py", line 22, in xmliter text = body_or_str(obj) File "/usr/local/lib/python2.7/dist-pa

浏览 1提问于2013-08-08得票数 2

回答已采纳

1回答

运行scrapy作为脚本

、、

我试图用splash运行一个刮擦脚本，因为我想刮一个基于javascript的网页，但是没有结果。当我使用python命令执行这个脚本时，会得到以下错误：crochet._eventloop.TimeoutError。此外，解析方法中的print语句从未打印过，因此我认为SplashRequest有问题。为了实现这一点，我编写的代码是： import logging import scrapy from scrapy import signals from scrapy.crawler import CrawlerRunner from scrapy.item import Item, Fi

浏览 7提问于2022-02-24得票数 0

回答已采纳

1回答

导入cx_oracle存在的问题

、、、

我有一个Python项目(运行在Ubuntu12.04上)，它使用cx_Oracle (在虚拟环境中)。当我运行这个项目时，导入这个模块没有问题。现在我想使用主管来控制我的项目。当我从主管处启动项目时，启动崩溃并引发此异常： File "/home/vagrant/scrapy/local/lib/python2.7/site-packages/gunicorn/arbiter.py", line 578, in spawn_worker worker.init_process() File "/home/vagrant/scrapy/local/lib/p

浏览 4提问于2017-04-27得票数 0

回答已采纳

1回答

刮掉的蜘蛛不会在启动urls上爬行

、、

我是全新的拼搏，并通过本教程我的工作方式，并试图找出如何实现到目前为止，我已经学到的，以完成一项看似基本的任务。到目前为止，我对python还知之甚少，并将其作为一种学习经验，所以如果我问一个简单的问题，我很抱歉。我的目标是这个程序是遵循这个链接和提取井序列号到一个csv文件。最后，我想在几千个不同的井文件上运行这个蜘蛛，并检索特定的数据。然而，我首先从基础开始。现在蜘蛛不会在我输入的任何网页上爬行。当我运行它时，代码中没有列出错误，它只是声明了0页被爬行。我不知道我做错了什么。我确定启动url是好的，因为我已经检查过了。我需要一种特定类型的蜘蛛来完成我想要做的事情吗？ import sc

浏览 0提问于2015-07-28得票数 0

回答已采纳

1回答

抓取项只保存循环中的最后一个元素。

、

我正在使用Scrapy库从一个网站抓取数据。我从爬行网站得到的结果，我想把它保存到数据库。我使用刮除物品和管道。我得到了一个列表，因此我需要使用for循环来保存item。但问题是列表中唯一的最后一项会被保存。我的代码如下： def parse(self, response): vehicles = [] total_results = response.css('.cl-filters-summary-counter::text').extract_first().replace('.', '') referenc

浏览 5提问于2018-06-07得票数 0

回答已采纳

1回答

在应用程序中从Google Play购买

、、、

我们有一个应用程序在谷歌播放，用户订阅。我们需要一个所有的订户名单，连同他们的帐单历史，以调节我们的付款记录。有没有办法从Google Play获得这些信息的输出？我没有看到任何用于批量下载/报告/api调用的文档。我只看到，你可以搜索谷歌播放与用户的秩序，然后你必须手动查看他们的帐单历史。我们可以从iTunes获得这些信息，但我看不到谷歌。非常感谢你的帮助。

浏览 1提问于2018-04-27得票数 0

回答已采纳