如何动态定义scrapy项

、

我想把这个类传递给scrapy Itemloader。我知道这个类是错的，但是怎么做呢？class DummyItem(scrapy.Item): self.num = num self.num = scrapy.Field()

浏览 9提问于2019-04-15得票数 0

1回答

scrapy可以产生不同种类的物品吗？

、

我有两种物品： id = scrapy.Field() image_paths=scrapy.Field() #...other fields movie_

浏览 1提问于2016-08-30得票数 0

回答已采纳

2回答

如何使用Scrapy从动态加载的网站(Fincaraiz)中刮取链接

、

我想了解如何使用Python中的Scrapy从下面的页面提取数据 https://fincaraiz.com.co/inmueble/apartamento-en-arriendo/florida-blanca/bogota/6738284问题这个页面动态加载内容，所以当我从Scrapy发出请求时，我得到的结果是HTML所以我不能应用XPath，因

浏览 18提问于2022-02-18得票数 0

1回答

如何在使用无限滚动加载的页面中刮取完整列表，每次请求的URL是相同的

、、、

如何从https://www.baincapital.com/people中提取出所有的名字。我已经找出了我的选择器等，但它只是返回最初可见的信息。任何帮助都将不胜感激。到目前为止我的代码是：from scrapy_splash import SplashRequest

浏览 2提问于2020-02-05得票数 0

回答已采纳

2回答

刮伤xpath不捕获标记

、、、

在这种情况下，我想让Scrapy提取出“圆形大小”。但事实证明，Scrapy无法捕捉dl下的任何子节点。我在Scrapy中启用了Ajax，它可以捕获其他动态项。是否还有其他原因导致Scrapy的数据丢失？有人遇到过类似的问题吗？

浏览 7提问于2016-06-06得票数 0

回答已采纳

1回答

刮痕爬行器

、、、、

"Items.py“文件包含： passimport scrapy allowed_domains = ["craigslist.org

浏览 2提问于2017-09-20得票数 0

回答已采纳

1回答

哪些元数据可以实际进入scrapy.Field对象？

、、

我今天在Scrapy上复习了，并看到了下面这条线： class ScrapyPracticeItem(scrapy.Item): age = scrapy.Field我现在很困惑--有人能给我一个更好的定义元数据的定义吗？它们仅仅意味着项中数据的转

浏览 7提问于2022-07-10得票数 1

回答已采纳

2回答

为什么我在Scrapy中的输入/输出处理器不能工作？

、、

dmoz_spider.pyfrom tutorial.items import DmozItem yield itemitems.py import scrapyfrom scrapy.loader.processors impor

浏览 3提问于2016-05-16得票数 6

回答已采纳

1回答

我正在做一个练习项目，用刮擦器抓取动态加载的内容，但是我设法撞到了墙，不知道问题出在哪里。爬行器只是拒绝启动爬行过程，被卡在"Telnet控制台监听127.0.0.1:6023“部分上。09:55:19 scrapy.extensions.logstats信息:爬行0页(0页/分钟)，刮0项(0项/分钟) 2022-11-24 09:56:19 scrapy.extensions.logstats信息:爬行0页(0页/分钟)，刮0项(0项<

浏览 32提问于2022-11-24得票数 1

回答已采纳

3回答

Sqlalchemy :从Scrapy项动态创建表

、、

我在使用sqlalchemy1.1和scrapy。我目前正在使用管道将提取的数据通过sqlalchemy存储在sqllite表中。我想动态地创建一个表来容纳被刮掉的项目。IntegrityError: return itemclass Filtered_Item(scrapy.Item): value2= <em

浏览 7提问于2016-12-12得票数 8

回答已采纳

1回答

(Python/Scrapy/Splash) Spider突然开始打印空结果

、、、

系统: Windows 10，Python 2.7.15，Scrapy 1.5.1 href = scrapy.Field() eventmonth = scrapy</

浏览 3提问于2018-09-23得票数 0

回答已采纳

2回答

在scrapy项目加载器上使用正则表达式

、、、

我正在尝试弄清楚如何在scrapy项目加载器中使用regex。我曾尝试将lambda函数与split()一起使用，但得到了以下错误。无法定义拆分。您可以看到该函数在项目加载器类中被注释掉了。我要做的是删除日期之前的所有文本，包括日期项的"/“。日期项是我刚刚解析的url。如何将正则表达式与scrapy项目加载器一起使用？spider.pyfrom scrapy_spl

浏览 4提问于2018-02-20得票数 0

回答已采纳

1回答

逐列输出数据，我想逐行刮擦。这怎么可能呢？

、、、

下面是蜘蛛的代码和图片如下所示： rows=response.xpath('//*[@id="table-timetable"]/table/tbody') for row in rows: item['Day'] = row.xpath('.//tr/th/strong/text()').extract() item['

浏览 5提问于2016-11-03得票数 0

回答已采纳

1回答

Scrapy + PostgreSQL -自定义ETL的自动项目和管道(截断>插入>插入>删除)

、、、

我已经有了一些实用的蜘蛛和代码来实现我想要的，但我正在寻找关于如何更有效地为我正在进行的项目整合事情的建议。我目前的程序包括：- Current Pipeline:是否可以直接从现有数据库表中填充/定义Scrapy项，而无需手动列出列?如果您在一个蜘蛛中有多个方法(解析、parse_

浏览 6提问于2020-01-06得票数 1

回答已采纳

2回答

剪贴式项目更改列名

、、

有没有办法在csv输出中更改列名，例如，我有这样的scrapy项： import scrapy recordi = scrapy.Field我使用scrapy命令 scrapy crawl myspider -o data.csv 并且data.csv中的列名也是recordi，所以我的问题是，我可以更改列名吗?scapy.Field()是否有任何参数，我可以在其中定义列名，如果它保留r

浏览 16提问于2021-10-21得票数 1

2回答

用scrapy进行CPU密集型解析

、、、

CONCURRENT_ITEMS节将其定义为：这让我很困惑。这是否意味着发送到管道的项目是并行处理的，即。应该在蜘蛛的解析方法本身中执行这些操作，还是应该发送包含整个响应的项，并让自定义管道类通过解析响应体来填充项的字段？

浏览 4提问于2014-02-13得票数 2

回答已采纳

2回答

如何在Scrapy中抓取多个级别的页面到一个项目？

、

我发现的所有Scrapy示例都谈到了如何抓取单个页面，或者如何抓取多个级别的页面，当每个最深的页面被保存为一个独立的Item时。但我的情况有点复杂。books)----> C (Book review pages)因此，Item的定义如下所示： name = scrapy.Field()

浏览 6提问于2021-07-30得票数 1

回答已采纳

1回答

用烧瓶和刮水器进行交互式刮擦

、、、

简单地说，用户可以决定哪些项目应该报废，即项目应该被选择dynamically.Provide我有一些想法，我如何传递这些标签来设置在项目类别中要刮的项目？

浏览 1提问于2015-08-18得票数 0

回答已采纳

2回答

python导入了没有名为zope.interface的模块扭曲

、、

我安装了"scrapy“，但它给出了错误"importerror no module named zope.interface twisted".Please help me。预先感谢.

浏览 1提问于2010-12-21得票数 5

回答已采纳

2回答

将信息从Scrapy爬虫持续导出到Django应用程序数据库的最佳方法是什么？

、、、

我正在使用Scrapy框架执行抓取，虽然有一个实验性的，但我宁愿远离它，因为它是不稳定的。现在，我的计划是用Scrapy的XMLItemExporter (docs )创建爬行项的XML文件，并将这些文件作为XML (docs )使用到Django项目中。似乎没有人在网上写过这个过程，奇怪的是，在我看来，Scrapy是一个很好的框架，可以插入Django应用程序。实验DjangoItem的存在表明Scrapy + Django是一个很受欢迎的选择，因此这里有一个很好的解决方案。我非常感谢任何关于这个问题

浏览 3提问于2011-07-29得票数 6

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

scrapy可以产生不同种类的物品吗？

如何使用Scrapy从动态加载的网站(Fincaraiz)中刮取链接

如何在使用无限滚动加载的页面中刮取完整列表，每次请求的URL是相同的

刮伤xpath不捕获标记

刮痕爬行器

哪些元数据可以实际进入scrapy.Field对象？

为什么我在Scrapy中的输入/输出处理器不能工作？

吝啬的剧作家被困在Telnet控制台上监听

Sqlalchemy :从Scrapy项动态创建表

(Python/Scrapy/Splash) Spider突然开始打印空结果

在scrapy项目加载器上使用正则表达式

逐列输出数据，我想逐行刮擦。这怎么可能呢？

Scrapy + PostgreSQL -自定义ETL的自动项目和管道(截断>插入>插入>删除)

剪贴式项目更改列名

用scrapy进行CPU密集型解析

如何在Scrapy中抓取多个级别的页面到一个项目？

用烧瓶和刮水器进行交互式刮擦

python导入了没有名为zope.interface的模块扭曲

将信息从Scrapy爬虫持续导出到Django应用程序数据库的最佳方法是什么？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐