无法序列化scrapy项

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

、

当我尝试将scrapy项保存为json时，我得到了如下错误： 'course_image_urlwww.canvas.net/browse/relay/courses/extending-your-blending'} is not JSON serializable 但是，如果我从错误日志中提取出不可<

浏览 24提问于2016-07-31得票数 0

2回答

Scrapy :存储数据

、

我正在尝试遵循Scrapy教程，但我不理解的逻辑。scrapy crawl spidername -o items.json -t json scrapy crawl spidername --set FEED_URI=output.csv --set

浏览 4提问于2012-12-28得票数 14

回答已采纳

2回答

Python网络爬行和抓取

、、、、

import scrapy name = "world" 'www.world.com' for url in urls: yield

浏览 10提问于2017-06-14得票数 2

回答已采纳

1回答

项序列化器不工作。函数从未被调用

、、

我试图在项中使用序列化器属性，就像文档中的示例： print('Am I a joke to you?')return value.replace('£', '') tit

浏览 0提问于2020-11-14得票数 0

回答已采纳

1回答

如何将项转换为JSON字符串，以便将项导出到S3

、

我正在编写自己的Scrapy项目管道，以便将单个JSON文件输出到S3中。到目前为止，这是我的代码，但我无法解决如何将每个项序列化为JSON。注意:这是关于如何序列化对象的问题，而不是关于如何序列化对象的一般问题。scrapy.Item): alt = scrapy.Field() class Spide

浏览 2提问于2017-01-01得票数 1

回答已采纳

1回答

使用scrapy将带有用户附加元素的数据放入csv

、、、、

我有一个使用scrapy的运行脚本，它从表中获取数据。import scrapy as sp current_time: ex.css(NAME_SELECTOR).extract_first(), from scrapy.crawler

浏览 3提问于2019-02-22得票数 1

回答已采纳

1回答

如何序列化XML导出程序中的项列表Scrapy字段

、、、、

文档的项目出口商页面解释了这句话： class Course(scrapy.Item):

浏览 0提问于2019-07-19得票数 1

回答已采纳

1回答

用剪贴画连载小数

、

我正在跟踪这个中有关序列化程序的文档，我不确定是否缺少关于十进制序列化器的文档？我定义了一个带有像下面这样的刮伤字段的项：当scrapinhub有什么标准的方法来序列化小数吗？

浏览 1提问于2017-09-12得票数 1

回答已采纳

1回答

哪些元数据可以实际进入scrapy.Field对象？

、、

我今天在Scrapy上复习了，并看到了下面这条线： class ScrapyPracticeItem(scrapy.Item): age = scrapy.Field它

浏览 7提问于2022-07-10得票数 1

回答已采纳

1回答

如何保存使用Scrapy返回的文件？我有下面的代码，但当文件被重定向时，它无法获得文件的句柄。调试:爬行(200) (引用:0) 2020-06-06 19:15:14 scrapy.extensions.logstats信息:爬行1页(1页/分钟)，刮取0项(0条目/min) 2020-06-06 19:18:22 scrapy.extensions.logstats信息:爬行1页(0页/分钟)，刮0项(0项/分钟) 2020

浏览 5提问于2020-06-06得票数 1

1回答

如何从停止的地方重新启动蜘蛛？

、、、

当我阅读Scrapy文档时，在作业:暂停和继续爬行主题下，我使用文档中提到的命令运行爬行器，即scrapy爬行蜘蛛名称-s JOBDIR=目录路径。当我再次查看文档时，它指出“请求必须由泡菜模块序列化，以便持久性工作，因此您应该确保您的请求是可序列化的.”，在完成settings.py中的SCHEDULER_DEBUG = TRUE设置之后，我在控制台中可以看到，这就是为什么在请求没有序列化</

浏览 0提问于2018-11-29得票数 1

回答已采纳

1回答

如何将爬行器的项目附加到列表中？

、、、

我的代码如下所示：from scrapy import Requestfrom properties importPropertiesItem, ItemLoaderNameError: name 'Pr

浏览 1提问于2017-01-04得票数 0

回答已采纳

1回答

scrapy:用itemLoader填充嵌套项

、、

): comments_count=scrapy.Field() date_insert=scrapy.Field() date=scrapy.Field() title=scrapy.F

浏览 3提问于2016-12-26得票数 2

2回答

将信息从Scrapy爬虫持续导出到Django应用程序数据库的最佳方法是什么？

、、、

我正在使用Scrapy框架执行抓取，虽然有一个实验性的，但我宁愿远离它，因为它是不稳定的。现在，我的计划是用Scrapy的XMLItemExporter (docs )创建爬行项的XML文件，并将这些文件作为XML (docs )使用到Django项目中。一些令人关切的问题是：这些文件可能太大，无法读入Django的loaddata内存。似乎没有人在网上写过这个过程，奇怪的是，在我看来，Scrapy是一个很好的框架，可以插入Django应用程序。实验DjangoItem的存在表明Scrapy

浏览 3提问于2011-07-29得票数 6

1回答

如何使用psycopg2将抓取的项(或dict /命名元组)放入postgres存储过程(函数)中执行插入操作

、、、、

我正在使用scrapy对数据进行爬行，并且我使用了来自scrapy的，它有一个类似python dict的api。我不希望将存储过程签名/存储过程调用构造或insert语句中的所有字段都参数化。第一个是postgres中的create table语句，第二个是使用item接口的scrapy。为了便于讨论，让我们考虑一个具有相应scrapy类型的用户表CREATE TABLE( name character varying, id integer primary key)，并且主id在域中隐式地是唯一的任何关于插入

浏览 0提问于2012-07-13得票数 2

回答已采纳

2回答

使用Scrapy将来自多个AJAX请求的数据组合到单个项中

看起来我有以下选项(考虑到AJAX URL已经为人所知)：并发爬行AJAX，并将每个部分作为一个单独的项输出，其中包含一个共享密钥(例如源URL是否有一种方法可以在结束时获得单个项，但允许一些AJAX请求失败w/o，从而损害其余的数据？

浏览 1提问于2013-12-19得票数 1

2回答

抓取输出到json文件

、

其中包括： "myurl" $ scrapy crawl parker -o items.json 2016-05-31 16:53:55 [scrapy] INFO: Closingspider (finished) 2016-05-31 16:53:55 [scrapy<

浏览 4提问于2016-05-31得票数 0

回答已采纳

3回答

清理时安装scrapy失败

、、、、

我一直在尝试使用pip安装Scrapy，以便获得本赛季的NBA赛程和得分。在过去的6个小时里，我一直在试着安装它。我已经逐字地按照设置说明进行了操作，但仍然无法使其正常工作。任何帮助都将不胜感激。Requirement already satisfied (use --upgrade to upgrade): Scrapy in /Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/sit

浏览 0提问于2014-04-27得票数 3

2回答

刮伤xpath不捕获标记

、、、

在这种情况下，我想让Scrapy提取出“圆形大小”。但事实证明，Scrapy无法捕捉dl下的任何子节点。我在Scrapy中启用了Ajax，它可以捕获其他动态项。是否还有其他原因导致Scrapy的数据丢失？有人遇到过类似的问题吗？

浏览 7提问于2016-06-06得票数 0

回答已采纳

2回答

生成python scrapy程序后，项中的类无法识别

、

在使用'scrapy startproject tutorial/cd tutorial/scrapy genspider quotes quotes.toscrape.coom‘命令并添加解析函数和更改项后，详细代码如下：import scrapy class QuotesSpider(scrapy.Spider(url=url, callback=self.parse)

浏览 0提问于2018-10-01得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云