开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >问答首页 >在JSON文件中写入已处理的结果

问在JSON文件中写入已处理的结果
EN

Stack Overflow用户

提问于 2022-04-06 10:35:03

回答 1查看 46关注 0票数 1

我正在使用抓取广泛爬行，并有以下要求：

刮除会刮掉网址；
Scrapy将解析来自URL的响应，并将解析的结果写入文件中，比如file1.json，当且仅当file1.json的大小小于2GB时。否则，Scrapy将创建一个新文件，比如file2.json，并编写对这个新文件的响应；
返回响应后，Scrapy将从响应中提取URL并跟踪提取的响应。然后从第2点开始。

下面是我的代码，我能够执行步骤1&步骤3，但不知道应该把creating the new file、checking the size和writing the response的逻辑放在哪里。

def parse(self, response):

    url = response.request.url
    soup = BeautifulSoup(response.text, 'lxml')

    d = {}
    for element in soup.find_all():
        if element.name in ["html", "body", "script", "footer"]:
            pass

        else:
            x = element.find_all(text=True, recursive=False)
            if x:
                d[element.name] = x

    yield d ---------> I want to write this dictionary in a file as per logic of step 2

    for link in soup.find_all('a', href=True):
        absoluteUrl = urllib.parse.urljoin(url, link['href'])
        parsedUrl = urlparse(absoluteUrl)
        if parsedUrl.scheme.strip().lower() != 'https' and parsedUrl.scheme.strip().lower() != 'http':
            pass
        else:

            url = url.replace("'", r"\'")
            absoluteUrl = absoluteUrl.replace("'", r"\'")

            self.graph.run(
                "MERGE (child:page{page_url:'" + url + "'}) " +
                "On CREATE " +
                "SET child.page_url='" + url + "', child.page_rank = 1.0 " +
                "MERGE (parent:page{page_url:'" + absoluteUrl + "'}) " +
                "On CREATE " +
                "SET parent.page_url = '" + absoluteUrl + "' , parent.page_rank = 1.0 " +
                "MERGE (child)-[:FOLLOWS]->(parent)"
            )

            yield response.follow(absoluteUrl, callback=self.parse). ---> Step 3 ( all good )

我的问题是，应该将创建文件、检查文件大小和将蜘蛛响应写入该文件的逻辑(应该在管道、中间件或init函数中)的逻辑写在哪里？

任何帮助都将不胜感激。我试着学习中间件、管道等等，但无法理解如何实现这个功能。

云点播特惠1元起

提供三端 SDK 、云 API、控制台等多种上传方式，弱网环境下文件上传成功率达到 99.5%

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2022-04-06 19:50:00

如果您知道每个文件应该持有的项的大致数量不超过2GB的限制大小，那么就可以使用FEED_EXPORT_BATCH_ITEM_COUNT设置，当文件中的项数达到上述限制时，scrapy将自动创建新文件。在饲料页面上阅读有关此设置的更多信息。

票数 1

EN

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/71772022

复制

相关文章

R语言ggtree：将进化树中的序列id改成物种名称

image png 公众号可视化

通常我们会使用比对好的fasta文件构建进化树，fasta文件中大于号后的内容就是最终进化树上的文字标签。如果拿到进化树文件后你想替换掉其中的一些内容，那该怎么办呢？本篇推文介绍一下使用R语言的ggt

用户7010445

2021/01/20

2.7K0

R语言ggtree：将进化树中的序列id改成物种名称

脚本分享——对fasta文件中的序列进行排序和重命名

hello，hello！小伙伴们大家下午好，我是小编豆豆，时光飞逝，不知不觉来南京工作已经一年了，从2018年参加工作至今，今年是我工作最快乐的一年，遇到一群志同道合的小伙伴，使我感觉太美好了。

用户1075469

2023/01/11

5.8K1

python操作txt文件中数据教程[3]-python读取文件夹中所有txt文件并将数据转为csv文件

python https 网络安全

[1]python操作txt文件中数据教程[1]-使用python读写txt文件: https://blog.csdn.net/u013555719/article/details/84553722

演化计算与人工智能

2020/08/14

1.2K0

python操作txt文件中数据教程[2]-python提取txt文件中的行列元素

原始txt文件程序实现后结果-将txt中元素提取并保存在csv中程序实现 import csv filename = "./test/test.txt" Sum_log_file = "./te

演化计算与人工智能

2020/08/14

2.9K0

python操作txt文件中数据教程[2]-python提取txt文件中的行列元素

gffread - gtf/gff文件转fasta序列

flink 大数据

今天有一个需求，就是要将gtf中的转录本转成fasta序列，一开始是想着用bedtools getfasta实现，awk取出来坐标做成bed文件输入bedtools，但是结果发现bedtools是单纯按照坐标取出来的，也懒得自己写脚本取了，搜一下发现cufflinks中有个程序可以实现。

生信编程日常

2020/06/22

3.4K0

病原微生物扩增子数据分析实战（三）：vsearch软件鉴定物种组成

db sample width

病原微生物基因检测的两大核心任务是物种组成和功能组成的鉴定，而扩增子测序的首要目的是找到致病的细菌或者病毒，即鉴定物种组成。

简说基因

2020/11/19

2.5K0

python读取txt文件中的数组

java https 网络安全

发布者：全栈程序员栈长，转载请注明出处：https://javaforall.cn/139543.html原文链接：https://javaforall.cn

全栈程序员站长

2022/08/23

4K0

根据bed文件从fasta文件中获取基因

https http 网络安全

第一次写博客，分享一个做的提取基因序列的程序，根据bed文件里的位置信息从基因组里提取序列

py3study

2020/02/10

2.7K0

将多个txt文件中的内容写在一个txt中的方法

import os filename='./train_data/img_' for i in range(1,19736): newfile=filename+str(i)+'.txt' if os.path.exists(newfile): read= open(newfile, 'r') for line in read: writ = open('recode.txt', 'a') writ.write(

陶陶name

2022/05/13

3.4K0

Python中的requirements.txt文件

在查看别人的Python项目时，经常会看到一个requirements.txt文件，里面记录了当前程序的所有依赖包及其精确版本号。这个文件有点类似与Rails的Gemfile。其作用是用来在另一台PC上重新构建项目所需要的运行环境依赖。第一步我觉得就是看一眼readme吧~而后看一眼requirements.txt。说了很多遍了，python从某种意义上来讲就是活的库。

云深无际

2021/04/14

9.1K0

Python中的requirements.txt文件

读取文件中的所有图片的路径，保存到txt文件中。

import sys import os.path if __name__ == "__main__": f = open('dataset.txt', 'w') # 文件名，文件下还有多个类别的文件。 BASE_PATH="JAFFE" SEPARATOR=";" # 绝对路径地址 pth = "/Users/liupeng/Desktop/my/faceER/DataSet/" for dirname, dirnames, filename

MachineLP

2022/05/09

6.9K0

Python中将字典转换为有序列表、无序列表的方法

说明：列表不可以转换为字典 1.转换后的列表为无序列表 a = {'a' : 1, 'b': 2, 'c' : 3} #字典中的key转换为列表 key_value = list(a.keys()

用户1214487

2018/04/13

3.5K0

Python中将字典转换为有序列表、无序列表的方法

scRNA-seq数据处理—文件格式小结

FastQ是您将遇到的最原始形式的scRNASeq数据。所有scRNASeq方案都使用配对末端测序进行测序。Barcode序列可以在一个或两个reads中发生，这取决于所采用的protocol 。然而，使用独特分子标识符（UMI）的protocol 通常包含一个带有细胞和UMI barcode 和 adapters 但没有任何转录序列的read。因此，尽管实际上是成对末端测序，但reads将被比对为好像它们是单端测序的。

生信技能树jimmy

2020/03/27

2K0

Netty在Dubbo中的线程名称

dubbo java zookeeper apache

在项目中,我们会使用RocketMQ和Dubbo.前者用于发送或消费消息,后者用于两个模块之间的接口调用.

书唐瑞

2022/06/02

1.3K0

Netty在Dubbo中的线程名称

iOS中解码.txt文件在UIWebView出现中文乱码的问题

1，什么是gbk和utf-8编码？ 2，GBK与UTF-8的区别？ 1，GBK的文字编码是双字节来表示的，即不论中、英文字符均使用双字节来表示，只不过为区分中文，将其最高位都定成1。至于UTF－8编码则是用以解决国际上字符的一种多字节编码，它对英文使用8位（即一个字节），中文使用24位（三个字节）来编码。对于英文字符较多的论坛则用UTF－8节省空间。 2，GBK包含全部中文字符； UTF8是国际编码，它的通用性比较好，UTF-8则包含全世界所有国家需要用到的字符。 GBK是国家编码，通用性比UTF8

rectinajh

2018/05/17

3.3K0

python读取txt文件中的json数据

存储 https java 网络安全 json

txt文本文件能存储各式各样数据，结构化的二维表、半结构化的json，非结构化的纯文本。存储在excel、csv文件中的二维表，都是可以直接存储在txt文件中的。

全栈程序员站长

2022/08/30

7.2K0

python读取txt文件中的json数据

CSharp工程中的几个文件

Visual Studio中对项目所做的配置，均可在该文件中体现出来。同样，Visual Studio也是根据该文件中的内容来加载项目的。抛开Visual Studio的其它功能，可以将其看作是.csproj文件的图形管理工具。

雪飞鸿

2018/12/28

1.3K0

CSharp工程中的几个文件

.net ide windows

Visual Studio中对项目所做的配置，均可在该文件中体现出来。同样，Visual Studio也是根据该文件中的内容来加载项目的。抛开Visual Studio的其它功能，可以将其看作是.csproj文件的图形管理工具。

雪飞鸿

2018/12/21

1.2K0

R语言里面的文本文件操作技巧合辑

磁盘函数技巧连接数据

常规需求是文本文件交互，比如文件打开、文件写入、文件内容刷新等等，如果默认的文件没有规则仅仅是里面有内容，就需要使用比较底层的函数：

生信技能树

2023/09/04

4420

R语言里面的文本文件操作技巧合辑

替换文件中的敏感信息

Long long time no see.『每日一坑』栏目又来啦！今天我们来做一个现实中有可能会碰到的问题：替换文件中的敏感信息问题描述假设我们有一份文件，文件中包含了很多个人信息。现在需要一份去除其中敏感信息的版本，将文件中所有手机号的4~7位和身份证号的6~15位用 * 替换。（注意：有的身份证号是以X结尾）示例输入文件张三居住地：南京身份证号：320101199909091234 手机号：13013013130 李四居住地：上海身份证号：31010120000101234X

Crossin先生

2018/04/17

1.9K0

相似问题

如何将fasta序列中的标题修剪为物种名称，并使用sed命令保留序列的主文本？

14

使用biopython (用于多个文件)从输出文件中的fasta文件标题中打印物种名称

10

从几个.txt文件中读取一行，并将它们写入创建的文件

20

替换fasta中的名称

20

在linux中替换序列文件fasta的空格

23

活动推荐

国内短信福利大放送，不要错过！

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例