Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >如果我们有多个站点,有什么更好的方法来实现刮刮呢?

如果我们有多个站点,有什么更好的方法来实现刮刮呢?
EN

Stack Overflow用户
提问于 2016-01-05 04:36:22
回答 2查看 324关注 0票数 0

如果我们有多个具有不同html结构的站点,那么有什么更好的方法来实现scrapy呢?

  1. 我应该在单个项目中根据站点创建多个蜘蛛吗?
  2. 我应该根据网站创建多个项目吗?
  3. 或者另一种方式,请定义。
EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2016-01-05 05:10:30

通常你应该在一个项目中创建多个蜘蛛,每个网站一个,但这取决于这一点。

抓取爬行器还决定如何从一个页面跳到另一个页面,而不是应用解析器回调,解析器回调方法将从页面中提取数据。因为页面是不一样的,所以每个页面都需要一个解析器回调方法。

这些网站通常有不同的网站地图,因此你需要多个蜘蛛,每个网站,这将决定如何跳到另一页。另外,蜘蛛将应用它们的回调来决定如何刮掉该页。

通常,您不需要为多个网站创建多个项目,但这取决于此。如果您的网站具有一些逻辑特性,请将它们放在一个项目中,以便它们可以使用相同的刮伤设置。这样做也更容易,您可以创建基本蜘蛛并继承常用的方法。

票数 1
EN

Stack Overflow用户

发布于 2016-01-05 05:01:31

  1. 不同的网站->相同项目中的不同脚本,如果刮取相同的数据,那么在同一个项目中,两个脚本都可以驻留并使用相同的管道。
  2. 同一网站->同一项目
  3. 不同的网站,不同的数据->不同的项目
  4. 同一个网站,不同的数据->使用两个函数使用callback
票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/34611880

复制
相关文章
RSA否认配合NSA在加密算法中添加后门
1. 美国安全服务商RSA在官方博客中发表文章,“完全否认”了近期路透社有关该公司与美国国家安全局(NSA)合作,在加密算法中添加后门的报道。 2. 两名知情人士称,RSA收受了1000万美元,将NSA提供的方程式设定为BSafe安全软件的优先或默认随机数生成算法。此举将让NSA能够借助后门轻易破解各种加密数据。 3. RSA在声明中详细解释了BSafe安全软件采用的Dual EC DRBG算法,称该算法只是BSafe提供的选项之一,用户始终可以按需求自由选择其他算法。2013年9月,NIST发布新
静一
2018/03/15
1.1K0
NSA在两个RSA加密产品中植入了后门
根据路透社的独家报道,NSA 在安全行业领导企业RSA的两个加密产品都植入了随机数生成器后门,而不只是此前斯诺登爆料的一个。 2013年12月路透社曾爆料称著名加密产品开发商RSA在收取NSA上千万美元后,在其软件Bsafe中嵌入了NSA开发的,被植入后门的伪随机数生成算法(Dual_EC——DRBG,双椭圆曲线确定性随机比特生成器),NSA还利用NIST认证该漏洞算法为安全加密标准,使得该算法成为大量软件产品默认使用的随机数生成器,而这个后门算法使得NSA能够大规模破解加密数据。 在第一个R
静一
2018/03/16
1.9K0
在bios设置中关闭软驱的方法
bios设置是电脑最基本的设置之一,它是计算机内主板上的一个ROM芯片上的程序,主要功能是为计算机提供最直接的硬件设置和控制。很多人对于BIOS设置并不是很了解,更不要说去怎么设置了,接下来想要介绍的就是关于在bios设置中如何关闭软驱,下面就来看看操作方法吧!
用户8002245
2020/12/25
4.5K0
离线存储加密货币的最佳方式是什么?
我们最好将它们存储在冷藏库或离线钱包中,因为在这些类型的钱包中,您可以控制私钥 目前市场上有数百种加密货币。虽然他们中的一些人拥有多个离线钱包选项,但其中一些根本没有。 我将用最新的选项更新此冷库或离线钱包列表,因此请继续检查这里是否有更新。 Bitcoin-Ledger Nano S, Trezor & KeepKey,Bitaddress,Electrum, Armory Ethereum-Ledger Nano S, Trezor & KeepKey,MyEtherWallet Ripple-Ledg
架构师研究会
2018/04/09
2.1K0
实施ERP的最佳方法是什么
也许您已决定加入潮流,并在公司中实施企业资源计划或ERP,或者您要从当前的ERP系统进行升级。令人恐惧的部分可能是进行更改。您应该放弃所有内容并立即启动ERP还是可以分阶段实施?
深圳ERP
2019/12/13
8870
实施ERP的最佳方法是什么
BackdoorMan,帮你找到系统中的后门文件
BackdoorMan是一款采用Python语言开发的开源工具,它可以帮助你找出系统中的恶意文件、隐藏的PHP脚本以及可疑的Shell脚本。你可以在BackdoorMan中指定一个扫描路径,它会自动检
FB客服
2018/02/09
1.6K1
BackdoorMan,帮你找到系统中的后门文件
确保云安全的最佳方法是什么?
随着云计算成为企业开展业务的一种基础技术,云安全已变得至关重要。然而,充分了解云安全的最佳策略是一个真正的挑战。
静一
2020/03/25
6840
确保云安全的最佳方法是什么?
在Windows 10计算机上安装Python的最佳方法是什么?
Python 是一种流行的通用编程语言,广泛用于各种目的,包括 Web 开发、数据分析、人工智能等。因此,对于开发人员和程序员来说,了解如何在Windows 10计算机上安装Python有深入的了解非常重要。在本文中,我们将讨论在Windows 10计算机上安装Python的最佳方法,包括每种方法的分步指南。
很酷的站长
2023/02/18
2.4K0
在Windows 10计算机上安装Python的最佳方法是什么?
QGIS在Ubuntu系统中的配置方法
  本文介绍在Linux操作系统Ubuntu版本中,通过命令行的方式,配置QGIS软件的方法。
疯狂学习GIS
2023/11/02
5130
QGIS在Ubuntu系统中的配置方法
linux 系统留后门方法和清除日志
1. setuid #cp /bin/sh /tmp/.sh #chmod u+s /tmp/.sh 加上 suid 位到shell上,虽然很简单,但容易被发现 2. echo "hack::0:0::/:/bin/csh" >> /etc/passwd 即给系统增加一个 id 为 0(root)的帐号,无口令。 但管理员很快就可以发现哦! 3.echo "++">>/.rhosts 如果这个系统开了512,513的port呵呵,就可以 把一个名为hack加到.rhosts文件中,rlog
赵腰静
2018/03/09
4.6K0
在MATLAB中RSA加密
[Modulus, PublicExponent, PrivateExponent] = GenerateKeyPair;
万木逢春
2019/05/10
1.8K0
椭圆曲线加密与NSA后门考古
本文主要介绍椭圆曲线的基本原理以及基于椭圆曲线的密码学实现,包括ECC加密、ECDH秘钥交换以及ECDSA签名算法,并介绍其中潜在的一些安全问题。其中分析了两个ECC实现相关的真实案例,分别是索尼PS3的签名问题和美国国家安全局NSA留下的椭圆曲线后门。
evilpan
2023/02/12
1.2K0
椭圆曲线加密与NSA后门考古
Linux系统中Shell脚本加密字段的处理方法和原理分析
在Linux系统中,shell脚本被广泛用于自动化任务和系统管理。然而,脚本中可能包含敏感信息,如密码、密钥或令牌等,这些信息需要被保护以防止未授权访问。
炒香菇的书呆子
2024/12/10
1770
Linux系统中Shell脚本加密字段的处理方法和原理分析
在Linux系统中,Shell脚本被广泛用于自动化任务和系统管理。然而,脚本中可能包含敏感信息,如密码、API密钥等,这些信息需要被安全地处理以防止泄露。本文将探讨Shell脚本中加密字段的处理方法和原理,并提供一些实用的解决方案。
炒香菇的书呆子
2024/12/02
580
shell 加密传输 | Linux后门系列
本来我是打算base64编码进行测试的,但是失败了,这里有个问题需要以后去深究,这里仅仅抛出来
意大利的猫
2020/08/20
1.8K0
在SAP系统中,如何设置生产订单自动关闭
SAP系统中,若生产订单已经完成,那么是用技术性完成(Technical complete)的方式对订单进行操作,目的是让生产订单对组件的预留进行清除。一般来说,大家普遍采用的是人工去进行生产订单技术关闭的方式,且一般由一个企业的订单计划员负责。
matinal
2020/10/30
2.1K0
在SAP系统中,如何设置生产订单自动关闭
在Ubuntu 18.04系统中启用SSH登录的方法
Secure Shell(SSH)是Linux系统管理中的经常要用到的一种远程访问技术。在Ubuntu 18.04系统仓库中,已经收录了同为开源的OpenSSH,我们可以用它来为系统开启SSH访问功能。
用户8710806
2021/06/09
13.1K0
Kotlin 中的网络请求代理设置最佳实践
在进行网络编程时,经常会遇到需要通过代理服务器发送请求的情况。代理服务器可以提供多种功能,比如访问控制、数据加密、缓存、IP 隐藏等。在 Kotlin 中,使用 OkHttp 库可以方便地设置代理并发送网络请求。本文将介绍如何在 Kotlin 中设置带有认证信息的 HTTP 代理,并提供示例代码。
小白学大数据
2024/07/23
1710
Kotlin 中的网络请求代理设置最佳实践
代理服务器充当客户端和目标服务器之间的中介。它接收客户端的请求,然后转发到目标服务器,并将服务器的响应返回给客户端。代理服务器可以是透明的,也可以是匿名的。在某些情况下,代理服务器可能需要认证信息才能允许客户端通过。
小白学大数据
2024/08/09
1920
C# 中的委托和事件机制在实际开发中的最佳应用场景是什么?
程序员阿伟
2024/12/09
1320

相似问题

WPF ListBox Width / MaxWidth

11

设置网格列Width=Auto和MaxWidth

12

WPF ColumnDefinitions和启动宽度

22

WPF XAML与MinWidth和MaxWidth

23

Width和MaxWidth默认值和运行时值

14
添加站长 进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

扫码加入开发者社群
关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

扫码关注腾讯云开发者公众号
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文