开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >问答首页 >抓取时在asp.net分页中重复吗？

问抓取时在asp.net分页中重复吗？
EN

Stack Overflow用户

提问于 2018-04-26 07:02:16

回答 1查看 144关注 0票数 2

我正在抓取这个asp.net站点，因为请求url是相同的抓取dupefilter不起作用。结果，我得到了大量重复的urls，这让我的爬虫进入了无限的运行状态。我该怎么处理呢？

我的代码如下所示。

if '1' in page:

            target =  response.xpath("//a[@class = 'dtgNormalPage']").extract()[1:]
            for i in target:
                i = i.split("'")[1]
                i = i.replace('$',':')
                yield  FormRequest.from_response(response,url,  callback = self.pages, dont_filter = True,
                formdata={'__EVENTTARGET':  i,

                            })

我试图添加一个集合来跟踪页码，但不知道如何处理'...‘这就引出了下10页。

if '1' in page:

            target =  response.xpath("//a[@class = 'dtgNormalPage']")
            for i in target[1:]:
                page =  i.xpath("./text()").extract_first()
                if page in self.pages_seen:
                    pass
                else:
                    self.pages_seen.add(page)
                    i = i.xpath("./@href").extract_first()
                    i = i.split("'")[1]
                    i = i.replace('$',':')
                    yield  FormRequest.from_response(response,url,  callback = self.pages, dont_filter = True,
                    formdata={'__EVENTTARGET':  i,

                                }) 
              self.pages_seen.remove('[ ... ]')

我设置的线程越多，收到的副本就越多。因此，到目前为止，似乎唯一的解决方案是将thread_count降低到3或更少。

EN

回答 1

Stack Overflow用户

发布于 2018-04-26 09:51:52

我不确定我是否理解正确了，但asp.net通常很大程度上依赖cookies来传递内容。所以在抓取asp.net网站时，你需要使用scrapy的cookiejar特性：

class MySpider(Spider):
    name = 'cookiejar_asp'

    def start_requests():
        for i, url in enumerate(start_urls):
            yield Request(url, meta={'cookiejar': i})

    def parse(self, response):
        # Keep in mind that the cookiejar meta key is not “sticky”. You need to keep passing it along on subsequent requests. For example:
        return Request(
            "http://www.example.com/otherpage",
            callback=self.parse_other_page
            meta={'cookiejar': response.meta['cookiejar']},  # <--- carry over cookiejar
        )

有关cookiejars的更多信息，请单击此处：https://doc.scrapy.org/en/latest/topics/downloader-middleware.html?highlight=cookiejar#multiple-cookie-sessions-per-spider

票数 -1

EN

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/50036740

复制

相关文章

AS常用插件-持续更新

AS主题+配置备份+Logcat颜色配置 AS插件-Android Drawable Importer AS插件-GsonFormat AS插件-android-selector-chapek AS插件-Android Parcelable code generator.

小小工匠

2021/08/16

6710

2018 更新下vim 插件

周末网上晃荡看到一些关于 vim8 异步和插件的文章，觉得有些新功能挺实用的，所以花了点时间升级下自己的 vim 配置。本文介绍一些使用到的实用插件以及参考配置。

orientlu

2018/09/13

2.6K0

JRebel热部署插件

tomcat ide 打包

1、打开File -> setting，选择Plugins->Browse Repositories

java后端指南

2021/05/13

9890

typecho插件合集（持续更新）

https 网络安全 github git 开源

typecho以轻量著称，不足500k的安装包却满足了百分之九十以上的博客需求，但是还有很多的不足，不足的地方就只能用插件来弥补了！这里做一个插件合集方便大家查阅！

用户7146828

2021/08/09

12.7K0

更新时 Fiber 节点能否复用？

github git 开源

当产生更新时，workInProgressTree 的 Fiber 节点有两种方式生成：

玖柒的小窝

2021/12/07

5290

应用更新和部署转

先来看我蹩脚的翻译：https://mesosphere.github.io/marathon/docs/deployments.html 应用部署

domain0

2018/08/02

3750

SpringBoot项目更新打包部署

maven bash bash 指令 ftp

1:链接Xshell工具（ssh链接）连接成功显示如下。进入到服务器的根目录里面。 cd /opt/java/tomcat8088/webapps 2：ls查看一下根目录里面的文件如果存在w

王小婷

2020/07/15

5820

IDEA必备插件收藏(持续更新)

ide sql 编程算法

Rainbow Brackets 彩虹色的括号，成对括号相同颜色显示，防止括号混乱

名字是乱打的

2021/12/23

6020

瞎折腾 | KirinShiKi插件再更新

腾讯云开发者社区

本文作者：博主： gyrojeff 文章标题：瞎折腾 | KirinShiKi插件再更新本文地址：https://gyrojeff.top/index.php/archives/152/ 版权说明：若无注明，本文皆为“gyro永不抽风！”原创，转载请保留文章出处。许可协议:署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0) 转载请保留原文链接及作者！我的博客即将同步至腾讯云+社区，邀请大家一同入驻

gyro永不抽风

2021/05/21

4100

实用WordPress插件收集(更新中)

腾讯云开发者社区 wordpress 网站建设 http

wordpress里面的页面的显示顺序是无法控制的。你无法控制某个页面排在前面或者排在后面。而有时候，我们又确实需要控制某些页面的显示顺序，那么就可以用My Page Order这个wordpress插件了。

星哥玩云

2022/06/11

4730

PyCharm 必备插件合集（更新中）

https 网络安全 ide git

PyCharm的插件很好用，能够在写代码时加成很多。下面看一下目前我用的一些插件。

全栈程序员站长

2022/09/12

4.8K0

PyCharm 必备插件合集（更新中）

Newbe.Mahua 插件热更新

机器人开源 ubuntu api tcp/ip

在阅读本教程之前，想必开发者已经学会了如何插件插件项目。因此本节只将本示例使用的关键参数和代码贴出。

newbe36524

2020/03/16

5230

WordPress 技巧：禁止插件更新提醒

php 网站 wordpress 插件技巧

这个技巧会阻止 WordPress 检查插件是否有有更新，这个技巧对于给客户建的网站非常有帮助，因为很可能你已经修改了插件，插件的更新将会让整个网站不能正常运行。

Denis

2023/04/15

4790

12-部署EFK插件

配置和安装 EFK 官方文件目录：cluster/addons/fluentd-elasticsearch $ ls *.yaml es-controller.yaml es-service.yaml fluentd-es-ds.yaml kibana-controller.yaml kibana-service.yaml efk-rbac.yaml 同样EFK服务也需要一个efk-rbac.yaml文件，配置serviceaccount为efk。已经修改好的 yaml 文件见：EFK 配置 es

程序员同行者

2018/07/03

1K0

IDEA热部署插件JRebel

这里使用离线安装方式，在idea中点击file->settings，再点击plugins->install plugin from disk，选择JRebel插件的离线安装文件，点击确定后重启idea。

KEN DO EVERTHING

2019/01/17

1.8K0

TortoiseSVN 从 GitHub 更新时发生异常

github git svn 开源

使用 TortoiseSVN 从 GitHub 仓库 Update 时，弹出错误提示对话框：

mzlogin

2020/04/16

1.3K0

TortoiseSVN 从 GitHub 更新时发生异常

github git svn 开源

使用 TortoiseSVN 从 GitHub 仓库 Update 时，弹出错误提示对话框：

零式的天空

2022/03/28

1.2K0

关于conda 更新时权限的问题

anaconda 访问管理

就被告知以下错误：PermissionError(13,'Permission denied)

戈贝尔光和热

2018/12/27

2.1K0

Jpom部署时遇到的坑

这次代码拉取成功，但是构建仍然失败，原因包括maven没安装(mvn命令不识别)、目录路径未识别

阿超

2022/12/05

1.1K0

[Hexo]部署博客及更新博文

本系列其它文章：用 GitHub + Hexo 建立你的第一个博客将本地文件部署到 GitHub 修改 Hexo 中的 _config.yml 文件在 Hexo 文件夹下找到 _config

Crossin先生

2018/04/17

2.6K0

[Hexo]部署博客及更新博文

相似问题

wp-cli更新插件更新部署过程

11

Grails发行版插件未在远程maven资源库上部署插件

33

未在部署时应用顺风CSS样式

40

通过Eclipse插件远程部署到GAE时更新depatch错误

12

在重复更新时插入记录未在更新

12

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例