Loading [MathJax]/jax/output/CommonHTML/config.js

开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >问答首页 >刮伤cnn.com搜索

问刮伤cnn.com搜索
EN

Stack Overflow用户

提问于 2019-02-28 01:58:30

回答 2查看 313关注 0票数 0

在使用Scrapy从cnn.com搜索结果中获取数据时，我遇到了问题。例如，我们在浏览器中有一个链接https://edition.cnn.com/search/?q=war，它看起来很好。当我输入“view(Response)”时，Scrapy shell返回一些不满意的内容：“您的搜索与任何文档不匹配。尝试使用较少限制的搜索条件，也许我们可以找到一些东西。”我将从每个搜索结果页面获取所有链接，并解析适合给定查询的每一篇文章(本例中为“war”)。

截图：

浏览器中的页面

对于已打开的dev工具也是如此。

命令提示符

我发现了一个与此相关的案例：抓取谷歌搜索，我的问题是否有相同的根源，而cnn.com却阻止了机器人？

实时音视频9.9元起，弱网高质量通信

9.9元畅享2万分钟实时音视频通话时长，低成本、低门槛快速接入端到端延时＜300ms 的高品质实时互动通话

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2019-02-28 08:26:31

此页面不加载数据，因为此页使用javascript，因此可以使用

切换JavaScript扩展以加载没有javascript的页面。

您需要找到加载页面中项目的javascript文件。

票数 0

EN

Stack Overflow用户

发布于 2019-02-28 06:25:15

当您从浏览器在此网站上执行搜索时，会将cookie发布到后端，其中包含有关计算机的数据(地理定位、语言等)，我猜后端只在存在cookie的情况下执行查询。

您可以使用cookie=构建参数在您的刮伤请求中传递cookie。

如果失败(例如，如果cookie包含一个每次更改的令牌)，您也可以尝试使用Selenium搜索网站。

票数 0

EN

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/54922887

复制

相关文章

清理垃圾bat代码

https java 网络安全

rd /s /q %windir%\temp & md %windir%\temp

全栈程序员站长

2022/07/04

1K0

/tmp目录清理问题

云数据库 SQL Server 数据库 sql socket编程

2019年7月10日 ⋅ 浏览量: 4

以谁为师

2019/07/11

3.2K0

解决spark日志清理问题

spark shell linux

由于采用了sparkstreaming 任务一直再运行导致日志文件暴涨，达到了硬盘的预警，不得已必须指定策略定期删除日志已保证服务器硬盘空间。

用户1217611

2020/11/24

2.2K0

关于清理webgame缓存的问题

缓存 http asp php java

直接请求百度首页http://www.baidu.com/，看到所请求的资源都是Cache

meteoric

2018/11/16

2.2K0

【Rust 基础篇】Drop Trait 清理代码

rust 博客基础数据作用域

在 Rust 中，Drop trait 是一种特殊的 trait，用于定义在值离开作用域时进行清理操作的行为。通过实现 Drop trait，我们可以自定义类型在销毁时的清理逻辑，例如释放资源或执行必要的操作。

繁依Fanyi

2023/10/12

2100

解决svn清理失败，路径显示乱码问题

sqlite android 嵌入式数据库 sql

点击下载 SQLite是一款轻型的数据库，它的设计目标是嵌入式的，而且目前已经在很多嵌入式产品中使用了它，它占用资源非常的低，在嵌入式设备中，可能只需要几百K的内存就够了。它能够支持Windows/Linux/Unix等等主流的操作系统，同时能够跟很多程序语言相结合，比如Tcl、PHP、Java等，还有ODBC接口，同样比起Mysql、PostgreSQL这两款开源世界著名的数据库管理系统来讲，它的处理速度比他们都快。

程序员云帆哥

2022/05/12

2.2K0

解决svn清理失败，路径显示乱码问题

利用正则批量清理Teleport Ultra/Pro冗余代码

javascript http css 正则表达式网站

Teleport 是一款非常优秀的网站离线浏览工具（即网站整站下载工具），但该软件下载的网页文件里会包含大量冗余代码（如：tppabs），手动去修改工作量很大。

德顺

2019/11/13

9830

只需一串代码，实现清理电脑缓存

任何电脑使用时间过久都会留下垃圾痕迹，及时清理系统垃圾 bat才能确保电脑的顺畅。下面就介绍一下一键清理系统垃圾bat的方法，方便快捷。

小何.

2023/03/03

2.4K0

只需一串代码，实现清理电脑缓存

[PHP] 存储改造中的逻辑和清理遗留的问题

http 编程算法缓存存储 nginx

现象:用户读信时,根据路径的哈希结果,访问四台服务器中一台请求文件,这四台缓存机器已经下线,访问不到再去后端存储访问浪费了时间

唯一Chat

2019/09/29

5840

CMI | 关于生物清理以及垃圾清理

delay 定时任务原理

关于生物清理在CMI中有个定时任务的配置文件(schedules.yml) killall: Enabled: true Repeat: true Delay: 3600 Commands: - * - * 我们可在其中添加特殊命令 - actionbar! 将在30秒后清理生物 - delay 10 - actionbar! 将在20&#x

BreezeCloud

2022/10/04

1.4K0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/u010105969/article/details/53992611

用户1451823

2018/09/13

1.1K0

Linux清理磁盘（定位高占用--＞清理）

定位 df -ah可以通过 User% 那一列哪看到个占用多。进入根目录，查询大文件与目录 cd / du -sh * | sort -n # 查看大小1GB以上的目录并且排序 du -h --max-depth=1 |grep 'G' |sort 迭代执行以上操作，定位到可以删除的大文件，将其删除即可。

bboy枫亭

2021/12/07

3.7K0

问题解决：Ubuntu 磁盘空间占满如何清理

容器镜像服务 var 百度递归镜像

磁盘空间占满了，有两种解决办法：开源节流。这里我讲节流。一个命令（从根目录开始）： du -h --max-depth=1 该命令用于罗列当前目录下一级以内东西大小，转换成普通人能看的。递归。找到病灶之后，如果不敢删，百度一下。一般如果是日志啥的但删无妨。我找到是在 var 下面的 docker，于是百度了一下解决方法： docker system prune -a 使用的时候建议将要保留的镜像打开，不然会全给你清理了。它有给英文提示。

看、未来

2022/05/06

1.2K0

Windows更新清理工具 (winsxs 清理工具)

数据处理 windows

Windows 更新清理工具是一款效果非常显著的Windows7、Windows8操作系统清理优化工具！经常安装系统的朋友相比有所体会，刚刚安装完成的Win7、Win8其实占的空间并不大，去掉页面文件和休眠文件后，真正的系统只几个G而已，但如果你给系统升级了补丁后，你会发现系统所需要占用的空间直线上升！轻松突破10G的门槛！加上休眠文件和页面文件，本来预留给系统的30G空间马上变得也不富裕了。究其原因，在于系统目录下的WinSxS目录占用了大量的空间！在我们安装了大量的系统更新后,新的系统文件会替代旧

张善友

2018/01/19

11.8K1

Windows更新清理工具 (winsxs 清理工具)

代码乱码问题

xml utf8 编辑器编码乱码

vs studio默认编码使用unicode，qt creator编辑器代码在vs中不识别错误

sofu456

2023/07/10

1330

10行Python代码自动清理电脑内重复文件，解放双手！

python 编程算法 html 网站

「给定一个文件夹，使用Python检查给定文件夹下有无文件重复，若存在重复则删除」

Python进阶者

2020/09/30

1K0

10行Python代码自动清理电脑内重复文件，解放双手！

python 编程算法 html 网站

「给定一个文件夹，使用Python检查给定文件夹下有无文件重复，若存在重复则删除」

刘早起

2020/08/20

1.4K0

Windows 10 电脑垃圾清理教程，缓存垃圾清理

Windows 10是目前广泛使用的操作系统之一。由于长时间运行Windows 10电脑，会积累大量临时文件、日志和其他不需要的文件，导致系统变慢并占用磁盘空间。

用户8551789

2023/04/10

3.8K0

Windows 10 电脑垃圾清理教程，缓存垃圾清理

下一个问题，你合理清理内存了吗？

大家好，我是光城，没想到昨日问题留言竟然这么多人，那么这个系列，我也将继续持续下去，今天先来给大家答案，接下来给出一个新问题。

公众号guangcity

2022/04/27

2120

10行Python代码自动清理电脑内重复文件，解放双手！

python 编程算法自动化 html

「给定一个文件夹，使用Python检查给定文件夹下有无文件重复，若存在重复则删除」

小小詹同学

2020/09/08

5080

10行Python代码自动清理电脑内重复文件，解放双手！

相似问题

查找Roslyn默认的可空上下文

25

JBehave空上下文

10

setUserVisibleHint中的空上下文

216

隐藏空上下文菜单

10

异步上下文管理器

31

活动推荐

云联络中心专属优惠，福利大放送！

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例