文章/答案/技术大牛

发布

使用requests.get或scrapy抓取链接后看不到某些数据

问题描述：使用requests.get或scrapy抓取链接后看不到某些数据。

回答：在使用requests.get或scrapy抓取链接后，如果无法看到某些数据，可能有以下几个原因：

动态加载：某些网站使用了动态加载技术，即在页面加载完成后，通过JavaScript或Ajax请求获取数据并渲染到页面上。requests.get或scrapy默认只获取静态页面内容，无法获取动态加载的数据。解决方法是使用Selenium等工具模拟浏览器行为，或者分析网页的Ajax请求，直接请求对应的接口获取数据。
登录状态：某些网站需要登录后才能查看特定数据。requests.get或scrapy默认不会携带登录状态，因此无法获取需要登录才能看到的数据。解决方法是在请求中添加登录所需的Cookie或使用登录接口获取登录凭证，然后在请求中携带凭证。
反爬虫机制：为了防止被爬虫程序抓取数据，某些网站会设置反爬虫机制，例如验证码、IP封禁等。如果遇到反爬虫机制，可以尝试使用代理IP、设置请求头信息、延时请求等方法规避反爬虫机制。
数据位置：有时候某些数据可能位于页面的其他位置，而不是直接嵌入在HTML中。可以通过查看网页源代码、分析网页结构或使用开发者工具来确定数据的位置。

总结：当使用requests.get或scrapy抓取链接后看不到某些数据时，可能是因为动态加载、登录状态、反爬虫机制或数据位置等原因。解决方法包括使用Selenium模拟浏览器行为、添加登录凭证、规避反爬虫机制或确定数据位置。具体解决方案需要根据具体情况进行分析和实施。

腾讯云相关产品推荐：

腾讯云CDN（内容分发网络）：提供全球加速、缓存加速、动态加速等功能，加速网站内容分发，提升用户访问速度。详情请参考：腾讯云CDN产品介绍
腾讯云WAF（Web应用防火墙）：提供全面的Web应用安全防护，包括防DDoS攻击、防SQL注入、防XSS攻击等功能，保护网站安全。详情请参考：腾讯云WAF产品介绍
腾讯云CVM（云服务器）：提供弹性计算能力，可根据业务需求灵活调整计算资源，支持多种操作系统和应用场景。详情请参考：腾讯云CVM产品介绍
腾讯云COS（对象存储）：提供安全、稳定、低成本的云端存储服务，适用于图片、音视频、备份存储等场景。详情请参考：腾讯云COS产品介绍

页面内容是否对你有帮助？

有帮助

没帮助

使用requests.get或scrapy抓取链接后看不到某些数据

、、

我正在尝试从a stock exchange website中抓取数据。具体来说，我需要读取左上角表格中的数字。我尝试使用selenium，延迟了大约20秒(以便加载javascript )，但这不起作用，并且找不到元素。是否有解决此问题的方法？

浏览 27提问于2021-01-03得票数 0

回答已采纳

2回答

抓取并发或分布式爬网

、、

我想用scrapy抓取相当大的网站。在某些情况下，我已经有了抓取的链接，而在其他情况下，我需要提取(抓取)它们。我还需要在运行时访问数据库两次。一次是为了确定是否需要抓取url (蜘蛛中间件)，一次是为了存储所提取的信息(项目流水线)。理想情况下，我可以运行并发或分布式爬行，以加快速度。使用scrapy运行并发或分布式爬网的推荐方式是什么？

浏览 5提问于2015-05-28得票数 4

4回答

如何在抓取的CrawlSpider中访问特定的start_url？

、、

我正在使用Scrapy，特别是Scrapy的CrawlSpider类来抓取包含某些关键字的web链接。我有一个相当长的start_urls列表，它从一个连接到Django项目的SQLite数据库中获取条目。我想将抓取的web链接保存在此数据库中。为了将抓取的web链接正确地保存到数据库中，我需要告诉CrawlSpider的parse_item()方法，抓取

浏览 1提问于2012-05-15得票数 7

回答已采纳

0回答

我正在编写抓取爬虫从电子商务网站抓取数据。该网站有颜色的变化，每个变化有自己的价格，大小和库存的大小。要获得变种的价格、尺寸和库存，需要访问变种的链接(颜色)。并且所有数据都需要在一条记录中。我尝试过使用请求，但速度很慢，有时无法加载页面。我已经使用requests.get()编写了爬虫程序，并在scrapy.selector.Selector()和解析数据中使用响应。我的问题是，是否有任何方法可

浏览 2提问于2018-07-13得票数 3

2回答

抓取蜘蛛从链接中随机抓取数据为什么？

、

首先，我从网站上抓取了所有的硬币链接，并要求那些链接。但是scrapy没有串行地请求从链接list.after请求这些链接抓取数据成功，但当保存到csv文件时，它使一个完整的抓取项目后每一次都是一个空行。我期待它将从链接列表中串行请求，它不会使任何空白row.how我能做到吗？我使用的是python 3.6和scrapy版本1.5.1import <

浏览 3提问于2018-12-02得票数 0

1回答

Python requests.post的刮伤版

、、、

我正在对特定端点执行请求，使用python请求添加一些头和json。但是，由于我正在编码的存储库的体系结构是基于scrapy的，所以我想提出相同的请求，但要翻译为scrapyjson_data = { 'page_size没有给我预期的反应的粗糙的替代方案from scrapy.http import JsonRequest j_response = JsonRequest(url

浏览 5提问于2022-10-11得票数 0

4回答

从urls列表中下载<very large> number of pages的最佳方式是什么？

、、、、

我有一个>100,000的urls (不同的域名)在一个列表中，我想下载并保存在数据库中，以便进一步处理和修补。使用scrapy而不是python的多处理/多线程是否明智？

浏览 2提问于2013-06-06得票数 5

回答已采纳

1回答

爬网完成后运行自定义代码(scrapy)

、

我需要在抓取完成后测试所有抓取的数据(某些字段的可用性百分比等)。数据包含在csv文件中，因此为了测试，我决定使用Pandas。在scrapy告诉我爬行已经完成之后，有没有办法启动代码来测试Scrapy爬行器中的.csv文件？我尝试过使用扩展，但是不能让它工作。Thx name = 'scrapyspider'

浏览 0提问于2019-01-17得票数 1

1回答

在实际抓取数据之前，scrapy是否有可能导航链接？

、

2)告诉抓取页面中的哪些部分我想知道的是，当数据本身不在起始页面时，我是否能够使用scrapy刮取数据？例如，我有一个链接，去一个论坛。该论坛包含几个子论坛的链接。每个子论坛都有几个线程的链接。每个线程包含多个消息(可能在多个页面上)。这些信息是我最终想要刮的。是否有可能这样做，并只使用最初的链接到论坛？

浏览 0提问于2018-10-18得票数 0

回答已采纳

9回答

BeautifulSoup和Scrapy* crawler有什么区别？*

、、、

我对BeautifulSoup比较熟悉，但对Scrapy crawler不太熟悉。

浏览 323提问于2013-10-30得票数 146

回答已采纳

1回答

递归地爬行网站及其外部链接，为数据分析项目n Python创建一个图表。

、、、、

我有一个项目，我想把它放在一起做一个数据分析实验。我有一个管道，但我不知道如何继续获取我需要的数据。我想抓取一个网站，并找到所有的内部和外部链接，分开他们和爬行的外部链接递归，直到它达到一定的深度。我想要这样做，以创建一个网站的所有连接的图表，然后使用中心算法找到中心节点并从那里开始。理想情况下，我希望在这个项目中使用python 2。在爬行和创建图表时，任何帮助和/或建议都将是非常感谢的，特别是编辑：我正在尝试实现您建议的解决方案

浏览 2提问于2017-11-25得票数 0

1回答

与检查器HTML不同的HTTP响应

、、、、

我试图获得以下网站的数据使用请求和抓取选择。import requestsheaders = {'user-agent': 'AppleWebKit/537.36'} req = requests

浏览 2提问于2019-12-19得票数 0

1回答

在网站/屏幕中查找所有可能的链接-使用Python进行Web抓取

、、、、

基本上，就是抓取页面。这是我在页面中搜索的代码。我需要找到网站上所有可能的这样的网页，并获得链接。这不是家庭作业。

浏览 7提问于2013-04-01得票数 0

回答已采纳

2回答

当数据表在页源中没有显示时如何刮取

、、、

我想从上的数据表中抓取所有的运行时间(而不仅仅是前10个结果)。但是，显示在网页上的数据并不显示在webpage源中。在每个数据表下，都有一个超链接("hier")。这些链接指向完整的数据表页。但这些链接也不在页面源中。任何建议或代码片段如何刮取这些数据(使用或Scrapy)。

浏览 0提问于2019-06-08得票数 1

回答已采纳

1回答

处理NotSupported异常

、

我正在使用Scrapy Spider从网站上抓取一些数据，但并不是所有的链接都很好。我得到了其中的一些NotSupported错误，我想把这些网址存储在一个文件或定义一些其他行为。有没有办法捕获scrapy.exceptions.NotSupported并定义自定义行为？我天真地尝试了以下代码，但它不起作用。try:except scrapy

浏览 20提问于2019-01-04得票数 0

2回答

使用scrapy将抓取的项目保存到json/csv/xml文件

、

通过以下示例和文档，我创建了我的爬行器，以便使用站点地图抓取数据from scrapy.selectorlog在屏幕上看到抓取的结果通过在命令中添加选项，我可以将抓取的结果保存到json/csv/xml文件中用于在文件中获取结果的scrapy crawl myspide

浏览 2提问于2014-02-04得票数 4

1回答

抓取，不抓取

我正在使用scrapy runspider命令在相同的域中抓取大约10,000个具有相同结构的链接。随机地在一些页面之间(大约40%到50%的页面)爬行，但不抓取，因为在我的parse方法中，我计算页面中的特定元素，并根据该元素抓取页面的其他元素。但由于某种原因(稍后将详细介绍此原因)，对于某些urls，该元素的计算结果不正确。出现上述现象的可能原因:我的网页链接类型是www.example.com/search_term/，它实际

浏览 2提问于2016-10-19得票数 1

1回答

Scrapy -删除重复数据并将数据输出为单个列表？

、、

我使用下面的代码来抓取页面上的多个链接，并从每个相应的链接中获取数据列表： name = "quotesdata = {'data': response.css('strong.data::text').extract()}它工作得很好，但当它返回每个链接的<e

浏览 5提问于2017-07-12得票数 0

回答已采纳

3回答

将刮擦设置为cron作业时出错：“刮伤:未找到”

我想设置一个cron作业，以运行我的scrapy (python脚本)ubuntu@ip-1-2-3-4-:cd /home/ubuntu/scrapers/my_scraper/现在，我尝试以cron作业的形式运行上面的命令：增加了以下几行： PATH=/home/u

浏览 0提问于2020-07-13得票数 1

1回答

如何从网站上抓取二级网页

、、、、

我想问你如何使用python + Beautiful soup或Scrapy来抓取网页，如果有2个级别的页面，一个简短的描述+一个到职位帖子完整细节的链接，那么它包含了例如招聘公告？我需要从招聘公告的标题中抓取数据，然后更深入地提取完整的描述，并将这些数据添加到数据库或文本文件中？问题是转到第二层，在那里完整的描述和获得完整的细节，包括图像链接，如果存在的话…有人这么做过吗？

浏览 0提问于2019-09-26得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

使用requests.get或scrapy抓取链接后看不到某些数据

相关·内容

使用requests.get或scrapy抓取链接后看不到某些数据

抓取并发或分布式爬网

如何在抓取的CrawlSpider中访问特定的start_url？

如何在同一位置使用Scrapy请求和获取响应？

抓取蜘蛛从链接中随机抓取数据为什么？

Python requests.post的刮伤版

从urls列表中下载<very large> number of pages的最佳方式是什么？

爬网完成后运行自定义代码(scrapy)

在实际抓取数据之前，scrapy是否有可能导航链接？

BeautifulSoup和Scrapy* crawler有什么区别？*

递归地爬行网站及其外部链接，为数据分析项目n Python创建一个图表。

与检查器HTML不同的HTTP响应

在网站/屏幕中查找所有可能的链接-使用Python进行Web抓取

当数据表在页源中没有显示时如何刮取

处理NotSupported异常

使用scrapy将抓取的项目保存到json/csv/xml文件

抓取，不抓取

Scrapy -删除重复数据并将数据输出为单个列表？

将刮擦设置为cron作业时出错：“刮伤:未找到”

如何从网站上抓取二级网页

扫码

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐