开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Scrapy referer未返回可读的url

Scrapy是一个基于Python的开源网络爬虫框架，用于抓取和提取网页数据。referer是HTTP协议中的一个头部字段，用于指示请求来源，即前一个URL地址。在Scrapy中，referer未返回可读的URL表示referer头部字段的值不可读。

具体而言，当使用Scrapy发送HTTP请求时，可以设置referer字段来指定请求的来源。referer字段的值通常为前一个页面的URL，用于告知服务器当前请求是从哪个页面链接过来的。然而，有时服务器返回的referer字段值可能是加密或无效的，无法直接读取和理解。

这种情况下，需要考虑以下解决方案：

检查请求的referer字段是否正确设置，确保在发送请求时指定了正确的referer值。
使用Scrapy的中间件对请求进行处理，自定义referer的生成规则，以确保referer字段返回可读的URL。可以通过解析响应的HTML页面或使用其他爬虫相关的数据提取方法来生成referer字段的值。
通过检查网络流量，使用网络抓包工具（例如Wireshark）来查看实际请求和返回的HTTP头部字段，确定服务器返回的referer字段值是否可读。如果服务器确实返回了无效的referer字段，可能需要与网站管理员或开发人员联系以解决问题。

推荐腾讯云相关产品：由于要求不能提及具体品牌商，这里给出一些通用的建议：

腾讯云的云服务器（CVM）：提供弹性、可扩展的虚拟服务器实例，可用于搭建爬虫系统和部署Scrapy框架。
腾讯云对象存储（COS）：提供海量、安全、低成本的对象存储服务，可用于存储和管理爬取的数据。
腾讯云云数据库（CDB）：提供稳定可靠的关系型数据库服务，适用于存储和查询爬取的数据。
腾讯云内容分发网络（CDN）：提供全球分布式加速服务，可加速网站内容的传输，提高爬虫的访问效率。请注意，在实际应用中，根据具体需求和情况，可能需要结合其他腾讯云产品和服务，以构建完整的云计算解决方案。

相关搜索:djangorest api未返回可读的choice字段值 PagSeguro未返回重定向URL Paypal返回URL未正确触发 Python Scrapy:返回抓取的URL列表 Python Scrapy爬虫正在爬行url，但不返回任何内容 Python Scrapy返回不同的url Scrapy -仅针对指定的URL Scrapy / Selenium -响应url未传递到web浏览器 Scrapy crawler在搜索时仅返回URL和Referrer Scrapy Spider未返回所有元素

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

Python反爬研究总结

反爬虫常见套路判断user-agent 校验referer头校验cookie 同一IP访问次数限制 js/ajax动态渲染页面反反爬虫应对策略 1、user-age

02

Scrapy爬取妹子图

本来呢，一开始想爬取的是这个网站，http://www.mzitu.com/,但是呢？问题发现比较多，所以先爬取了http://www.meizitu.com/这个网站，下一步再去爬取第一个。 Gi

08

爬虫0060：scrapy快速入门爬虫高级操作：Scrapy framework

官方网站：https://scrapy.org/，打开官方网站，可以看到一段关于scrapy的描述

01

Scrapy 爬虫框架[通俗易懂]

Scrapy是一个可以爬取网站数据，为了提取结构性数据而编写的开源框架。Scrapy的用途非常广泛，不仅可以应用到网络爬虫中，还可以用于数据挖掘、数据监测以及自动化测试等。Scrapy是基于Twisted的异步处理框架，架构清晰、可扩展性强，可以灵活完成各种需求。

03

Go 爬虫之 colly 从入门到不放弃指南

最近发现知乎上感兴趣的问题越来越少，于是准备聚合下其他平台技术问答，比如 segmentfault、stackoverflow 等。

05

爬虫课堂（十七）|Scrapy爬虫开发流程

Scrapy爬虫开发流程一般包括如下步骤： 1）确定项目需求。 2）创建Scrapy项目。 3）定义页面提取的Item。 4）分析被爬对象页面。 5）编写爬取网站的Spider并提取Item

05

Scrapy框架之利用ImagesPipeline下载图片

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/sinat_35512245/article/details/72802184

02

Scrapy学习

在 scrapy_test 项目中的目录 spiders 中创建文件 quotes_spider.py

02

Scrapy-Splash使用及代理失败处理

在日常做爬虫的时候肯定遇到这么一些问题，网页js渲染，接口加密等，以至于无法有效的获取数据，那么此时若想获取数据大致有两种方向，硬刚加密参数或使用渲染工具

02

JS动态加载以及JavaScript void(0)的爬虫解决方案

[1240] Intro ------------------------------ 对于使用JS动态加载, 或者将下一页地址隐藏为JavaScript void(0)的网站, 如何爬取我们要的信息

06

《Learning Scrapy》（中文版）第3章爬虫基础

本章非常重要，你可能需要读几遍，或是从中查找解决问题的方法。我们会从如何安装Scrapy讲起，然后在案例中讲解如何编写爬虫。开始之前，说几个注意事项。因为我们马上要进入有趣的编程部分，使用本书中的代码段会十分重要。当你看到： $ echo hello world hello world 是要让你在终端中输入echo hello world（忽略$），第二行是看到结果。当你看到： >>> print 'hi' hi 是让你在Python或Scrapy界面进行输入（忽略>>>）。同样的，第二行是输出结果。

06

(原创)七夜在线音乐台开发第三弹爬虫篇

上一篇咱们讲到了七夜音乐台的需求和所需要的技术。咱们今天就讲一下爬虫，为什么要讲爬虫，因为音乐台的数据源需要通过爬虫来获取，不可能手动来下载。下图是一个网络爬虫的基本框架: 网络爬虫的基本工作流程如下

03

scrapy爬虫:scrapy.FormRequest中formdata参数详解

在网页爬取的时候，有时候会使用scrapy.FormRequest向目标网站提交数据（表单提交）。参照scrapy官方文档的标准写法是：

02

Python:Resquest/Response

Request Request 部分源码： # 部分代码 class Request(object_ref): def __init__(self, url, callback=None, method='GET', headers=None, body=None, cookies=None, meta=None, encoding='utf-8', priority=0, dont_filter=False, errback=

01

Python爬虫实例——scrapy框架爬取拉勾网招聘信息

本文实例为爬取拉勾网上的python相关的职位信息, 这些信息在职位详情页上, 如职位名, 薪资, 公司名等等.

05

data pipeline是做什么_pycharm创建爬虫项目

爬取爱套图网图片：https://github.com/EExplode/scrapy_aitaotu

03

Scrapy 入门教程

爬虫就是Scrapy用来从网站抓取数据的类，它们都继承于scrapy.Spider类。

02

scrapy爬虫出现Forbidden by robots.txt[通俗易懂]

先说结论，关闭scrapy自带的ROBOTSTXT_OBEY功能，在setting找到这个变量，设置为False即可解决。使用scrapy爬取淘宝页面的时候，在提交http请求时出现debug信息Forbidden by robots.txt，看来是请求被拒绝了。开始因为是淘宝页面有什么保密机制，防止爬虫来抓取页面，于是在spider中填入各种header信息，伪装成浏览器，结果还是不行。。。用chrome抓包看了半天感觉没有影响简单页面抓取的机制（其他保密机制应该还是有的，打开一个页面时，向不同服务器递交了很多请求，还设定了一些不知道干啥的cookies），最后用urllib伪造请求发现页面都能抓取回来。于是上网查了一下robot.txt是什么，发现原来有个robot协议，终于恍然大悟：我们观察scrapy抓包时的输出就能发现，在请求我们设定的url之前，它会先向服务器根目录请求一个txt文件：

01

三行代码，轻松实现 Scrapy 对接新兴爬虫神器 Playwright！

前段时间发布了一篇文章介绍一个新兴的类似 Selenium、Pyppeteer 的自动化爬取工具，叫做 Playwright，文章见：强大易用！新一代爬虫利器 Playwright 的介绍

04

JS动态加载以及JavaScript void(0)的爬虫解决方案

# Intro 对于使用JS动态加载, 或者将下一页地址隐藏为 JavaScriptvoid(0)的网站, 如何爬取我们要的信息呢本文以 Chrome浏览器为工具, 36Kr为示例网站, 使用 Json Handle 作为辅助信息解析工具, 演示如何抓取此类网站. # Detail Step 1. 按下 F12 或右键检查进入开发者工具 Step 2. 选中Network一栏, 筛选 XHR请求 XHR 即 XMLHttpRequest, 可以异步或同步返回服务器响应的请求, 并且能够以文本或者一个 DO

02

聊聊逆向爬取数据

最好的挣钱方式是钱生钱，怎样钱生钱呢，钱生钱可以通过投资，例如买股票、基金等方式，有人可能说买股票基金发财，我没这样的命和运气。买股票基金靠的不只有命运和运气，更多靠的是长期的经验和对股票基金数据的分析，今天我们使用scrapy框架来js逆向爬取某证信数据平台的国内指数成分股行情数据。

02

数据挖掘微博：爬虫技术揭示热门话题的趋势

微博是中国最大的社交媒体平台之一，每天有数亿用户在上面发表自己的观点、分享自己的生活、参与各种话题。微博上的热门话题反映了用户的关注点和社会的动态，对于分析舆情、预测市场、探索文化等方面都有重要的价值。本文将介绍如何使用爬虫技术从微博上抓取热门话题的数据，并通过可视化的方式展示热门话题的变化趋势。

01

Python Scrapy框架之Selector选择器

对用爬取信息的解析，我们在之前已经介绍了正则re、Xpath、Beautiful Soup和PyQuery。而Scrapy还给我们提供自己的数据解析方法，即Selector（选择器）。 Select

02

数据获取:认识Scrapy

本节介绍一个普通流程的爬虫框架——Scrapy，它提供了一个通用性的开发规范，帮助开发者做好了通用性的功能，只需要自定义发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容。在最后的实战项目中，我们将会使用Scrapy来做数据采集并进行深度的数据分析和可视化。

02

Scrapy框架的使用之Scrapy入门

接下来介绍一个简单的项目，完成一遍Scrapy抓取流程。通过这个过程，我们可以对Scrapy的基本用法和原理有大体了解。一、准备工作本节要完成的任务如下。创建一个Scrapy项目。创建一个Spider来抓取站点和处理数据。通过命令行将抓取的内容导出。将抓取的内容保存的到MongoDB数据库。二、准备工作我们需要安装好Scrapy框架、MongoDB和PyMongo库。三、创建项目创建一个Scrapy项目，项目文件可以直接用scrapy命令生成，命令如下所示： scrapy st

03

爬虫系列（11）Scrapy 数据的提取和保存以及Pipeline的介绍。

从网页中提取数据，Scrapy 使用基于 XPath 和 CSS 表达式的技术叫做选择器。以下是 XPath 表达式的一些例子：

03

王老板Python面试（9）：整理的最全 python常见面试题（基本必考）

1）迭代器是一个更抽象的概念，任何对象，如果它的类有next方法和iter方法返回自己本身。对于string、list、dict、tuple等这类容器对象，使用for循环遍历是很方便的。在后台for语句对容器对象调用iter()函数，iter()是python的内置函数。iter()会返回一个定义了next()方法的迭代器对象，它在容器中逐个访问容器内元素，next()也是python的内置函数。在没有后续元素时，next()会抛出一个StopIteration异常

01

Python3爬虫学习.md

(1) urllib 简单的爬取指定网站 (2) Scrapy 爬虫框架 (3) BeautifulSoup 爬虫解析

01

Python3爬虫学习.md

(1) urllib 简单的爬取指定网站 (2) Scrapy 爬虫框架 (3) BeautifulSoup 爬虫解析

03

干货 | 2020十大Python面试题，你会几个？

对于基本网页的抓取可以自定义headers,添加headers的数据使用多个代理ip进行抓取或者设置抓取的频率降低一些，动态网页的可以使用selenium + phantomjs 进行抓取对部分数据进行加密的，可以使用selenium进行截图，使用python自带的pytesseract库进行识别，但是比较慢最直接的方法是找到加密的方法进行逆向推理。

01

Scrapy 爬虫框架入门案例详解

本文介绍了如何使用 Scrapy 框架爬取知乎用户详细信息并存储到 MongoDB 数据库的过程。通过分析网页结构，使用 Scrapy 框架和 XPath、CSS 选择器提取数据，并利用 Spider 的 Item 输出格式将数据保存至 MongoDB 数据库。

00

Splash抓取jd

在上一篇文章中，链接如下：https://www.cnblogs.com/xiao987334176/p/13656055.html

06

Python入门网络爬虫之精华版

首先列举一下本人总结的相关文章，这些覆盖了入门网络爬虫需要的基本概念和技巧：宁哥的小站-网络爬虫

02

python爬虫----（scrapy框架提高（1），自定义Request爬取）

最近看scrappy0.24官方文档看的正心烦的时候，意外发现中文翻译0.24文档，简直是福利呀~ http://scrapy-chs.readthedocs.org/zh_CN/0.24/

02

Scrapy框架下第一个爬虫

当你运行下面命令时，Scrapy框架会启动爬虫引擎，根据myspider.py中的逻辑进行抓取网页，然后把结果存到result.json中。

03

Python —— 一个『拉勾网』的小爬虫

本文将展示一个 Python 爬虫，其目标网站是『拉勾网』；题图是其运行的结果，这个爬虫通过指定『关键字』抓取所有相关职位的『任职要求』，过滤条件有『城市』、『月薪范围』。并通过百度的分词和词性标注服务（免费的），提取其中的关键字，这个爬虫有什么用？有那么一个问题模板，xx 语言 / 方向 xx 月薪需要掌握什么技能对于这种问题，招聘网站上的信息大概是最为『公正客观』，所以这个爬虫的输出可以『公正客观』的作为求职者的技能树发展指南......个屁；如果全盘相信招聘网上写的，估计离凉凉就不远了。其上面

05

一篇了解爬虫技术方方面面

原理传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂，需要根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列。然后，它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL，并重复上述过程，直到达到系统的某一条件时停止。另外，所有被爬虫抓取的网页将会被系统存贮，进行一定的分析、过滤，并建立索引，以便之后的查询和检索；所以一个完整的

09

一篇了解爬虫技术方方面面

传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂，需要根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列。

04

一篇了解爬虫技术方方面面

传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂，需要根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列。

02

干货|普通反爬虫机制的应对策略

爬虫与反爬虫，这相爱相杀的一对，简直可以写出一部壮观的斗争史。而在大数据时代，数据就是金钱，很多企业都为自己的网站运用了反爬虫机制，防止网页上的数据被爬虫爬走。然而，如果反爬机制过于严格，可能会误伤到

Python爬虫入门教程 34-100 掘金网全站用户爬虫 scrapy

已经编写了33篇爬虫文章了，如果你按着一个个的实现，你的爬虫技术已经入门，从今天开始慢慢的就要写一些有分析价值的数据了，今天我选了一个《掘金网》，我们去爬取一下他的全站用户数据。

03

SCRAPY学习笔记八反反爬虫技术项目实战

在爬取简单的页面则很轻松的可以抓取搞定，但是如今一个b***p项目(不透露)，需要抓取的网站有比较强悍的反爬虫技术，我们也提高作战技术，汇总并逐步实现反爬虫技术。

01

爬虫快速入门

本文节选自《Netkiller Java 手札》 11.4. 爬虫项目 11.4.1. 创建项目创建爬虫项目 scrapy startproject project 在抓取之前，你需要新建一个Scrapy工程 neo@MacBook-Pro ~/Documents % scrapy startproject crawler New Scrapy project 'crawler', using template directory '/usr/local/lib/python3.6/site-pac

05

Scrapy入门到放弃06：Spider中间件

写一写Spider中间件吧，都凌晨了，一点都不想写，主要是也没啥用...哦不，是平时用得少。因为工作上的事情，已经拖更好久了，这次就趁着半夜写一篇。

01

Scrapy命令行工具

在 project_name 文件夹下创建一个名为 project_name 的Scrapy项目。语法：

03

使用Scrapy框架爬取土巴兔

我们为什么要使用Scrapy，而不使用其他爬虫框架，除了成熟稳定之外，还有很多其他优势。

04

走过路过不容错过，Python爬虫面试总结

Selenium 是一个Web 的自动化测试工具，可以根据我们的指令，让浏览器自动加载页面，获取需要的数据，甚至页面截屏，或者判断网站上某些动作是否发生。Selenium 自己不带浏览器，不支持浏览器的功能，它需要与第三方浏览器结合在一起才能使用。但是我们有时候需要让它内嵌在代码中运行，所以我们可以用一个叫 PhantomJS 的工具代替真实的浏览器。Selenium库里有个叫 WebDriver 的API。WebDriver 有点儿像可以加载网站的浏览器，但是它也可以像BeautifulSoup 或者其他Selector 对象一样用来查找页面元素，与页面上的元素进行交互 (发送文本、点击等)，以及执行其他动作来运行网络爬虫。

02

爬虫课堂（十九）|编写Spider之使用Item封装数据

在前面的章节我们学习了使用Selector提取数据，那么接下来要做的就是如何封装这些数据。以提取简书文章信息为例，我们需要获取文章标题，文章URL和文章的作者名称信息字段。应该用怎样的数据结构来封装这些零散的信息字段呢？最简单的方式就是使用Python字典（dict），如下。 jianshu = ----{ --------'title': '文章标题', --------'url': '文章URL', --------'author_name':'文章的作者' ----} 但是使用Python字典存

07

python scrapy爬取HBS 汉

https://www.hamburgsud-line.com/liner/en/liner_services/ecommerce/track_trace/index.html

04

scrapy爬虫抓取并下载文件

scrapy 内部提供了专门用于下载文件的 FilesPipeline , 我们可以将其视为特殊的下载器，只需要将要下载的文件 url 传递过去，下载器就会自动将文件下载到本地

01

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭