开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

为什么scrapy在我的本地站点上找不到任何东西？

Scrapy是一个用于爬取网站数据的Python框架，它可以帮助开发者快速、高效地从网页中提取所需的数据。当在本地站点上使用Scrapy时，如果找不到任何东西，可能是以下几个原因导致的：

网站结构问题：Scrapy依赖于网页的HTML结构来提取数据，如果网站的HTML结构发生了变化，可能会导致Scrapy无法正确提取数据。可以通过检查网站的HTML源代码，确认网站结构是否发生了变化。
网站访问限制：有些网站会设置反爬虫机制，限制爬虫程序的访问。这些限制可能包括IP封禁、验证码、登录等。如果你的本地站点设置了这些限制，Scrapy可能无法正常访问网站。可以尝试使用代理IP、处理验证码或模拟登录等方法来解决这个问题。
爬虫配置问题：Scrapy的爬虫需要正确配置才能正常工作。可能是你的爬虫配置有误，导致无法找到任何东西。可以检查爬虫的代码，确认是否正确设置了起始URL、提取规则等。
网络连接问题：如果你的本地站点无法正常连接到互联网，Scrapy将无法访问任何网站。可以检查网络连接是否正常，尝试访问其他网站确认网络是否正常工作。

总结起来，Scrapy在本地站点上找不到任何东西可能是由于网站结构问题、网站访问限制、爬虫配置问题或网络连接问题导致的。需要仔细检查以上几个方面，逐一排查并解决问题。

相关搜索:为什么scrapy在特定的站点上不能工作？为什么我的scrapy没有抓到任何东西？为什么我的VBA .Find找不到任何东西？我无法在我的mac上安装scrapy 为什么我在listview上看不到任何东西？为什么我在屏幕上看不到任何东西？您好，我是一个新手，我正在尝试使用scrapy抓取一个特定的站点，但是我的scrapy程序没有返回任何东西为什么我的api路由在Postman上测试时不会返回任何东西？getInitialProps在我的实时站点上导致ERR_TOO_MANY_REDIRECTS错误，但不是在我的本地版本上为什么预加载在站点的本地开发版本和站点的本地导出版本中表现不同？为什么在我的WordPress站点上PHP没有显示任何错误消息？为什么这个wordpress JS函数在我本地的wordpress站点上不起作用？为什么我在scrapy中提示@class的syntex无效？在out服务器上克隆Laravel站点后，我找不到丢失的内容为什么我的站点在Safari上呈现得这么慢？为什么我的代码没有在文件中写任何东西(txt)导入我的scrapy脚本抛出无法在方法上导入我使用filezilla从远程站点下载了我的网站文件进行编辑。但我在我的机器上找不到。为什么我在本地看到的远程分支比在github上看到的多？为什么我的代码可以在某些站点上运行，但在NetBeans中不能运行？

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

谈 DevOps 平台实施：我在本地跑明明成功的，为什么在你平台跑就报错？

我在本地跑明明成功的，为什么在你平台跑就报错？用户在 Jenkins 上跑构建时，失败了，把日志截图给我看，如下图： ?...这样的日志，我通常回：请检查你们的依赖，是不是有依赖没有上传到咱们的 Nexus 仓库。验证方法是先在本地删除你的 .m2 目录，然后再执行一次构建。...我觉得 DevOps 平台是不是可以直截了当地告诉用户： xxx 依赖在 Nexus 仓库（maven.abc.com）中没有找到，请您先 deploy 该依赖到 Nexus 仓库后，再执行此任务。...我检查了他的 pom.xml 文件，发现版本号的定义也是正确的。可是，放在 Jenkins 上执行时，使用的还是旧版本的类的定义。这就奇怪了。这种情况还是头一回遇到。...而 Maven 检测到本地就该版本的依赖，就不会重新下载了。最后，就是大家看到的，本地可以，但是 Jenkins 上就是不行。

7021 0

为什么我建议在复杂但是性能关键的表上所有查询都加上 force index

对于 MySQL 慢 SQL 的分析在之前的文章，我提到过 SQL 调优一般通过下面三个工具： EXPLAIN：这个是比较浅显的分析，并不会真正执行 SQL，分析出来的可能不够准确详细。...这里再说一下在不同的 MySQL 版本， EXPLAIN 和 OPTIMIZER TRACE 结果可能不同，这是 MySQL 本身设计上的不足导致的，EXPLAIN 更贴近最后的执行结果，OPTIMIZER...但是不能直观的看出来为啥会走错索引，需要通过 OPTIMIZER TRACE 进行进一步定位。但是在进一步定位之前，我想先说一下 MySQL 的 InnoDB 查询优化器数据配置。...这也引出了一个新的可能大家也会遇到的问题，我在原有索引的基础上，加了一个复合索引（举个例子就是原来只有 idx_user_id，后来加了 idx_user_status_pay），那么原来的只按照 user_id...所以最好一开始就能估计出大表的量级，但是这个很难。结论和建议综上所述，我建议线上对于数据量比较大的表，最好能提前通过分库分表控制每个表的数据量，但是业务增长与产品需求都是不断在迭代并且变复杂的。

1.3K2 0

Python3.5.2在win 10下

最近开始学习爬虫，于是准备安装一个Scrapy框架，本着自己长期以来安装任何东西都会遇到特殊情况的心理，一开始就做好了准备，可是还是有一些方。...python3.5以后是默认安装好的pip和esay_install(setuptool),最初在使用python安装scrapy一开始在官网上下载好压缩文件，直接在cmd下进入存放目录利用如下命令本地安装...： python setup.py install 这时在安装快要完成时弹出一个错误 error: unable to find vcvarsall.bat 中途我百度了很多方法：下载vs2008，或者...mingw32这种方法（没试过，比较复杂，见有人改了不行）但都没有很好的解决问题，于是我采用了pip快捷安装的方式，最终也会曝出一连串莫名其妙的错误，后来我在网上找到了一种方法成功解决了问题，步骤如下...）在cmd进入存放目录安装lxml和Twisted： pip install wheel pip install lxml.whl pip install Twisted.whl 之后再进入scrapy

4461 0

Scrapy常见问题

介绍下scrapy框架。 scrapy 是一个快速(fast)、高层次(high-level)的基于 python 的 web 爬虫构架，用于抓取web站点并从页面中提取结构化的数据。...' SCHEDULER_MEMORY_QUEUE = 'scrapy.squeue.FifoMemoryQueue' 为什么 Scrapy 下载了英文的页面，而不是我的本国语言？...该(默认启用的)中间件筛选出了不属于当前 spider 的站点请求。我能对大数据(large exports)使用 JSON 么？这取决于您的输出有多大。...实际上，这也是 feed spider(参考 Spiders )中的处理方法。 Scrapy 自动管理 cookies 么？...是的，Scrapy 接收并保持服务器返回来的 cookies，在之后的请求会发送回去，就像正常的网页浏览器做的那样。

1.2K3 0

《Learning Scrapy》（中文版）第1章 Scrapy介绍HelloScrapy喜爱Scrapy的其它理由关于此书：目标和用法掌握自动抓取数据的重要性开发高可靠高质量的应用提供真实的开发进

除了前面提到的性能的优点，以下是Scrapy其它让人喜爱的理由： Scrapy可以读懂破损的HTML 你可以在Scrapy上直接使用BeautifulSoup或lxml，但Scrapy提供Selector...当你抓取一个数据源时，自然会有一些问题：我相信他们的数据吗？我相信提供数据的公司吗？我应该和它们正式商谈合作吗？我和他们有竞争吗？从其他渠道获得数据花费是多少？...对于著作权，可以查看网站的著作权信息，以确认什么可以抓取什么不能抓取。大多数站点允许你处理网站的信息，只要不复制并宣称是你的。...最后，最好提供可以让站长提出拒绝抓取的方法。至少，可以让他们很容易地找到你，并提出交涉。每个国家的法律不同，我无意给出法律上的建议。如果你觉得需要的话，请寻求专业的法律建议。这适用于整本书的内容。...Scrapy不是Apache Nutch，即它不是一个原生的网络爬虫。如果Scrapy访问一个网站，它对网站一无所知，就不能抓取任何东西。

1.4K4 0

(原创)七夜在线音乐台开发第三弹爬虫篇

上一篇咱们讲到了七夜音乐台的需求和所需要的技术。咱们今天就讲一下爬虫，为什么要讲爬虫，因为音乐台的数据源需要通过爬虫来获取，不可能手动来下载。...大家如果想切实的感受一下网络爬虫，看一下我之前写的python爬虫:爬取慕课网视频，大家会对爬虫的基本工作原理有比较深的了解。　　说到爬虫，不得不提及一下Scrapy的爬虫架构。...crapy，是Python开发的一个快速,高层次的爬虫框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。...在开始爬取之前，您必须创建一个新的Scrapy项目。...例子，XPath实际上要比这远远强大的多。

1.1K3 1

CQRS

为什么80%的码农都做不了架构师？>>> ? 对于复杂的系统来说，上面的做法做确实很不错。但是对于一个简单地系统来说，这样做是不是玩过火了？...带缓存的Web架构而实际上这样的服务器可能是多余的——我们为什么不直接生成HTML就好了？...Hexo站点工作流我们在本地生成我们的项目，然后可以创建一个新的博客、开始编写内容等等。接着，我们可以在本地运行起这个服务，除了查看博客的内容，还可以修改样式等等。...完成上面的工作后，我们就可以生成静态内容，然后部署我们的应用到GitHub Page上。这一切看上去都完美。...但是作为一个前端开发人员，没有JSON，用不了Ajax请求，我怎么把我的博客做成一个单页面应用？编辑-发布-开发分离 ? 基于git的编辑-发布分离对于有大量数据的网站怎么办？

1.3K4 0

沪漂小窝(多城市)租房信息整合系统V4.0

这里先学习一下Scrapy，其实比较简单。多城市的支持只是在Scrapy添加多个爬虫，但是因为都是同一个网站，所以处理方法都是通用的。...PC端地址更新为： https://hupiao.mlscoder.cn 【账号发布次数】是最近30天被爬虫抓取到本地数据库中当前帖子创建者发布的帖子数。...【地铁站点、价格区间】在v3中这两个选项是文本输入框，不是很符合懒人，所以在v4中修改为选择框的形式。查询小程序端使用是SpringBoot搭建后台服务，提供小程序端的查询和服务。...详情点沪漂小窝 ※ 老版本中有一个定时推送的功能，在最新版本已经删除了，因为我发现，这个功能比较鸡肋，因为在这上面的多数信息都是中介发的，并没有实际的推送价值。...小程序服务端： https://github.com/mlscoder/hupiao_miniapp_service 使用tips： Scrapy爬虫+PC端（重点）放在github上。

4711 0

爬虫进阶：Scrapy入门

进阶前言学Py和写爬虫都有很长一段时间了，虽然工作方面主要还是做Java开发，但事实上用python写东西真的很爽。...其实Java也有好几个不错的爬虫框架，那为什么不选择Java？呵呵，人生苦短，用Python没错，何况它现在这么火。 ...项目框架已经搭起来了，紧接着示例下如何第一个爬虫，可以自己在spiders目录下手动创建爬虫类，也可以用scrapy提供的快捷命令scrapy genspider {spider-name} {target-website...}快速生成指定名称的目标站点爬虫(参考如下)。...scrapy genspider {spider-name} {target-domain} 创建目标站点指定名称爬虫 scrapy shell {url} 调试抓取的指定网页 -s USER_AGENT

5612 0

Scrapy对接Docker

我们在本地写好了一个Scrapy爬虫项目，想要把它放到服务器上运行，但是服务器上没有安装Python环境。...其他人给了我们一个Scrapy爬虫项目，项目使用包的版本和本地环境版本不一致，项目无法直接运行。...本章Scrapy入门一节已经实现了Scrapy对此站点的爬取过程，项目代码为：https://github.com/Python3WebSpider/ScrapyTutorial。...，在这里我们直接使用python:3.6的镜像，在此基础上运行Scrapy项目。...，代表本地当前路径；第二个参数是/code，代表虚拟容器中的路径，也就是将本地项目所有内容放置到虚拟容器的/code目录下，以便于在虚拟容器中运行代码。

1.7K3 1

Python网络爬虫---scrapy通用爬虫及反爬技巧

在逻辑上十分简单(相较于具有很多提取规则的复杂的spider)，数据会在另外的阶段进行后处理(post-processed) 并行爬取大量网站以避免被某个网站的限制所限制爬取的速度(为表示尊重，每个站点爬取速度很慢但同时爬取很多站点...不过最好的方式是做一些测试，获得Scrapy进程占取CPU与并发数的关系。为了优化性能，您应该选择一个能使CPU占用率在80%-90%的并发数。...当进行通用爬取时，一般的做法是保存重定向的地址，并在之后的爬取进行解析。这保证了每批爬取的request数目在一定的数量，否则重定向循环可能会导致爬虫在某个站点耗费过多资源。...扩展是如何实现的在Scrapy中，下载延迟是通过计算建立TCP连接到接收到HTTP包头(header)之间的时间来测量的。...注意，由于Scrapy可能在忙着处理spider的回调函数或者无法下载，因此在合作的多任务环境下准确测量这些延迟是十分苦难的。

1.3K5 2

Scrapy vs BeautifulSoup

BeautifulSoup在Python 2和Python 3上运行良好，因此兼容性不成问题，下面是BeautifulSoup的一个代码示例，正如你所看到的，它非常适合初学者。...Scrapy是一个web爬行框架，开发人员可以编写代码来创建spider，它定义了某个站点（或一组站点）将如何被爬行。...最大的特点是它建立在Twisted（一个异步网络库）上，所以Scrapy是使用非阻塞（又称异步）代码来实现并发的，这使得sspider的性能非常好。...Scrapy在Python 2和Python 3上也能很好运行，因此兼容性也不成问题。它内置了使用xpath表达式和css表达式从html源提取数据的支持。...Scrapy有很多相关的项目，插件开源在Github上，还有很多关于stackoverflow的讨论可以帮助你解决潜在的问题。

2.2K2 0

Python 初学者常见错误——我有 Anaconda 了，还能单独安装 Python 吗？

我要告诉你的是，不仅仅原来有 Anaconda 以后还能安装官网的 Python，实际上你电脑里面想安装多少个 Python 都可以。甚至你想在电脑上面安装10个 Python3.7.1也可以。...你安装 Python，本质上就是在电脑上安装了一个文件夹，这个文件夹里面有一个 python.exe和各种子文件夹。...那么当我们在 CMD 里面直接输入 python xxx.py的时候，它用的是哪个 Python 呢？实际上这根本就不关 Python 的事情。这是系统的环境变量决定的。...所以，可能会出现这样的情况，你在 Python 3.7.2环境里面安装了 Scrapy，但是在 CMD 里面运行却提示找不到 scrapy命令。...这就解释了为什么当你创建一个虚拟环境以后，再把系统环境的 Python 删掉，你会发现虚拟环境的 Python 也不能运行了。总之一句话，如果你想在一个电脑上安装多个 Python，这没有任何问题。

17.9K4 0

小程序开发（一）：使用scrapy爬虫

过完年回来，业余时间一直在独立开发一个小程序。主要数据是8000+个视频和10000+篇文章，并且数据会每天自动更新。...之前写过很多爬虫，这次我们选择了python的scrapy库。...关于scrapy，百度百科解释如下： Scrapy，Python开发的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。...学习scrapy，最好的方式就是先阅读一遍文档（Scrapy 1.6 documentation），然后照着文档里的例子写一写，慢慢就熟悉了。...scrapy爬虫项目的部署 scrapy爬虫项目的部署，我们使用官方的scrapyd即可，使用方法也比较简单，在服务器上安装scrapyd并且启动即可，然后在本地项目中配置deploy的路径，本地安装scrapy-client

9981 0

pycharm中创建虚拟环境「建议收藏」

大家好，又见面了，我是你们的朋友全栈君。...1 什么是虚拟环境虚拟环境是用于依赖项管理和项目隔离的Python工具，允许Python站点包（第三方库）安装在本地特定项目的隔离目录中，而不是全局安装（即作为系统范围内的Python的一部分）。...虚拟环境只是一个包含三个重要组件的目录： · 安装了第三方库的site-packages /文件夹。 · 系统上安装的Python可执行文件的symlink符号链接。...· 确保执行Python代码的脚本使用在给定虚拟环境中安装的Python解释器和站点包。 2.为什么使用虚拟环境？...在实际项目开发中，我们通常会根据自己的需求去下载各种相应的框架库，如Scrapy、Beautiful Soup等，但是可能每个项目使用的框架库并不一样，或使用框架的版本不一样，这样需要我们根据需求不断的更新或卸载相应的库

1.1K3 0

完整的 Django 零基础教程|初学者指南 - 第 1 部分转自：维托尔·弗雷塔斯

那时我想出了在文本中创作一些漫画来说明一些概念和场景的想法。我希望你喜欢阅读！但在我们开始之前…… 回到大学做代课教授的时候，我曾经在计算机科学课程中为新来的学生教授 Web 开发学科的介绍。...我总是用孔子的话开始新的课程： ? 孔子名言所以，动手吧！不要只阅读教程。我们一起做吧！通过实践和实践，你会学到更多。 为什么是Django？...使用虚拟环境，您开发的每个项目都有其独立的环境。所以依赖不会发生冲突。它还允许您在本地机器上维护在不同 Django 版本上运行的项目。使用起来非常简单，你会看到的！...所以你可以玩，安装包，卸载包而不会破坏任何东西。我喜欢在我的个人电脑上创建一个名为Development 的文件夹。然后，我用它来组织我所有的项目和网站。...在我们激活venv 环境后，当我们运行 python命令时，它将使用我们的本地副本，存储在venv 中，而不是我们之前安装的另一个副本。

1.1K2 0

爬虫相关

因此，为了增量爬取，我们需要将前10页请求的指纹保存下来。以下命令是将内存中的set里指纹保存到本地硬盘的一种方式。...安装 pip install Scrapy 缺少twisted装不上的直接去网上下载动态库：https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted 新建项目...设置目标： 1、比使用默认的下载延迟对站点更好 2、自动调整scrapy到最佳的爬取速度，所以用户无需自己调整下载延迟到最佳状态。...注意，由于Scrapy可能在忙着处理spider的回调函数或者无法下载，因此在合作的多任务环境下准确测量这些延迟是十分苦难的。...scrapy-redi重写了scrapy一些比较关键的代码，将scrapy变成一个可以在多个主机上同时运行的分布式爬虫。

1.2K2 0

爬虫技术难学吗?作为一个过来人给出一些经验之谈

scrapy使用可以说是频次最高的，在居理的时候，基于scrapy和django-scrapy-admin改版过可实现UI界面按点操作的高度灵活、自定义的爬虫。...但是更精细的操作，比如说在pipeline.py文件中，scrapy要在其中自定义入库前的处理，或者针对图片的精细化处理，比如说scrapy采集过来的数据是在full目录下，但是你采集源文章主体部分，一般都是相应开源程序...因为我爬虫的目的都是给自己站点提供更新内容，所以，内容的伪原创特别重要，如果能把文章伪原创做的与各引擎检索库存在文章相异度极大，同时，针对于站点各聚合页面有很好的组织方式，便于引诱蜘蛛提高收录量、提高站点整体权重...比如说我抓取10000个站点，怎么把这10000个站点采集到的各自专题方向的数据都聚合到一个地方，让后面清洗、加工工种人员更高效介入？...，就算加了，加工时候取数点太多，多结点数据再整合又成新问题了，所以怎么来分散这种压力，同时又能把各自主题内容合理划分，让后面清洗、加工更高效聚集在自己业务上就成了当务之急需解决的问题了，那该怎么办呢？

3281 0

知乎Python大佬带你10分钟入门Python爬虫（推荐收藏）

从技术层面来说就是通过程序模拟浏览器请求站点的行为，把站点返回的HTML代码/JSON数据/二进制数据（图片、视频）爬到本地，进而提取自己需要的数据，存放起来使用。...，如：图片，js，css等） ps：浏览器在接收Response后，会解析其内容来显示给用户，而爬虫程序在模拟浏览器发送请求然后接收Response后，是要提取其中的有用数据。...缺点：处理数据不稳定、工作量大 2.3 XPath Xpath(XML Path Language) 是一门在 XML 文档中查找信息的语言，可用来在 XML 文档中对元素和属性进行遍历。...在python中主要使用 lxml 库来进行xpath获取（在框架中不使用lxml，框架内直接使用xpath即可） lxml 是一个HTML/XML的解析器，主要的功能是如何解析和提取 HTML/XML...引擎，我这里有两个结果，这个是我需要跟进的URL，还有这个是我获取到的Item数据。引擎：Hi ！管道我这儿有个item你帮我处理一下！调度器！这是需要跟进URL你帮我处理下。

1.9K4 0

Scrapy+MongoDB 轻松爬取海量妹子图

全文758字 | 阅读需要7分钟今天要完成的项目的是用 Scrapy 框架爬取煎蛋网妹子图片，这个项目之前用常规方法已经做过一次，为什么这次还要做这个项目呢？...之前上传到 Github 上的代码是正确的。所以这次还是用这个项目来学习下，咳咳，我们真的是用来学习的。先放两张爬取的图片来给大家一点学习的动力。 ? ?...保存到本地在本地新建好保存图片的路径。...运行爬虫框架有两种方法可运行，我用的是第二种。 1. cmd 中输入命令运行 scrapy crawl jiandan 2....from scrapy.cmdline import execute execute(['scrapy', 'crawl', 'jiandan']) 下面是储存在本地的图片。 ?

1.7K1 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭