开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Scrapy文件在运行后没有输出，但选择器在scrapy shell中工作

Scrapy是一个用于爬取网站数据的Python框架。它提供了强大的工具和功能，可以帮助开发人员快速、高效地从网页中提取所需的数据。

当Scrapy文件在运行后没有输出，但选择器在scrapy shell中工作时，可能有以下几个可能的原因和解决方法：

网站结构变化：如果Scrapy文件在运行时没有输出，可能是因为目标网站的结构发生了变化，导致无法正确提取数据。解决方法是检查目标网站的HTML结构是否发生了变化，并相应地更新Scrapy文件中的选择器。
网络连接问题：如果Scrapy文件在运行时没有输出，可能是因为网络连接出现了问题，无法访问目标网站。解决方法是检查网络连接是否正常，确保能够正常访问目标网站。
User-Agent设置：有些网站会根据User-Agent来限制爬虫的访问。如果Scrapy文件在运行时没有输出，可能是因为User-Agent被目标网站识别并限制了访问。解决方法是在Scrapy文件中设置合适的User-Agent，使其看起来像是一个正常的浏览器请求。
日志级别设置：Scrapy提供了不同的日志级别，可以控制输出的详细程度。如果Scrapy文件在运行时没有输出，可能是因为日志级别设置得太低，导致没有输出信息。解决方法是在Scrapy文件中设置合适的日志级别，以便查看更详细的输出信息。
数据提取错误：如果Scrapy文件在运行时没有输出，但选择器在scrapy shell中工作，可能是因为在Scrapy文件中的数据提取过程中出现了错误。解决方法是检查Scrapy文件中的数据提取代码，确保正确地使用选择器提取所需的数据。

总结起来，当Scrapy文件在运行后没有输出，但选择器在scrapy shell中工作时，需要检查目标网站的结构变化、网络连接是否正常、User-Agent设置是否正确、日志级别设置是否合适以及数据提取代码是否正确。根据具体情况进行相应的调试和修改。

相关搜索:Dockerfile在文件夹中运行scrapy crawl命令 Python文件在VSCode中工作，但作为可执行文件运行时会自动崩溃 Scrapy Crawler在shell中工作，但不在代码中工作 Scrapy可以在shell中工作，但不能在代码中工作。scrapy脚本在shell中运行良好，但在crawler上不起作用 Terraform -有没有办法捕获shell脚本输出(从远程vm)并将其存储在Terraform输出(本地/领事上的状态文件)中？为什么在php中运行while循环后没有输出？函数在javascript文件中运行，但没有嵌入到html文件中。在git filter-branch之后，再次运行它会得到HEAD:在工作树中没有这样的文件在Intellij idea中运行"ng lint --fix“后，"lint-staged”包没有提交更新的文件

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

scrapy 框架入门

scrapy runspider baidu_spider.py的绝对路径 shell # scrapy shell url地址在交互式调试，如选择器规则正确与否...scrapy shell https://www.baidu.com/ # 进入交互环境后，可执行命令： response.text...fetch https://www.baidu.com/ # 直接获取所有信息，类似shell但没有交互调试 view # 下载完毕后直接弹出浏览器，...# -v查看scrapy依赖库的版本 Project-only commands: # 必须切到项目文件夹下才能执行 crawl # 运行爬虫，必须创建项目才行，确保配置文件中...： scrapy.cfg：项目的主配置信息，用来部署scrapy时使用，爬虫相关的配置信息在·settings.py·文件中； items.py：设置数据存储模板，用于结构化数据，如：Django的Model

6152 0

开启Scrapy爬虫之路

它就是创建项目的命令，肯定是没有项目也能运行；详细用法说明： startproject # 使用频次最高，用于项目创建，eg:创建一个名为：cnblogSpider的项目 scrapy strartproject...； crawl是基于项目运行，runspide是基于文件运行，也就是说你按照scrapy的蜘蛛格式编写了一个py文件，如果不想创建项目，就可以使用runspider，eg:编写了一个：test.py...的蜘蛛，你要直接运行就是： scrapy runspider test.py shell # 这个命令比较重要，主要是调试用，里面还有很多细节的命令 # 最简单常用的的就是调试，查看我们的选择器到底有木有正确选中某个元素...用法很简单： scrapy fetch http://www.scrapyd.cn 就这样，如果你要把它下载的页面保存到一个html文件中进行分析，我们可以使用window或者linux的输出命令，...创建好项目之后，直接使用pycharm打开，继续工作即可结构性文件自动生成，把框架填充起来即可 ?

6764 2

爬虫之scrapy框架（一）

爬虫中间件(Spider Middlewares) 位于EGINE和SPIDERS之间，主要工作是处理SPIDERS的输入（即responses）和输出（即requests） 1.3安装 windows...settings #如果是在项目目录下，则得到的是该项目的配置 runspider #运行一个独立的python文件，不必创建项目 shell...#scrapy shell url地址在交互式调试，如选择器规则正确与否 fetch #独立于程单纯地爬取一个页面，可以拿到请求头 view...2.1项目创建 # 通过命令创建项目，到指定的文件夹下 # 创建项目（django中创建项目） scrapy startproject 项目名字 # 创建爬虫（django中创建app）在spiders...# 打开项目，pycharm打开 # 运行爬虫命令行下 scrapy crawl 爬虫名字 scrapy crawl 爬虫名字 --nolog # 不打印日志 # 运行爬虫 py文件在项目目录下创建一个

7653 0

Python——Scrapy初学

安装完这两个模块后我在进行爬虫操作的时候提示没有win32api，该文件为exe，下载地址为https://sourceforge.net/projects/pywin32/files/pywin32/...在Shell中尝试Selector选择器为了介绍Selector的使用方法，接下来我们将要使用内置的Scrapy shell。...你需要先进入项目的根目录，执行下列命令来启动Scrapy shell： scrapy shell “http://www.imooc.com/course/list” shell的输出类似： ?...在Shell载入后，你将获得response回应，存储在本地变量response中。...在Python编写时，由于没有学习过Xpath，所以我先在cmd中编写试验得到正确的返回结果后再写入代码中，注意shell根据response的类型自动为我们初始化了变量sel，我们可以直接使用。

1.8K10 0

使用Scrapy从HTML标签中提取数据

使用Scrapy Shell Scrapy提供了两种简单的从HTML中提取内容的方法： response.css()方法使用CSS选择器来获取标签。...要检索链接内所有图像的资源地址，请使用： response.xpath("//a/img/@src") 您可以尝试使用交互式的Scrapy shell：在您的网页上运行Scrapy shell： scrapy...其输出结果将显示链接到下载页面的页面以及链接的文本信息。设置需处理的HTTP状态默认情况下，Scrapy爬虫仅解析请求成功的HTTP请求;，在解析过程中需要排除所有错误。...再次运行Spider爬虫，您将在Scrapy统计信息之前看到无效链接的详细信息。命令行的输入起始URL网址初始的URL网址在spider爬虫的源代码中是硬编码的。...crawl linkChecker -a url="http://another\_example.com" 进行项目设置爬虫程序的默认Scrapy设置在settings.py文件中定义。

10K2 0

scrapy 快速入门

安装Scrapy Scrapy是一个高级的Python爬虫框架，它不仅包含了爬虫的特性，还可以方便的将爬虫数据保存到csv、json等文件中。首先我们安装Scrapy。...我们可以使用下面的命令启动Scrapy shell并提取百思不得姐段子的内容，成功运行之后会打开一个交互式shell，我们可以进行交互式编程，随时查看代码的运行结果。...pip install pypiwin32 运行成功之后在终端中看到以下内容，列举了在交互式shell中可以进行的操作。...spiders模块中放置所有爬虫，scrapy.cfg是项目的全局配置文件，其余文件是Scrapy的组件。 ? 创建爬虫使用下面的命令可以创建一个爬虫，爬虫会放置在spider模块中。...自Scrapy1.2 起，增加了FEED_EXPORT_ENCODING属性，用于设置输出编码。我们在settings.py中添加下面的配置即可。

1.2K5 0

Python scrapy框架的简单使用

：scrapy crawl f1 或者 scrapy crawl f1 --nolog edit 使用编辑器打开爬虫文件（Windows上似乎有问题，Linux上没有问题）：scrapy...#pass ④ 解析Response 在fang.py文件中，parse()方法的参数response是start_urls里面的链接爬取后的结果。...提取的方式可以是CSS选择器、XPath选择器或者是re正则表达式。...Item Pipelines的使用 ⑥、运行：执行如下命令来启用数据爬取 scrapy crawl fang 将结果保存到文件中: 格式：json、csv、xml、pickle、marshal等 scrapy...fang -o fangs.pickle scrapy crawl fang -o fangs.marshal 2.3 Scrapy框架中的POST提交：在Scrapy框架中默认都是GET的提交方式

1K2 0

Scrapy学习

: ... 2019-11-08 14:16:35 [scrapy.core.engine] INFO: Spider closed (finished) 运行爬虫后，会提示一堆的信息，主要是完成以下几个部分工作...：启动爬虫引擎加载设置文件启用扩展启用下载中间件启用爬虫中间件启动 pipeline 爬虫启动，开始工作爬虫结束，引擎收集统计信息，清理工作现在，检查当前目录中的文件。...shell 并输出数据，了解如何提取所需的数据： D:\python_cuijianzhe\scrapy_test>scrapy shell "http://quotes.toscrape.com"...'>] 上面查询返回的每个选择器都允许我们对其子元素运行进一步的查询。...在本例中，为 tag 参数提供的值可以通过 self.tag 获得。

1.3K2 0

Scrapy框架的使用之Selector的用法

： Hello World 我们在这里没有在Scrapy框架中运行，而是把Scrapy中的Selector单独拿出来使用了，构建的时候传入text参数，就生成了一个Selector选择器对象，然后就可以像前面我们所用的...在这里我们查找的是源代码中的title中的文本，在XPath选择器最后加text()方法就可以实现文本的提取了。以上内容就是Selector的直接使用方式。...Scrapy Shell 由于Selector主要是与Scrapy结合使用，如Scrapy的回调函数中的参数response直接调用xpath()或者css()方法来提取数据，所以在这里我们借助Scrapy...开启Scrapy Shell，在命令行输入如下命令： scrapy shell http://doc.scrapy.org/en/latest/_static/selectors-sample1.html...在第二行代码中，我们还传递了一个参数当作默认值，如Default Image。这样如果XPath匹配不到结果的话，返回值会使用这个参数来代替，可以看到输出正是如此。

1.9K4 0

手把手教你用Python实现分布式爬虫(四) - scrapy爬取技术文章网站

然后详细讲解item以及item loader方式完成具体字段的提取后使用scrapy提供的pipeline分别将数据保存到json文件以及mysql数据库中....2 PyCharm 调试scrapy 执行流程 2.1 注意Python解释器版本 [1240] 2.2 让scrapy在PyCharm中可调试设置断点 [1240] PyCharm 中没有关于scrapy...图1：未清除浏览器缓存前 [webp] 图2：清除浏览器缓存后 [webp] 3.6 shell命令调试每一次调试都运行python脚本发送HTTP请求获取内容效率低下!...具体操作在命令行中，之前的启动scrapy的命令是 scrapy crawl jobbole 现在可以在命令行中使用shell，命令为 scrapy shell 网址然后就进入了调试区域步骤如下图...使用方法，在pipelines.py中引入：from scrapy.exporters import JsonItemExporte [1240] 在settings中配置下该pipeline并运行 [

1.7K3 0

独家 | 教你用Scrapy建立你自己的数据集（附视频）

基本上，它可以让您更专注于使用CSS选择器进行数据提取，选取XPath表达式，而不必了解爬虫工作的具体细节。...（anaconda附带Scrapy，但以防万一）。...被框住的部分是我们将单独拎出来的部分网址在终端（mac / linux）中输入： scrapy shell ‘https://fundrazr.com/find?...目前项目应具有以下内容：我们将创建/添加的文件运行爬虫 1.前往fundrazr / fundrazr目录，并输入： scrapy crawl my_scraper -o MonthDay_Year.csv...此外，在excel读取csv文件的过程中，不同的活动数据间可能会出现空格。

1.8K8 0

爬虫网页解析之css用法及实战爬取中国校花网

简单但解析速度慢，不推荐使用 lxml 由C语言编写的xml解析库(libxm2),解析速度快但是API复杂 Scrapy 综合以上两者优势实现了自己的数据提取机制，被称为Selector选择器。...只能说这种做法就比较愚蠢了，如果遇到那种容易封IP的网站，你这样频繁的去请求测试，测不了几次，你的ip就被封了这时候，我们要使用 scrapy shell 去调试，测试成功后，在拷贝到我们的项目中就可以了....html cmd中运行如下： ?...scrapy shell 当然在 pycharm中, 也可以使用 ?...scrapy shell 当 shell 载入后，将获得名为 response 的 shell 变量，url 响应的内容保存在 response 的变量中，可以直接使用以下方法来获取属性值 response.body

1.8K1 0

Python分布式爬虫框架Scrapy 打造搜索引擎(四) - 爬取博客网站

然后详细讲解item以及item loader方式完成具体字段的提取后使用scrapy提供的pipeline分别将数据保存到json文件以及mysql数据库中....2 PyCharm 调试scrapy 执行流程 2.1 注意Python解释器版本图片 2.2 让scrapy在PyCharm中可调试设置断点图片 PyCharm 中没有关于scrapy...图1：未清除浏览器缓存前图片图2：清除浏览器缓存后图片 3.6 shell命令调试每一次调试都运行python脚本发送HTTP请求获取内容效率低下!...具体操作在命令行中，之前的启动scrapy的命令是 scrapy crawl jobbole 现在可以在命令行中使用shell，命令为 scrapy shell 网址然后就进入了调试区域步骤如下图...使用方法，在pipelines.py中引入：from scrapy.exporters import JsonItemExporter 图片在settings中配置下该pipeline并运行

9324 0

开源python网络爬虫框架Scrapy

一、概述 Scrapy是一个用 Python 写的 Crawler Framework ，简单轻巧，并且非常方便，并且官网上说已经在实际生产中在使用了，不过现在还没有 Release 版本，可以直接使用他们的...在回调函数中，你解析网站的内容，同程使用的是Xpath选择器（但是你也可以使用BeautifuSoup, lxml或其他任何你喜欢的程序），并生成解析的数据项。...7、Spider middlewares（蜘蛛中间件）蜘蛛中间件是介于Scrapy引擎和蜘蛛之间的钩子框架，主要工作是处理蜘蛛的响应输入和请求输出。...将egg文件放置在{python安装目录}\Scripts目录下。...（一个XPath可能选到多个节点） extract(): 返回选择器（列表）对应的节点的字符串（列表） re(regex): 返回正则表达式匹配的字符串（分组匹配）列表一种很好的方法是在Shell里面对

1.7K2 0

Python爬虫：使用Scrapy框架进行高效爬取

Python爬虫可使用的架构有很多，对于我而言，经常使用Scrapy异步处理框架Twisted，其实意思很明确，Scrapy可以实现多并发处理任务，同一时间将可以处理多个请求并且大大提高工作效率。...1、并发处理Scrapy使用了异步处理框架Twisted，可以同时处理多个请求，而不需要等待一个请求完成后再处理另一个请求，这大大提高了爬取效率。...3、数据管道Scrapy的数据管道可以方便地处理爬取的数据，如清洗、验证和存储数据。4、强大的选择器Scrapy内置了CSS选择器和XPath选择器，可以方便地从网页中提取数据。...7、Shell控制台Scrapy提供了一个Shell控制台，可以方便地测试和调试爬虫。8、日志系统Scrapy有一个强大的日志系统，可以方便地跟踪和调试爬虫的运行情况。...以下是一个简单的Scrapy爬虫示例：在Scrapy中使用爬虫ipIP可以帮助你避免因为请求过于频繁而被目标网站封禁。你可以通过设置Scrapy的中间件来实现这个功能。

2231 0

Scrapy（7） Shell 研究

欢迎点赞，关注，收藏，分享四连击 Scrapy Shell Scrapy终端是一个交互终端，我们可以在未启动spider的情况下尝试及调试代码，也可以用来测试XPath或CSS表达式，查看他们的工作方式...如果安装了 IPython ，Scrapy终端将使用 IPython (替代标准Python终端)。IPython 终端与其他相比更为强大，提供智能的自动补全，高亮输出，及其他特性。...（推荐安装IPython）启动Scrapy Shell 进入项目的根目录，执行下列命令来启动shell: scrapy shell "http://www.itcast.cn/channel/teacher.shtml...当shell载入后，将得到一个包含response数据的本地 response 变量，输入 response.body将输出response的包体，输出 response.headers 可以看到response.../td[2]/text()').extract()[0]) 技术类以后做数据提取的时候，可以把现在Scrapy Shell中测试，测试通过后再应用到代码中。

5861 0

Scrapy常见问题

如果set()集合中没有存在这个加密后的数据，就将这个Request对象放入队列中，等待被调度。 scrapy中间件有哪几种类，你用过哪些？...需要注意一点：文件没有下载之前，它也需要保持连接。...例如，如果您有个 spider 写在 my_spider.py 文件中，您可以运行: scrapy runspider my_spider.py 我收到了 “Filtered offsite request...这取决于您的输出有多大。参考 JsonItemExporter 文档中的这个警告。我能在信号处理器(signal handler)中返回(Twisted)引用么？...没有什么强制的规则来限定要使用哪个，但设置(se ttings)更适合那些一旦设置就不怎么会修改的参数，而 spider 参数则意味着修改更为频繁，在每次 spider 运行都有修改，甚至是 spider

1.1K3 0

Python:Scrapy Shell

Scrapy终端是一个交互终端，我们可以在未启动spider的情况下尝试及调试代码，也可以用来测试XPath或CSS表达式，查看他们的工作方式，方便我们爬取的网页中提取的数据。...如果安装了 IPython ，Scrapy终端将使用 IPython (替代标准Python终端)。 IPython 终端与其他相比更为强大，提供智能的自动补全，高亮输出，及其他特性。...（推荐安装IPython）启动Scrapy Shell 进入项目的根目录，执行下列命令来启动shell: scrapy shell "http://www.itcast.cn/channel/teacher.shtml...当shell载入后，将得到一个包含response数据的本地 response 变量，输入 response.body将输出response的包体，输出 response.headers 可以看到response.../td[2]/text()').extract()[0] 技术类以后做数据提取的时候，可以把现在Scrapy Shell中测试，测试通过后再应用到代码中。

6342 0

Scrapy爬虫初探

数据流处理：Scrapy 提供了一个灵活的管道系统，可以对爬取到的数据进行处理和存储，例如存储在数据库中或输出为不同格式的文件。...现在你可以在虚拟环境中使用 Scrapy 来进行网络爬虫的开发和相关工作了。要创建一个 Scrapy 项目，请按照以下步骤进行操作：打开命令行或终端。进入你想要创建项目的目录。...现在，你可以开始编写和配置你的 Scrapy 爬虫了。Scrapy 项目的主要部分是爬虫，可以在项目的 spiders 目录中创建爬虫文件。...self.log(f'Saved file {filename}') # 记录日志，表示文件保存成功运行爬虫： scrapy crawl wall wall 为爬虫中定义的name...name = "wall" # 定义爬虫的名称以上就是运行爬虫之后输出的内容了我这里保存为两个html文件了拿到了html网页下面就可以根据自己的需要去解析和清洗数据或者保存到数据库了。

2103 0

Scrapy1.4最新官方文档总结 1 介绍·安装安装

extract_first() if next_page is not None: yield response.follow(next_page, self.parse) 运行这个爬虫...，输出为json格式： scrapy runspider quotes_spider.py -o quotes.json 会得到一个quotes.json文件，如下：爬取步骤分析： 1向start_urls...发出请求，将响应作为参数传递给调回方法parse； 2 用CSS选择器循环抓取名人名言。...Scrapy的其它特点：内建的CSS选择器和XPath表达式基于IPython交互式shell，方便编写爬虫和debug 内建的文件导出和保存方法，格式多样JSON、CSV、XML 健壮的编码支持...： virtualenv test1 激活这个虚拟环境： source activate test1 这时再安装Scrapy： pip install Scrapy 安装的包就存储在 ..

8068 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭