Scrapy到底在哪里做html请求呢？

、、

我在Python3中使用Scrapy (Scrapy==1.6.0)库。我想知道，在代码中Scrapy实际上在哪里做HTML请求？现在我的爬行器找不到任何页面，所以我想我要么得到一个空白的HTML文档，要么得到一个403错误，但是我不知道从哪里去确认这一点。熟悉scrapy库的人能告诉我在代码中我可以检查这些参数的确切位置吗？

浏览 12提问于2019-03-14得票数 0

2回答

python-scrapy:如何在爬虫中获取URL (而不是通过以下链接)？

、

我怎么能在我的爬虫里面有一些东西，可以获取一些网址，通过HtmlXPathSelector从页面中提取一些东西呢？但是URL是我想在代码中作为字符串提供的东西，而不是后面的链接。

浏览 0提问于2011-01-10得票数 0

回答已采纳

1回答

谁会阻止跨域AJAX请求浏览器或Who服务器，或者两者都阻止？

在firebug中，跨域AJAX请求被报告为"aborted“。我知道这应该是安全特性，但是这些请求到底在哪里被拒绝呢？在浏览器端还是在服务器端？

浏览 0提问于2011-06-28得票数 4

回答已采纳

1回答

Nestjs中的Mime类型

/frontend/dist/frontend/index.html')); } 发送文件工作正常。浏览器收到文本，我得到的错误是:无法加载模块脚本:服务器使用非JavaScript MIME类型“index.html /html”进行响应。严格的MIME类型检查是针对每个HTML规范的模块脚本执行的。我知道您必须包含不同的Mime类型，以便服务器允许请求。但是，在NestJS文档中，它到底在哪里</em

浏览 11提问于2020-12-22得票数 1

1回答

scrapy中的Lua脚本

、、、

我正在使用scrapy 1.6和splash 3.2： import scrapyfrom scrapy_splash import SplashRequestfrom scrapy.linkextractors import LinkExtractor # contains HTML processed

浏览 11提问于2019-06-25得票数 1

回答已采纳

1回答

函数，返回值返回到哪里？

、、、

当我翻阅文档时，我遇到了这个例子：from myproject.items import MyItem allowed_domains = [’example.com’] ’http://www.example.com/1.html’, ’http://www.example.com/2.html

浏览 1提问于2014-10-04得票数 7

回答已采纳

2回答

在python中使用scrapy执行Javascript函数

、

我对"scrapy“非常陌生，我正在废弃一个网站，因为我有一些锚标记，其中包含了带有java脚本SubmitForm函数的href属性。有人能告诉我如何在scrapy python.My HTML代码中执行javascript提交锚标记的函数吗？

浏览 7提问于2012-05-18得票数 5

1回答

与Scrapy一起使用tun0 (TUN接口)

、、、

我想使用不同的接口从Scrapy发出请求(tun0，而不是eth0) )。有人能解释一下，怎么用Scrapy来做呢？在卷曲中，我只是被指定为--interface tun0。提前谢谢你！

浏览 2提问于2016-02-15得票数 1

回答已采纳

1回答

使用会话cookie的Python scrapy登录

、、、

opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))但是，当我使用这段代码来创建刮擦请求时有人知道问题出在哪里吗？

浏览 2提问于2013-11-29得票数 4

3回答

scrapy:将html字符串转换为HtmlResponse对象

、、

我有一个原始的html字符串，我想将其转换为scrapy HTML response对象，这样我就可以使用选择器css和xpath，类似于scrapy的response。我该怎么做呢？

浏览 8提问于2014-12-06得票数 28

回答已采纳

1回答

尝试在vscode调试控制台中执行scrapy* FormResponse*

、、、

我正在尝试学习如何使用python scrapy，我想知道我是否可以从vscode调试控制台手动请求网站。通常情况下，我会使用python请求和BeautifulSoup来获取网站html，并且我会键入以下内容 resp = requests.get(website) 在vscode中直接进入调试控制台。从那里我可以向网站发出更多的请求，而不需要重新启动调试器。然而，当我使用scrapy时，我找不到一种方法来做同样的事情，因为scrapy请求<

浏览 23提问于2021-11-01得票数 0

1回答

对scrapy和Xpath感到困惑

、

所以我首先做的是检查我感兴趣的元素。因此，我从一个粗糙的shell开始，并写道：然后，我使用chrome通过右键单击HTML代码的位置来复制Xpath，chrome给我的结果是： /html/body/div[5]/div[3]/div/div/div[2]/div[3]/ul/li[1]/div/span

浏览 0提问于2017-12-12得票数 0

7回答

用本地系统中保存的html抓取文件

、

例如，我有一个站点"www.example.com"，实际上我想通过保存到本地系统来抓取这个站点的html。因此，为了进行测试，我将该页面保存在桌面上，名称为example.htmlclass ExampleSpider(BaseSpider): start_urls = ["example.html"] print res

浏览 0提问于2012-06-05得票数 31

1回答

刮除表单-当表单发布到第二个网页时填充

、

不知道是否有人可以使用scrapy向HTML表单提交带有隐藏字段的示例项目，如果表单的操作页与表单本身的地址不相同，那么就不知道了。在Scrapy中，最简单的方法是什么？我可以看到，您可以编写两个蜘蛛-一个首先用表单获取html，然后选择所有隐藏字段，然后再一个使用信息和隐藏字段来提交表单。我想知道这是否有一个1步的过程( Scrapy请求文档似乎假设它都在同一个页面上，当它说使用FormRequest.from_response来处理隐藏字段时)。如果是的话，有人能告诉我在哪

浏览 2提问于2015-05-04得票数 1

回答已采纳

1回答

Scrapy FormRequest不执行post请求

我不想这样 return [FormRequest.from_response(response, 因为登录表单没有<form>标记所以我试着： return scrapy.FormRequest(", callback=self.after_post)] body=json.dumps(postData),

浏览 23提问于2020-04-07得票数 0

2回答

ngnix或apache在rails应用程序中的责任是什么？

、、、

假设我们有nginx +乘客+ Ubuntu，那么我的问题是：请不要给我像"nginx处理请求“这样的回答；我需要更多的东西，或者你可能知道我可以从哪里读到这方面的资料。

浏览 1提问于2013-11-01得票数 1

回答已采纳

2回答

遇到指定URL时停止刮除蜘蛛

、

在items.py中，我列出了一个项目列表： URL = scrapy.Field() Author = scrapy.Field() 在myspider.py中，我使用def start_requests('http://domain.name.

浏览 0提问于2016-09-10得票数 1

回答已采纳

1回答

Scrapy不会抓取所有页面

、

这是我的工作代码： title = Field() from scrapy.conf import settingsfrom scrapy.contrib.linkextractors.sgmlalxg-3.1"

浏览 0提问于2013-03-01得票数 3

回答已采纳

2回答

如何在Scrapy/Twisted中使用线程，即如何在响应回调中对阻塞代码执行异步调用？

、、、

我需要在Scrapy中运行一些多线程\多处理工作(因为我有一些使用阻塞调用的库)，并在完成之后将请求发送回Scrapy引擎。我需要这样的东西： # ....return Request(url) return self.blocking_call(response.body) 我怎么能这么做？但是Scrapy parse回调必须只返回None、Reques

浏览 0提问于2014-09-15得票数 3

回答已采纳

4回答

从json中的脚本输出中刮取

、、、、

我在python脚本中运行scrapy dispatcher.connect(stop_reactor, signal=signals.spider_closedcrawler.configure() crawler.start()它成功地运行并停止了，但是结果在哪里我想要json格式的结果，我怎么做呢？就像我们使用

浏览 0提问于2014-05-09得票数 26

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

python-scrapy:如何在爬虫中获取URL (而不是通过以下链接)？

谁会阻止跨域AJAX请求浏览器或Who服务器，或者两者都阻止？

Nestjs中的Mime类型

scrapy中的Lua脚本

函数，返回值返回到哪里？

在python中使用scrapy执行Javascript函数

与Scrapy一起使用tun0 (TUN接口)

使用会话cookie的Python scrapy登录

scrapy:将html字符串转换为HtmlResponse对象

尝试在vscode调试控制台中执行scrapy* FormResponse*

对scrapy和Xpath感到困惑

用本地系统中保存的html抓取文件

刮除表单-当表单发布到第二个网页时填充

Scrapy FormRequest不执行post请求

ngnix或apache在rails应用程序中的责任是什么？

遇到指定URL时停止刮除蜘蛛

Scrapy不会抓取所有页面

如何在Scrapy/Twisted中使用线程，即如何在响应回调中对阻塞代码执行异步调用？

从json中的脚本输出中刮取

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐