腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(7048)
视频
沙龙
1
回答
Scrapy
到底在
哪里
做
html
请求
呢
?
、
、
我在Python3中使用
Scrapy
(
Scrapy
==1.6.0)库。我想知道,在代码中
Scrapy
实际上在
哪里
做
HTML
请求
?现在我的爬行器找不到任何页面,所以我想我要么得到一个空白的
HTML
文档,要么得到一个403错误,但是我不知道从
哪里
去确认这一点。熟悉
scrapy
库的人能告诉我在代码中我可以检查这些参数的确切位置吗?
浏览 12
提问于2019-03-14
得票数 0
2
回答
python-
scrapy
:如何在爬虫中获取URL (而不是通过以下链接)?
、
我怎么能在我的爬虫里面有一些东西,可以获取一些网址,通过HtmlXPathSelector从页面中提取一些东西
呢
?但是URL是我想在代码中作为字符串提供的东西,而不是后面的链接。
浏览 0
提问于2011-01-10
得票数 0
回答已采纳
1
回答
谁会阻止跨域AJAX
请求
浏览器或Who服务器,或者两者都阻止?
在firebug中,跨域AJAX
请求
被报告为"aborted“。我知道这应该是安全特性,但是这些
请求
到底在
哪里
被拒绝
呢
?在浏览器端还是在服务器端?
浏览 0
提问于2011-06-28
得票数 4
回答已采纳
1
回答
Nestjs中的Mime类型
/frontend/dist/frontend/index.
html
')); } 发送文件工作正常。浏览器收到文本,我得到的错误是:无法加载模块脚本:服务器使用非JavaScript MIME类型“index.
html
/
html
”进行响应。严格的MIME类型检查是针对每个
HTML
规范的模块脚本执行的。 我知道您必须包含不同的Mime类型,以便服务器允许
请求
。但是,在NestJS文档中,它
到底在
哪里</em
浏览 11
提问于2020-12-22
得票数 1
1
回答
scrapy
中的Lua脚本
、
、
、
我正在使用
scrapy
1.6和splash 3.2: import
scrapy
from
scrapy
_splash import SplashRequestfrom
scrapy
.linkextractors import LinkExtractor # contains
HTML
processed
浏览 11
提问于2019-06-25
得票数 1
回答已采纳
1
回答
函数,返回值返回到
哪里
?
、
、
、
当我翻阅文档时,我遇到了这个例子:from myproject.items import MyItem allowed_domains = [’example.com’] ’http://www.example.com/1.
html
’, ’http://www.example.com/2.
html
浏览 1
提问于2014-10-04
得票数 7
回答已采纳
2
回答
在python中使用
scrapy
执行Javascript函数
、
我对"
scrapy
“非常陌生,我正在废弃一个网站,因为我有一些锚标记,其中包含了带有java脚本SubmitForm函数的href属性。有人能告诉我如何在
scrapy
python.My
HTML
代码中执行javascript提交锚标记的函数吗?
浏览 7
提问于2012-05-18
得票数 5
1
回答
与
Scrapy
一起使用tun0 (TUN接口)
、
、
、
我想使用不同的接口从
Scrapy
发出
请求
(tun0,而不是eth0) )。有人能解释一下,怎么用
Scrapy
来
做
呢
?在卷曲中,我只是被指定为--interface tun0。提前谢谢你!
浏览 2
提问于2016-02-15
得票数 1
回答已采纳
1
回答
使用会话cookie的Python
scrapy
登录
、
、
、
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))但是,当我使用这段代码来创建刮擦
请求
时有人知道问题出在
哪里
吗?
浏览 2
提问于2013-11-29
得票数 4
3
回答
scrapy
:将
html
字符串转换为HtmlResponse对象
、
、
我有一个原始的
html
字符串,我想将其转换为
scrapy
HTML
response对象,这样我就可以使用选择器css和xpath,类似于
scrapy
的response。我该怎么
做
呢
?
浏览 8
提问于2014-12-06
得票数 28
回答已采纳
1
回答
尝试在vscode调试控制台中执行
scrapy
FormResponse
、
、
、
我正在尝试学习如何使用python
scrapy
,我想知道我是否可以从vscode调试控制台手动
请求
网站。通常情况下,我会使用python
请求
和BeautifulSoup来获取网站
html
,并且我会键入以下内容 resp = requests.get(website) 在vscode中直接进入调试控制台。从那里我可以向网站发出更多的
请求
,而不需要重新启动调试器。然而,当我使用
scrapy
时,我找不到一种方法来
做
同样的事情,因为
scrapy
请求<
浏览 23
提问于2021-11-01
得票数 0
1
回答
对
scrapy
和Xpath感到困惑
、
所以我首先
做
的是检查我感兴趣的元素。因此,我从一个粗糙的shell开始,并写道:然后,我使用chrome通过右键单击
HTML
代码的位置来复制Xpath,chrome给我的结果是: /
html
/body/div[5]/div[3]/div/div/div[2]/div[3]/ul/li[1]/div/span
浏览 0
提问于2017-12-12
得票数 0
7
回答
用本地系统中保存的
html
抓取文件
、
例如,我有一个站点"www.example.com",实际上我想通过保存到本地系统来抓取这个站点的
html
。因此,为了进行测试,我将该页面保存在桌面上,名称为example.
html
class ExampleSpider(BaseSpider): start_urls = ["example.
html
"] print res
浏览 0
提问于2012-06-05
得票数 31
1
回答
刮除表单-当表单发布到第二个网页时填充
、
不知道是否有人可以使用
scrapy
向
HTML
表单提交带有隐藏字段的示例项目,如果表单的操作页与表单本身的地址不相同,那么就不知道了。 在
Scrapy
中,最简单的方法是什么?我可以看到,您可以编写两个蜘蛛-一个首先用表单获取
html
,然后选择所有隐藏字段,然后再一个使用信息和隐藏字段来提交表单。我想知道这是否有一个1步的过程(
Scrapy
请求
文档似乎假设它都在同一个页面上,当它说使用FormRequest.from_response来处理隐藏字段时)。如果是的话,有人能告诉我在
哪
浏览 2
提问于2015-05-04
得票数 1
回答已采纳
1
回答
Scrapy
FormRequest不执行post
请求
我不想这样 return [FormRequest.from_response(response, 因为登录表单没有<form>标记 所以我试着: return
scrapy
.FormRequest(", callback=self.after_post)] body=json.dumps(postData),
浏览 23
提问于2020-04-07
得票数 0
2
回答
ngnix或apache在rails应用程序中的责任是什么?
、
、
、
假设我们有nginx +乘客+ Ubuntu,那么我的问题是: 请不要给我像"nginx处理
请求
“这样的回答;我需要更多的东西,或者你可能知道我可以从
哪里
读到这方面的资料。
浏览 1
提问于2013-11-01
得票数 1
回答已采纳
2
回答
遇到指定URL时停止刮除蜘蛛
、
在items.py中,我列出了一个项目列表: URL =
scrapy
.Field() Author =
scrapy
.Field() 在myspider.py中,我使用def start_requests('http://domain.name.
浏览 0
提问于2016-09-10
得票数 1
回答已采纳
1
回答
Scrapy
不会抓取所有页面
、
这是我的工作代码: title = Field() from
scrapy
.conf import settingsfrom
scrapy
.contrib.linkextractors.sgmlalxg-3.1"
浏览 0
提问于2013-03-01
得票数 3
回答已采纳
2
回答
如何在
Scrapy
/Twisted中使用线程,即如何在响应回调中对阻塞代码执行异步调用?
、
、
、
我需要在
Scrapy
中运行一些多线程\多处理工作(因为我有一些使用阻塞调用的库),并在完成之后将
请求
发送回
Scrapy
引擎。我需要这样的东西: # ....return Request(url) return self.blocking_call(response.body) 我怎么能这么
做
?但是
Scrapy
parse回调必须只返回None、Reques
浏览 0
提问于2014-09-15
得票数 3
回答已采纳
4
回答
从json中的脚本输出中刮取
、
、
、
、
我在python脚本中运行
scrapy
dispatcher.connect(stop_reactor, signal=signals.spider_closedcrawler.configure() crawler.start()它成功地运行并停止了,但是结果在
哪里
我想要json格式的结果,我怎么
做
呢
?就像我们使用
浏览 0
提问于2014-05-09
得票数 26
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
一直说爬虫,你可知道爬虫的机制内容的嘛?
Python爬虫Scrapy框架HTTP代理的配置与调试——万能调试
Python爬虫学习初窥Scrapy
Python网络爬虫介绍&使用了解
scrapy官方文档提供的常见使用问题
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券