腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
使用
scrapy
查找
正确
的
分页
选择器
、
、
、
、
我
使用
css
选择器
'li.selected > a::attr(href)'不幸
的
是,我不能从其他页面获得所有其他数据。 xpath或css
选择器
的
正确
分页
路径是什么?Python: import
scrapy
name = "pregnancy"
浏览 14
提问于2019-01-18
得票数 0
回答已采纳
1
回答
Scrapy
-
查找
正确
的
CSS
选择器
、
、
# -*- coding: utf-8 -*-from ..items import LowesspiderItem yield item 下面是我如何获得
选择器
的
在查看网站
的
html时,我仍然对如何找到
正确</e
浏览 5
提问于2020-03-28
得票数 0
回答已采纳
2
回答
如何从有刮痕
的
网站获得完整
的
新闻文章
、
我仍然在学习如何做网络抓取,我正在尝试刮一个网站,从一个索引页所有的文章,然后获取他们
的
信息,以及全文。有了下面的代码,我可以得到我需要
的
所有信息-日期,时间,类别,标题-除了整篇文章。下面是我到目前为止编写
的
代码: name = 'coalnews' yiel
浏览 6
提问于2022-07-13
得票数 0
回答已采纳
1
回答
如何对以下类型
的
网页进行
分页
?
、
、
、
我正在尝试对此站点
的
页面(http://www.geny-interim.com/offres/)进行
分页
。问题是我
使用
css
选择器
通过下面的代码遍历每个页面 next_page_url=response.css('a.page:nth-child(4)::attr(href)').extract_first() yield
scrapy
.Request(next_pag
浏览 7
提问于2019-04-28
得票数 0
回答已采纳
2
回答
Scrapy
:谁能告诉我为什么这段代码不能让我抓取后面的页面?
、
我是一个初学者,正在学习如何在Python中
使用
Scrapy
进行网络抓取。有人能指出哪里出了问题吗?我
的
目标是抓取所有后续
的
页面。from indeed.items import IndeedItem name = "indnext_page_extension is not None: next_page = response.urljoin(n
浏览 27
提问于2021-04-25
得票数 3
1
回答
Scrappy
选择器
上
的
Scrappy迭代
、
、
、
、
我正在尝试抓取一个
使用
调用HTML
的
API
的
网站,因此为此,我需要抓取API,然后从API抓取HTML结果 我已经
使用
这篇文章设法获得了API响应,并从中获得了HTML。resp = json.loads(response.text) selector=
scrapy
.Selector(text=resp['results'], type="html") 而且它工作得很好,当我试图从页面获取属性时,我可以
使用
CSS或Xpath
选择器</em
浏览 10
提问于2020-12-16
得票数 1
2
回答
不需要下一个链接
的
抓取解析
分页
、
、
我试图在没有下一个链接
的
情况下解析
分页
。response.xpath('//div[@class="pagination"]/ul/li/a/@href/following-sibling::a[1]/@href').extract() 有一个解析这个
分页
的
好方法吗
浏览 2
提问于2020-08-04
得票数 1
回答已采纳
2
回答
Scrapy
:修改响应中
的
元素和字段
、
、
、
例如,我正在尝试修改“src”链接,使其指向本地保存
的
抓取文件。我在下面添加了一些
浏览 2
提问于2015-07-19
得票数 6
1
回答
使用
regex作为
选择器
在
scrapy
中捕获链接
import
scrapy
name = "scraper" start_urls = ["https://www.pros-locations-de-voitures.fr
浏览 5
提问于2022-02-21
得票数 0
回答已采纳
1
回答
使用
刮取从多个网站
查找
特定文本
、
、
、
、
我想抓取/检查多个网站(在同一领域)
的
一个特定
的
关键字。我已经找到了这个脚本,但是我找不到如何添加要搜索
的
特定关键字。脚本需要做
的
是找到关键字,并给出找到它
的
链接
的
结果。有人能告诉我我能在哪里读到更多关于这个
的
书吗?我一直在读,但是我似乎找不到这个。name = "final" allowed_domains = ['example.co
浏览 2
提问于2015-11-30
得票数 2
回答已采纳
1
回答
使用
多个/无子页刮取asp.net页面: if-else语句中
的
输出
、
、
、
、
以下是文件spyder.py:from
scrapy
_spider.items import JobsItem 第一个链接中有<10项,第二个链接有>1000项。作业列表
的
视口比例设置为25,因此第一个链接没有子页面,第二个链接有10+子页面。 我设法将它们更改为75,这样我就不必处理许
浏览 3
提问于2021-05-14
得票数 0
回答已采纳
2
回答
爬行amazon时出现刮擦/选择库错误
、
、
、
我试图
使用
scrapy
和selectorlib来刮掉amazon
的
优惠页面(www.amazon.it/gp/goldbox)amazon.pyimport
scrapy
import selectorlib name = 'amazon爬行spidername,我得到了一个错误TypeE
浏览 2
提问于2019-12-08
得票数 1
1
回答
如何打开文件流以便
使用
Scrapy
读取?
、
、
使用
Scrapy
,我想
使用
我提取
的
url将二进制文件读入内存并提取内容。然后如何将该文件读入内存,以便在该文件中
查找
内容
浏览 1
提问于2016-03-25
得票数 1
回答已采纳
2
回答
使用
xPath
选择器
时不能刮到下一个页面的链接,返回空。(
使用
Scrapy
)
、
、
我正在
使用
Scrapy
并试图刮掉 url,当我请求页面上任何有关产品
的
数据时,我就会把它拿出来。但是带有
分页
器类和id=paginator1
的
div作为空返回,即使它是一个具有对下一页
的
引用
的
表。我尝试过对表和css
选择器
使用
xPath
选择器
,但两者都返回为空。这就是我尝试过
的
,
使用
css In [29]: response.css('span a::attr(href)
浏览 0
提问于2018-02-24
得票数 0
回答已采纳
1
回答
如何向CSS
选择器
添加属性以指定特定
的
分页
链接?
、
、
我刚进入
Scrapy
&我知道这是一个Noob问题,但是如何添加一个属性来指定特定
的
分页
链接呢? 类属性是不同
的
,我需要“fa-chevron-右下一个
分页
图标”。我非常肯定,我可以通过指定css
选择器
中列出
的
两个属性中
的
一个来获得
正确
的
链接。我试过
浏览 0
提问于2018-06-08
得票数 0
回答已采纳
1
回答
Scrapy
CrawlSpider下一页不工作
、
我想要从每张卡片中抓取所有项目,第一个规则工作正常,但第二个规则意味着
分页
规则不起作用。这是我
的
代码: import
scrapy
from
scrapy
.spiders import CrawlSpider
浏览 12
提问于2021-07-04
得票数 1
回答已采纳
1
回答
Python
Scrapy
Spider:不一致
的
结果
、
、
我很想知道你们对这件事
的
看法。我已经研究了几天了,但我似乎找不到哪里错了。任何帮助都将受到高度
的
感谢。import
scrapy
from
scrapy
.selector import Selectorfrom
scrapy
.spiders impor
浏览 11
提问于2016-08-08
得票数 0
1
回答
XPath
选择器
工作在XPath帮助控制台,但不工作于刮伤
、
、
、
我用刮刮来分析
的
利率 你可以在下面看到我
的
蜘蛛代码。import
scrapy
class
浏览 0
提问于2018-10-12
得票数 1
回答已采纳
2
回答
scrapy
版本0.22.1
的
多页抓取- "cannot import name CrawlSpider“错误是什么意思?
、
、
我正在尝试编写一个爬虫来跨多个页面爬行,通过以下网址:我正在
使用
Scrapy
版本0.22.1来做这件事。但是,我收到一条"cannot import name CrawlSpider“消息。我已经粘贴了下面蜘蛛
的
代码。有人能确定我哪里出错了吗?from
scrapy
.spider import CrawlSpider, Rule from
scrapy
.linkextractors.sgml import SgmlLinkExtractorfrom
scrapy
.selecto
浏览 0
提问于2015-02-14
得票数 1
1
回答
为什么刮掉selector.css重排空白列表
、
、
def parse(self, response): items_list=sel.css('#maindiv.containerbox.boxindex > div.layui-row.layui-col-space15 > div:nth-child(1) > table > tbody > tr')
选择器
来自复制->复制
选择器
。我调试了代码,响应是
正确
的</em
浏览 8
提问于2022-06-16
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
使用scrapy和selenium实现动态网页的分页爬取
Scrapy框架的使用之Scrapy入门
Scrapy框架的使用之Scrapy通用爬虫
Scrapy框架的使用之Scrapy爬取新浪微博
scrapy实践之item pipeline的使用
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券