腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
从
scrapy
中
的
href
标签
中
提取
完整
的
URL
、
、
我在试着用
scrapy
来自刮擦此产品
的
URLsite 这是我尝试过
的
代码:
url
= response.css('a[data-tracking="click_body"]::attr(
href
)').extract() 但我
的
代码返回
的
内容与
URL
非常不同。下面是我感兴趣
的
div
的
HTML代码。8 238 zł/m² 已复制该
标签
的</e
浏览 55
提问于2020-07-20
得票数 0
回答已采纳
1
回答
无法使用
scrapy
提取
完整
的
url
@
href
、
、
、
我正在尝试
从
amazon.in中
提取
产品
的
url
。源代码
中
a-tag
中
的
href
-attribute如下所示:
href
="/Parachute-Coconut-Oil-600-Free/dp/B081WSB91C/ref=sr_1_49?qid=1588693187&s=pantry&sr=8-49&srs=9574332031&
浏览 0
提问于2020-05-05
得票数 1
1
回答
匹配多个
标签
的
刮刮爬行堆叠溢出问题
、
、
、
我尝试了页面
中
的
示例代码。我试着用
标签
“bigdata”来
提取
最近
的
问题。一切都很顺利。但是当我试图
提取
两个
标签
'bigdata‘和'python’
的
问题时,结果是不正确
的
,结果
中
只有'bigdata‘标记。但在浏览器上,我正确地回答了两个
标签
的
问题。h3 a::attr(
href
)'): full_
浏览 3
提问于2015-08-21
得票数 3
回答已采纳
1
回答
刮伤错误处理
url
、
嗨,我是python和
scrapy
的
新手,我试着编写蜘蛛代码,但是在处理启动
url
时,我找不到错误或错误
的
解决方案,不知道这是否是xpath或其他东西
的
问题,我发现大多数关于错误缩进
的
线程,但这不是我
的
情况//a/@
href
').extract() print the_
href</
浏览 2
提问于2017-03-28
得票数 2
回答已采纳
2
回答
抓取Python循环到下一个未擦伤
的
链接
、
、
我试图让我
的
蜘蛛浏览一个列表,刮掉所有的
url
--它可以在它们后面找到,抓取一些数据,然后返回到下一个未刮掉
的
链接上--如果我运行这个蜘蛛--我可以看到它返回到起始页面,但是尝试再次抓取相同
的
页面,然后退出对python来说非常新
的
任何代码建议。): item['listurl'] = sel.xpath('//a[@id="link101"
浏览 3
提问于2016-07-18
得票数 0
回答已采纳
2
回答
[Python和
Scrapy
]
、
、
、
请注意-我非常没有经验,这是我
的
第一个‘真正’
的
项目。 我将尽我所能地解释我
的
问题,如果某些术语不正确,我深表歉意。type=Agents&search_agent=+&submit_agent_search=GO 我可以抓取“姓名”和“状态”,但我还需要在“
完整
详细信息”弹出窗口中获取一些信息。我注意到,当点击“
完整
详细信息”按钮时,
URL
保持不变。下面是我
的
代码: import
scrapy
from FirstScrape.ite
浏览 34
提问于2020-12-26
得票数 3
回答已采纳
1
回答
Scrapy
/ Python在保存之前修改
提取
的
数据?
、
、
我正在尝试将一个
url
附加到一个
提取
的
数据片段
中
,但终生找不到方法。http:exampleurl.com/images/12306116_l_a1.jpghttp:exampleurl.com/images/12306116我使用
的
爬虫代码
完整
如下:from
scrapy
浏览 0
提问于2018-07-19
得票数 0
1
回答
刮擦脚本,如何找到特定
的
关键字并返回或打印
url
、
、
、
好
的
,所以我必须完全编辑这个。我已经让脚本部分工作,我可以启动它没有任何问题,这是脚本。粘贴链接在这里:,您可以看到我在cmd行
中
得到了什么。我确信正在搜索
的
关键字在这些链接
中
,因为我也尝试过其他单词,但它没有下载它们。import
scrapy
from
scrapy
.http import Request from FinalSpider.items= 100 class FinalSpider(<em
浏览 2
提问于2015-11-30
得票数 0
回答已采纳
1
回答
从
导致pdf文件
的
锚元素中
提取
信息
、
、
我使用
Scrapy
从
网站抓取和刮取数据,主要由html页面和pdf文件组成(我已经修改了IGNORED_EXTENSIONS以允许抓取pdfs)。我需要
提取
被困在<a>标记之间
的
文本:显然,我不能执行response.text或response.css我脑海中浮现
的
一件事是爬行页面,
从
页面中
提取</
浏览 0
提问于2016-12-12
得票数 1
3
回答
(刮起)如何
从
数百个网站
的
列表
中
刮除每个网站上
的
所有外部链接(并在Zyte上运行整个程序)?
、
、
我正在寻找一些帮助,我
的
刮风项目。我想使用
Scrapy
来编码一个通用
的
蜘蛛,它将从一个列表
中
抓取多个网站。我希望把这个列表放在一个单独
的
文件
中
,因为它很大。我相信有太多
的
网站创建一个蜘蛛每个网站。我想只刮外部链接,意思是“绝对”链接,其域名不同于网站
的
领域找到链接(子域将仍然是内部链接
从
我
的
POV)。最后,我想用以下字段导出CSV
中
的
结果: 正在爬行
的
网站<e
浏览 4
提问于2021-11-09
得票数 0
1
回答
刮擦不收集数据
、
、
、
我使用
scrapy
从
craiglist收集一些电子邮件,当我运行它时,它会返回.csv文件
中
的
空白行。我能够
提取
标题,
标签
和链接。只有电子邮件才是问题。=
scrapy
.Field() title =
scrapy
.Field() def parse(self,
浏览 1
提问于2015-06-19
得票数 1
回答已采纳
2
回答
Scrapy
中
的
If条件
、
、
、
我正在使用
scrapy
抓取给定
url
中
的
标签
,并检查
标签
中
的
url
链接是否与网站
的
url
匹配。我想将结果导出到csv,其中有一列指示是否存在匹配。我有以下代码,但不确定如何添加匹配条件:import pandas as pdfrom
scrapy
.crawler import CrawlerProcesscla
浏览 1
提问于2019-07-03
得票数 0
2
回答
Python -尝试使用
Scrapy
从
web抓取
中
获取
URL
(
href
、
、
、
我正在尝试使用web抓取
从
网页
中
获取
URL
或
href
,特别是使用
Scrapy
。但是,当I response.xpath('XPATH').extract()
href
链接时,它返回一个空列表。我尝试获取
的
特定HTML元素
href
是:<a
href
="#2020-38970" class="redNoticeItem__labelLink" data-singleurl=
浏览 27
提问于2020-06-11
得票数 0
回答已采纳
1
回答
产品信息分析及产品评论
、
、
我正在创建一个爬虫来获取产品信息和产品评论,并从一个特定
的
类别导出到csv文件。例如,我需要从裤子类别
中
获取所有信息,所以我
的
爬行从那里开始。类SheinSpider(
scrapy
.Spider):start_urls =
浏览 0
提问于2020-03-11
得票数 1
回答已采纳
1
回答
刮伤:如何选择头部和身体
标签
、
、
、
所以,我有一个爬虫,它需要从头部
的
元
标签
中
提取
一些数据,以及身体
中
的
一些元素标记。</head>标记
中
的
元标记获取数据。 它只
从
html <body>... </body>标记
中
的
标记
中
获取数据。</head>
的<
浏览 1
提问于2017-02-10
得票数 0
1
回答
在按钮内刮擦文本
、
我可以请求您
的
帮助吗?我正在尝试刮下面的站点:( 3)由于某种原因,代码
中
的
价格项目也有问题。(“列表索引超出范围”)谢谢!import
sc
浏览 0
提问于2018-03-15
得票数 0
回答已采纳
1
回答
从
第一个元素和文章标题中收集数据
、
、
、
、
我需要
Scrapy
从这个
标签
中
收集数据,并将这三个部分
完整
地检索起来。输出将类似于: 第二,
从
第一个span
标签
浏览 0
提问于2015-05-25
得票数 1
回答已采纳
2
回答
使用
scrapy
跟踪新闻链接
、
、
、
、
我是新
的
爬行和刮伤,我试图
从
提取
一些新闻,也只是与
标签
san-valentin匹配
的
新闻。 我已经有了第1和第2点
浏览 1
提问于2019-02-14
得票数 0
回答已采纳
1
回答
Python -如何刮取
从
已刮过
的
HTML文件
中
检索
的
HTML文件?
、
此时,我能够检索正在刮取
的
HTML文件
中
的
HREF
内容。但是我也想从HTML文件
中
检索到
的
URL
中
抓取
HREF
内容。name = "FirstSpider"
浏览 0
提问于2020-06-21
得票数 0
回答已采纳
2
回答
使用
Scrapy
下载所有JS文件?
、
我刚接触
Scrapy
,我发现我可以使用CrawlSpider,但我似乎对LinkExtractors有一个问题,因为我
的
解析器没有执行。import
scrapy
from
scrapy
.linkextractors import LinkExtractor='parse_item'), self.logger
浏览 25
提问于2021-02-17
得票数 0
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券