腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Scrapy
/
XPATH
:
在
图像
url
中
查找
子
串
、
、
img src="https://www.awebsite.com/another_1_b_test.jpg" /></ul>".//ul[@class='test_ul']//img[con
浏览 3
提问于2018-01-19
得票数 0
回答已采纳
1
回答
如何在python
中
从网页
中
获取链接?
、
我如何去链接并获得它的
子
链接,然后再次获得它的
子
子
链接?tab=bounties'] 并再次转到该
子
链接并提取那些
子
链接链接。
浏览 8
提问于2020-05-04
得票数 0
回答已采纳
1
回答
使用
xpath
和
scrapy
提取
图像
、
、
、
我一直
在
尝试从这个网站https://www.milieuproperties.com/For-Sale/western-cape/durbanville/上获取图片,但我
在
获取该房产的所有图片时遇到了问题这就是我现在的代码,但我总是得到一个空数组: images = response.
xpath
('//*[@class="slick-track"]/div/img/@src').getall
浏览 18
提问于2020-09-21
得票数 0
回答已采纳
1
回答
从表
中
的链接获取数据
、
、
我正在尝试从html表
中
抓取数据。我可以使用下面的爬行器脚本从表中提取现有数据:from
scrapy
.selector import HtmlXPathSelectorextract() yield item 问题是表
中
也有我试图调用的链接,并
浏览 1
提问于2016-05-16
得票数 1
2
回答
从刮取的
URL
中
刮取信息
、
我是新刮刮,目前正在学习如何从一个名单刮刮的
URL
信息。我已经能够从一个网址上抓取信息,通过
在
刮伤网站上的教程。然而,即使
在
谷歌在线搜索解决方案之后,我也面临着从
url
中
刮出的
url
列表
中
的信息的问题。 我在下面写的刮刀可以从第一个网址刮起。但是,它不成功地从刮过的
URL
列表
中
抓取。这个问题从def parse_following_urls(self,response)开始:这样我就无法从被刮掉的
URL
列表
中
浏览 7
提问于2016-02-12
得票数 0
回答已采纳
1
回答
刮伤不下载
图像
、
、
我的蜘蛛运行但没有下载
图像
,
在
json文件
中
没有显示任何错误--我有所有字段--但是
图像
是空的‘映像’:[]我不知道如何修复这个问题。 return item for image_
url
in item['image_urls']: yield
scrapy
.Request
浏览 0
提问于2019-08-04
得票数 0
回答已采纳
1
回答
Scrapy
:如何基于
url
正确创建
scrapy
.http.response.html.HtmlResponse对象
、
、
我写了一个抓取蜘蛛来从有几个子页面的网页
中
抓取数据。他们
中
的每一个也有几个子页面等。我想访问所有的
子
子
页面,并采取具体的信息从它。为了更深入地了解,我想用
xpath
()查询后续的
子
页面,以获得链接并输入它们。但是要使用
xpath
,我需要一个
scrapy
.http.response.html.HtmlResponse类的对象。因此,我写道: from
scrapy
.http import HtmlResponse new_respon
浏览 35
提问于2020-04-25
得票数 0
1
回答
刮取蜘蛛
Xpath
图像
Url
、
、
、
、
我有一个刮擦蜘蛛,它接收所需关键字的输入,然后生成一个搜索结果
url
。然后,它会抓取该
URL
,以抓取“item”
中
每个汽车结果所需的值。我正试图
在
我的产品
中
添加每个完整大小的汽车
图像
链接的
url
,该链接伴随着车辆列表
中
的每一辆汽车。当我输入关键字为"honda“时,正在爬行的特定
url
如下所示: 我一直很难找到正确的方法来编写
xpath
,然后
在
代码的最后一部分将获取的
图像
浏览 6
提问于2016-05-20
得票数 1
回答已采纳
1
回答
我想将Image存储
在
excel工作表CSV
中
,但给我以下数据:image/
、
、
、
我想将
图像
存储
在
excel工作表CSV
中
,但是给我这个"data:image/gif;base64,R0lGODlhAQABAAAAACH5BAEKAAEALAAAAAABAAEAAAICTAEAOw=="而不是
图像
url
name = "articles" def start_requests(self):
url
= input(&qu
浏览 5
提问于2022-10-11
得票数 0
回答已采纳
1
回答
查找
链接的
XPath
表达式提供"TypeError: Request必须是str或unicode,got“
、
、
我试着用刮擦来刮,但是我一直
在
找错误TypeError: Request
url
must be str or unicode, got NoneTypefrom
scrapy
import Spider from lawn.item
浏览 1
提问于2019-11-27
得票数 0
回答已采纳
1
回答
如何通过使用刮伤获得所有的img?
、
、
试着
在
刮破的壳里做>>> response.css("div.slick-slide img").
xpath
("@src").getall()['/Conte
浏览 2
提问于2021-06-24
得票数 0
回答已采纳
1
回答
在
Scrapy
1.2.0
中
如何在
Xpath
表达式
中
传递字符
串
、
我无法
在
Scrapy
代码中将
Xpath
表达式作为字符
串
变量传递。代码如下: urls = [ ] def parse(self, response
浏览 0
提问于2016-10-14
得票数 0
1
回答
Python根据第一个网页为每个条目保存一个“类别”
、
其逻辑如下:->
在
每种菜肴
中
,通常每封信都有1到3页的20个菜谱。 yield
scrapy
.Request(
url
=
url
, callback = self.parse_cuisines)=
url
, callback = self.parse_main) def parse_main(s
浏览 2
提问于2020-11-30
得票数 0
回答已采纳
4
回答
Scrapy
图像
下载
、
、
我的爬行器运行时没有显示任何错误,但
图像
没有存储
在
文件夹
中
,以下是我的抓取文件:import
scrapy
import os item = ProductionItem() img_
url
= sel.
xpath
('//a[@data-tealium-id="
浏览 71
提问于2016-08-05
得票数 6
回答已采纳
2
回答
刮除前几个链接
、
、
、
我试图跟踪前一年的链接使用刮除从
url
'‘开始。在这个网址
中
,当前年份是2018年,并有前一个按钮。当你点击那个按钮,它会持续到2017年,2016年.直到2000年。但我写的刮痕蜘蛛
在
2017年停了下来。我的代码: name = 'test' allowed_domains = ['umanity.jpdef parse(self, response
浏览 0
提问于2018-06-22
得票数 1
回答已采纳
1
回答
抓取:如何访问几个子页面并提取所有文本?
、
、
获取主页面上的所有链接Visit提取的
子
页面(例如,)Just获取
在
子
页上找到的所有文本)import
scrapy
yield
scrapy
.Request(
url
=
url
, callback=self.parse)
浏览 7
提问于2022-02-07
得票数 0
回答已采纳
3
回答
刮擦选择器不工作飞溅响应
、
、
、
、
我试着用
Scrapy
抓取一些动态内容。我成功地设置了Splash与它一起工作。但是,下列蜘蛛的选择器会产生空结果:from
scrapy
.selector import Selector yield { 'link
浏览 0
提问于2016-06-08
得票数 3
回答已采纳
1
回答
刮刮机没有正确地刮除
图像
、
、
、
、
i=i+1 p=len(task_urls) print response(settings)crawler.start() 该网站使用XHR加载产品,我已经正确地理解了它(您可以注意到我的
浏览 2
提问于2015-07-02
得票数 1
回答已采纳
1
回答
如何从div中提取所有文本,包括来自
Scrapy
和Xpah同级的文本?
、
在
使用
scrapy
2.4从远程
URL
提取文本时,我发现它只返回此div
中
的文本,而不返回它的
子
节点中的文本。 例如。all_text = response.
xpath
('/div/text()').extract() 我需要提取这个div
中
的整个文本,包括合并到一个非格式化字符
串
中
的所有
子
节点的文本。
浏览 16
提问于2020-12-26
得票数 0
回答已采纳
1
回答
不要在
scrapy
中加载
图像
、css或主题以及脚本
、
、
、
、
我需要防止从网页加载
图像
,css文件,主题和脚本。
在
使用
scrapy
的基本抓取
中
有什么方法可以从setting.py或其他网站上阻止他们吗?导入
scrapy
class MySpyder(
scrapy
.Spider): start_urls = [l.strip() for l in open("Archive").readlines()] def parse(self,response
浏览 14
提问于2020-08-14
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
爬虫框架Scrapy的第一个爬虫示例入门教程
python爬虫实例——用scarpy框架爬取全部新浪新闻
SQL Servere 通过LIKE在另一个字符串中查找字符串
使用 Python 和 Scrapy 半小时爬了10 个在线商店的网页
如何用 Python 爬取网页制作电子书,再也不怕闹书荒
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
对象存储
云直播
活动推荐
运营活动
广告
关闭
领券