Scrapy / XPATH :在图像url中查找子串

、、

img src="https://www.awebsite.com/another_1_b_test.jpg" /></ul>".//ul[@class='test_ul']//img[con

浏览 3提问于2018-01-19得票数 0

回答已采纳

1回答

如何在python中从网页中获取链接？

、

我如何去链接并获得它的子链接，然后再次获得它的子子链接?tab=bounties'] 并再次转到该子链接并提取那些子链接链接。

浏览 8提问于2020-05-04得票数 0

回答已采纳

1回答

使用xpath和scrapy提取图像

、、、

我一直在尝试从这个网站https://www.milieuproperties.com/For-Sale/western-cape/durbanville/上获取图片，但我在获取该房产的所有图片时遇到了问题这就是我现在的代码，但我总是得到一个空数组： images = response.xpath('//*[@class="slick-track"]/div/img/@src').getall

浏览 18提问于2020-09-21得票数 0

回答已采纳

1回答

从表中的链接获取数据

、、

我正在尝试从html表中抓取数据。我可以使用下面的爬行器脚本从表中提取现有数据：from scrapy.selector import HtmlXPathSelectorextract() yield item 问题是表中也有我试图调用的链接，并

浏览 1提问于2016-05-16得票数 1

2回答

我是新刮刮，目前正在学习如何从一个名单刮刮的URL信息。我已经能够从一个网址上抓取信息，通过在刮伤网站上的教程。然而，即使在谷歌在线搜索解决方案之后，我也面临着从url中刮出的url列表中的信息的问题。我在下面写的刮刀可以从第一个网址刮起。但是，它不成功地从刮过的URL列表中抓取。这个问题从def parse_following_urls(self，response)开始:这样我就无法从被刮掉的URL列表中

浏览 7提问于2016-02-12得票数 0

回答已采纳

1回答

刮伤不下载图像

、、

我的蜘蛛运行但没有下载图像，在json文件中没有显示任何错误--我有所有字段--但是图像是空的‘映像’：[]我不知道如何修复这个问题。 return item for image_urlin item['image_urls']: yield scrapy.Request

浏览 0提问于2019-08-04得票数 0

回答已采纳

1回答

Scrapy:如何基于url正确创建scrapy.http.response.html.HtmlResponse对象

、、

我写了一个抓取蜘蛛来从有几个子页面的网页中抓取数据。他们中的每一个也有几个子页面等。我想访问所有的子子页面，并采取具体的信息从它。为了更深入地了解，我想用xpath()查询后续的子页面，以获得链接并输入它们。但是要使用xpath，我需要一个scrapy.http.response.html.HtmlResponse类的对象。因此，我写道： from scrapy.http import HtmlResponse new_respon

浏览 35提问于2020-04-25得票数 0

1回答

刮取蜘蛛Xpath图像Url

、、、、

我有一个刮擦蜘蛛，它接收所需关键字的输入，然后生成一个搜索结果url。然后，它会抓取该URL，以抓取“item”中每个汽车结果所需的值。我正试图在我的产品中添加每个完整大小的汽车图像链接的url，该链接伴随着车辆列表中的每一辆汽车。当我输入关键字为"honda“时，正在爬行的特定url如下所示：我一直很难找到正确的方法来编写xpath，然后在代码的最后一部分将获取的图像

浏览 6提问于2016-05-20得票数 1

回答已采纳

1回答

我想将Image存储在excel工作表CSV中，但给我以下数据:image/

、、、

我想将图像存储在excel工作表CSV中，但是给我这个"data:image/gif;base64,R0lGODlhAQABAAAAACH5BAEKAAEALAAAAAABAAEAAAICTAEAOw=="而不是图像url name = "articles" def start_requests(self):url = input(&qu

浏览 5提问于2022-10-11得票数 0

回答已采纳

1回答

查找链接的XPath表达式提供"TypeError: Request必须是str或unicode，got“

、、

我试着用刮擦来刮，但是我一直在找错误TypeError: Request url must be str or unicode, got NoneTypefrom scrapy import Spider from lawn.item

浏览 1提问于2019-11-27得票数 0

回答已采纳

1回答

如何通过使用刮伤获得所有的img？

、、

试着在刮破的壳里做>>> response.css("div.slick-slide img").xpath("@src").getall()['/Conte

浏览 2提问于2021-06-24得票数 0

回答已采纳

1回答

在Scrapy* 1.2.0中如何在Xpath表达式中传递字符串*

、

我无法在Scrapy代码中将Xpath表达式作为字符串变量传递。代码如下： urls = [ ] def parse(self, response

浏览 0提问于2016-10-14得票数 0

1回答

Python根据第一个网页为每个条目保存一个“类别”

、

其逻辑如下：->在每种菜肴中，通常每封信都有1到3页的20个菜谱。 yield scrapy.Request(url = url, callback = self.parse_cuisines)= url, callback = self.parse_main) def parse_main(s

浏览 2提问于2020-11-30得票数 0

回答已采纳

4回答

Scrapy图像下载

、、

我的爬行器运行时没有显示任何错误，但图像没有存储在文件夹中，以下是我的抓取文件：import scrapyimport os item = ProductionItem() img_url = sel.xpath('//a[@data-tealium-id="

浏览 71提问于2016-08-05得票数 6

回答已采纳

2回答

刮除前几个链接

、、、

我试图跟踪前一年的链接使用刮除从url '‘开始。在这个网址中，当前年份是2018年，并有前一个按钮。当你点击那个按钮，它会持续到2017年，2016年.直到2000年。但我写的刮痕蜘蛛在2017年停了下来。我的代码： name = 'test' allowed_domains = ['umanity.jpdef parse(self, response

浏览 0提问于2018-06-22得票数 1

回答已采纳

1回答

抓取:如何访问几个子页面并提取所有文本？

、、

获取主页面上的所有链接Visit提取的子页面(例如，)Just获取在子页上找到的所有文本)import scrapy yield scrapy.Request(url=url, callback=self.parse)

浏览 7提问于2022-02-07得票数 0

回答已采纳

3回答

刮擦选择器不工作飞溅响应

、、、、

我试着用Scrapy抓取一些动态内容。我成功地设置了Splash与它一起工作。但是，下列蜘蛛的选择器会产生空结果：from scrapy.selector import Selector yield { 'link&#

浏览 0提问于2016-06-08得票数 3

回答已采纳

1回答

刮刮机没有正确地刮除图像

、、、、

i=i+1 p=len(task_urls) print response(settings)crawler.start() 该网站使用XHR加载产品，我已经正确地理解了它(您可以注意到我的

浏览 2提问于2015-07-02得票数 1

回答已采纳

1回答

如何从div中提取所有文本，包括来自Scrapy和Xpah同级的文本？

、

在使用scrapy 2.4从远程URL提取文本时，我发现它只返回此div中的文本，而不返回它的子节点中的文本。例如。all_text = response.xpath('/div/text()').extract() 我需要提取这个div中的整个文本，包括合并到一个非格式化字符串中的所有子节点的文本。

浏览 16提问于2020-12-26得票数 0

回答已采纳

1回答

不要在scrapy中加载图像、css或主题以及脚本

、、、、

我需要防止从网页加载图像，css文件，主题和脚本。在使用scrapy的基本抓取中有什么方法可以从setting.py或其他网站上阻止他们吗？导入scrapy class MySpyder(scrapy.Spider): start_urls = [l.strip() for l in open("Archive").readlines()] def parse(self,response

浏览 14提问于2020-08-14得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何在python中从网页中获取链接？

使用xpath和scrapy提取图像

从表中的链接获取数据

从刮取的URL中刮取信息

刮伤不下载图像

Scrapy:如何基于url正确创建scrapy.http.response.html.HtmlResponse对象

刮取蜘蛛Xpath图像Url

我想将Image存储在excel工作表CSV中，但给我以下数据:image/

查找链接的XPath表达式提供"TypeError: Request必须是str或unicode，got“

如何通过使用刮伤获得所有的img？

在Scrapy* 1.2.0中如何在Xpath表达式中传递字符串*

Python根据第一个网页为每个条目保存一个“类别”

Scrapy图像下载

刮除前几个链接

抓取:如何访问几个子页面并提取所有文本？

刮擦选择器不工作飞溅响应

刮刮机没有正确地刮除图像

如何从div中提取所有文本，包括来自Scrapy和Xpah同级的文本？

不要在scrapy中加载图像、css或主题以及脚本

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐