开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

为什么xpath的extract()返回锚元素的href属性的空列表？

XPath的extract()方法是用于提取匹配到的元素内容的方法。在使用extract()方法时，如果匹配到的元素是一个锚元素（即<a>标签），并且想要提取其href属性，但返回的结果是一个空列表，可能有以下几个原因：

锚元素没有href属性：首先要确认所匹配到的锚元素是否真的具有href属性。可以通过查看网页源代码或使用其他方法来确认。
锚元素的href属性为空：即使锚元素具有href属性，但其属性值为空，也会导致extract()方法返回一个空列表。可以通过查看网页源代码或使用其他方法来确认。
XPath表达式不正确：如果使用的XPath表达式不正确，可能无法正确匹配到目标元素。需要仔细检查XPath表达式是否正确，并确保能够准确匹配到目标元素。
页面加载问题：如果使用的是动态网页，可能需要等待页面加载完成后再进行元素提取。可以使用相关的等待方法或工具来确保页面加载完成后再进行提取操作。

需要注意的是，以上原因仅供参考，具体情况可能因网页结构、代码实现等因素而异。如果以上方法都无法解决问题，建议进一步检查代码实现或寻求专业人士的帮助。

相关搜索:基于锚文本的`a`元素的XPath？如何获取href title属性的xpath 无法获取span元素下锚点元素的xpath 仅从Selenium + Python中的元素XPath获取href元素为什么xPath以相反的顺序返回这些元素？空链接元素上的XPath错误带有rvest的xpath失败，返回一个空列表 XPath查询-返回具有用于筛选的相同元素的属性 svg元素的属性的XPath是什么？为什么我的Selenium xpath表达式返回的是[对象属性]而不是元素？使用Xpath返回多个元素的值修改svg元素内的图像href属性使用jquery更改某些元素的href属性 XPath表达式:选择A HREF ="expr"标记之间的元素 xPath元素中的字符串为空为什么我找不到xpath的元素？Xpath查询未返回任何找到的元素选择属性以XPath中的内容开头的元素返回列表的多个元素查找所有返回的空列表

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

java8 利用reduce实现将列表中的多个元素的属性求和并返回

利用java8流的特性，我们可以实现list中多个元素的属性求和并返回。...案例：有一个借款待还信息列表，其中每一个借款合同包括：本金、手续费；现在欲将所有的本金求和、所有的手续费求和。...我们可以使用java8中的函数式编程，获取list的流，再利用reduce遍历递减方式将同属性（本金、手续费）求和赋予给一个新的list中同类型的对象实例，即得到我们需要的结果： A a = list.stream

1.4K3 0

解析神器xpath使用教程

为什么要学习xpath和parsel parsel是一款高性能的 Python HTML/XML 解析器。...将字符串转化为Selector对象,Selector对象具有xpath的方法,返回结果的列表，能够接受bytes类型的数据和str类型的数据。...xpath的使用方法要用到parsel模块 import parsel 使用xpath的前提是具有xpath方法 –> Selector对象提取到的数据返回一个列表转换数据类型方法 data =...= data.xpath('//li')[2].extract() print(result) 通过定位属性的方法获取第四个 a 标签 result = data.xpath('//a[@href="....html"]/text()').extract() print(result) 获取第五个 a 标签的href属性值 result = data.xpath('//li[5]/a/@href').extract

1.1K1 0

Python爬虫从入门到放弃（十四）之 Scrapy框架中选择器的用法

选取当前节点的父节点 @ 选取属性 * 匹配任何元素节点 @* 匹配任何属性节点 Node() 匹配任何类型的节点 CSS选择器 CSS...[target] 选择带有targe属性的所有元素 [arrtibute=value] [target=_blank] 选择target=”_blank”的所有元素选择器的使用例子...获取title 这里的extract_first()就可以获取title标签的文本内容,因为我们第一个通过xpath返回的结果是一个列表，所以我们通过extract()之后返回的也是一个列表，而extract_first...()可以直接返回第一个值，extract_first()有一个参数default,例如：extract_first(default="")表示如果匹配不到返回一个空 In [1]: response.xpath...属性 In [41]: response.xpath('//a[contains(@href,"image")]/img/@src').extract() Out[41]: ['image1_thumb.jpg

1.1K8 0

Scrapy框架的使用之Selector的用法

其中，@符号后面内容就是要获取的属性名称。现在我们可以用一个规则把所有符合要求的节点都获取下来，返回的类型是列表类型。但是这里有一个问题：如果符合要求的节点只有一个，那么返回的结果会是什么呢？...然后用extract()方法提取结果，其结果还是一个列表形式，其文本是列表的第一个元素。...一旦XPath有问题，那么extract()后的结果可能是一个空列表。如果我们再用索引来获取，那不就会可能导致数组越界吗？...匹配不到任何元素，调用extract_first()会返回空，也不会报错。...我们也可以使用extract_first()方法提取列表的第一个元素，如下所示： >>> response.css('a[href="image1.html"] img').extract_first(

2K4 0

《Learning Scrapy》（中文版）第2章理解HTML和XPath使用Chrome浏览器获得XPath表达式常见工作提前应对网页发生改变

在右边的方框中，在属性标签下面，你可以看到这个树结构的属性列表。在页面底部，你可以看到一个面包屑路径，指示着选中元素的所在位置。 ?... ] 注意，标签在标签内有两个，所以会返回两个。你可以用p[1]和p[2]分别返回两个元素。...'] response.xpath('//a/@href').extract() [u'http://www.iana.org/domains/example'] response.xpath...当抓取的时候，你通常是对含有某个属性的元素感兴趣的，就像之前的link和link active。XPath的contains( )函数就可以帮你选择包含某一class的所有元素。...部分原因是，JavaScript和外链锚点总是使用id获取文档中特定的部分。

2.2K12 0

爬虫网页解析之css用法及实战爬取中国校花网

>Example website'>] .xpath() 以及 .css() 方法返回一个类 SelectList 的实例，它是一个新选择器的列表。...> ul" 选择id为container的第一个ul节点 "a[class] " 选取所有有class属性的a元素 "a[href="http://b.com"]" 含有href...="http://b.com"的a元素 "a[href*='job'] " 包含job的a元素 "a[href^='https'] " 开头是https的a元素 "a[href$='cn']"...("#images a")[0].css("::attr(href)").extract() # css选取第一个a标签里面的href属性 ['image1.html'] >>> response.xpath...//div[@id='images']/a[1]").xpath("@href").extract() # xpath选取第一个a标签里面的href属性 ['image1.html'] css用法实战

1.9K1 0

手把手教你用Python实现分布式爬虫(四) - scrapy爬取技术文章网站

| | ul ~ p | 选取与ul相邻的所有p元素 | | atitle | 选取所有有title属性的a元素 | | a[href=“http://jobbole.com”] | 选取所有href...属性为jobbole.com值的a元素 | | ahref*=“jobble” | 选取所有href属性包含jobbole的a元素 | | ahref^=“http” | 选取所有href属性以http...开头的a元素 | | ahref$=".jpg" | 选取所有href属性以jpg结尾的a元素 | | inputtype=radio:checked | 选择选中的radio元素 | | div:not...extract()函数可以传入参数，表示如果找到的数组为空，那么就返回默认值。...比如extract("")就表示如果前面取出数组为空，那么就返回空字符串. 5 spider批量爬取首先，我们需要通过列表页爬取所有文章的url，前面部分只爬取了一个页面 start\_urls这个list

1.8K3 0

Scrapy中Xpath的使用

，而.getall()可以返回一个列表，该列表中包含所有元素的文本值。...[29]: 'not-found' 获取元素的属性值获取元素属性值的方法有两种：一种是通过xpath直接获取，另一种是通过scrapy的attrib[]来获取： In [30]: response.xpath...).attrib['href'] Out[31]: 'image1.html' 显然，这两种方法由很大不同，/@href可以以列表的形式获取；但是element.attrib['href']只能获取选择器的第一个对象的属性值...element.attrib可以返回一个字典，该字典包含该节点的所有属性与属性值。...类似于.get() 和 .extract_first()) ，在正则模块中 .re()也有一个相似的方法.re_first()，可以只获取列表元素的第一个值。

9152 0

Scrapy选择器的用法

('//span/text()').extract() [u'good'] 2.使用选择器（在response使用xpath或CSS查询）： .xpath() 及 .css() 方法返回一个类 SelectorList... 的实例, 它是一个新选择器的列表。...::text') [xpath=//title/text()>] xpath中 //选取标签，/选择属性， CSS中用 :: 选取属性。...调用 extract() 来获取标签内容，使用extract_frist()来获取第一个元素内容。...>>> response.xpath('//a[contains(@href, "image")]/@href').extract() [u'image1.html', u'image2.html',

67912 0

(原创)七夜在线音乐台开发第三弹爬虫篇

元素的文字 //td: 选择所有的元素 //div[@class="mine"]: 选择所有具有 class="mine" 属性的 div 元素上边仅仅是几个简单的XPath...Selector有四个基本的方法(点击相应的方法可以看到详细的API文档): xpath(): 传入xpath表达式，返回该表达式所对应的所有节点的selector list列表。...css(): 传入CSS表达式，返回该表达式所对应的所有节点的selector list列表. extract(): 序列化该节点为unicode字符串并返回list。...re(): 根据传入的正则表达式对数据进行提取，返回unicode字符串list列表。...我们可以通过这段代码选择该页面中网站列表里所有元素: response.xpath('//ul/li') 网站的描述: response.xpath('//ul/li/text()').extract

1.1K3 1

Python分布式爬虫框架Scrapy 打造搜索引擎(四) - 爬取博客网站

选取所有有title属性的a元素 a[href=“http://jobbole.com”] 选取所有href属性为jobbole.com值的a元素 a[href*=“jobble”] 选取所有href...属性包含jobbole的a元素 a[href^=“http”] 选取所有href属性以http开头的a元素 a[href$=".jpg"] 选取所有href属性以jpg结尾的a元素 input[type...()，这个函数就是相当于之前的extract()[0]，但是前者好处在于避免了当取出数组为空的情况，这时候取[0]元素是会报错的，不得不做异常处理。...extract()函数可以传入参数，表示如果找到的数组为空，那么就返回默认值。...比如extract("")就表示如果前面取出数组为空，那么就返回空字符串. 5 spider批量爬取首先，我们需要通过列表页爬取所有文章的url，前面部分只爬取了一个页面 start_urls这个

1.1K4 0

Scrapy框架| 选择器-Xpath和CSS的那些事

> a.tag::text").extract() } next_page_url = response.css("li.next > a::attr(href...3 详解Selector xpath（query）：写入xpath的表达式query，返回该表达式所对应的所有的节点的selector list 列表 css（query）：写入css的表达式query...，返回该表达式所对应的所有的节点的selector list 列表 extract（）：序列化该节为Unicode字符串并返回list列表 extract_first（）：序列化该节为Unicode字符串并返回第一个元素...// 从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置。 . 选取当前节点。 .. 选取当前节点的父节点。 @ 选取属性。...//@lang 选取名为 lang 的所有属性。

1.3K3 0

用Python爬取COS网页全部图片

进行交互在页面中按, ， ,顺序查找并在最后a标签中的href属性，再用“.extract()”方法将Selector数据取出 data_list...,,@a标签中的href属性，再用“.extract()”方法将Selector数据取出，并创建一个data_list变量来接收 (6)打印data_list “print(data_list)”打印.../a/img/@title').extract() #获取相册的名字，返回的是一个列表 #使用列表推导式对列表进行分组 data_list = [data_list[i:i + 2] for i in..."]//ul/li/a/@href|//div[@class="Left_bar"]//ul/li/a/img/@title').extract() #获取相册的名字，返回的是一个列表...>,@a标签中的href属性，再用“.extract()”方法将Selector数据取出，并创建一个data_list变量来接收 # print(data_list) # 使用列表推导式对列表进行分组

8614 0

Python 爬虫之Scrapy《中》

/div/a")[0] #返回的不再是列表了，可以与上面的命令对比一下 xpath='//body/header/div/div/div/a' data='的使用，使用”.”表示当前节点元素，使用 xpath 可以连续调用，如果前一个 xpath 返回一个Selector 的列表，那么这个列表可以继续调用 xpath，功能是为每个列表元素调用 xpath...'>] Step4: text() 它可以得到一个 Selector 元素包含的文本值，文本值节点对象也是一个Selector 对象，可以再通过 extract()获取文本值。...Selector 对象，通过 extract()获取属性值 >>> response.xpath("//body/header/div/div/div/p[@class='description']"...'>] Step6: get() and getall() #都具有将xpath提取到的数据从Selector转换为unicode的作用，只不过get()返回字符串，getall()返回的是一个列表

8611 0

Python Scrapy框架之Selector选择器

3 Xpath选择器： response.selector属性返回内容相当于response的body构造了一个Selector对象。...Selector对象可以调用xpath（）方法实现信息的解析提取。在xpath（）后使用extract（）可以返回所有的元素结果。若xpath（）有问题，那么extract（）会返回一个空列表。...在xpath（）后使用extract_first（）可以返回第一个元素结果。使用scrapy shell 爬取"淘宝网"->"商品分类"->"特色市场"的信息。...print(a.xpath("./@href").extract_first(),end=":") ... print(a.xpath("....注：css中获取属性：a.css("::attr(href)").extract_first() END

1.1K2 0

Scrapy（7） Shell 研究

selector list列表 extract(): 序列化该节点为Unicode字符串并返回list css(): 传入CSS表达式，返回该表达式所对应的所有节点的selector list列表，语法同...@class="mine"]: 选择所有具有 class="mine" 属性的 div 元素尝试Selector 我们用腾讯社招的网站 http://hr.tencent.com/position.php...('//title').extract()[0]) 职位搜索 | 社会招聘 | Tencent 腾讯招聘 # 返回 xpath选择器对象列表 response.xpath...\u8058 | Tencent \u817e\u8baf\u62db\u8058'> # 返回列表第一个元素的Unicode字符串 response.xpath('//title/text()')[.../td[1]/a/@href').extract()[0]) position_detail.php?

6111 0

Python:Scrapy Shell

xpath表达式，返回该表达式所对应的所有节点的selector list列表 extract(): 序列化该节点为Unicode字符串并返回list css(): 传入CSS表达式，返回该表达式所对应的所有节点的...selector list列表，语法同 BeautifulSoup4 re(): 根据传入的正则表达式对数据进行提取，返回Unicode字符串list列表 XPath表达式的例子及对应的含义: /html...选择所有的元素 //div[@class="mine"]: 选择所有具有 class="mine" 属性的 div 元素尝试Selector 我们用腾讯社招的网站http://hr.tencent.com...\u8058 | Tencent \u817e\u8baf\u62db\u8058'> # 返回列表第一个元素的Unicode字符串 response.xpath('//title/text()')[.../td[1]/a/@href').extract()[0] position_detail.php?

6602 0

selector的使用

('//title/text()').get() 'Example website' .get()始终返回单个结果；如果有多个匹配项，则返回第一个匹配项的内容；如果没有匹配项，则不返回任何匹配项。....getall()返回包含所有结果的列表。...css选择器可以使用css3伪元素选择文本或属性节点： >>> response.css('title::text').get() 'Example website' .xpath()和.css()方法可用于快速选择嵌套数据...', 'image4_thumb.jpg', 'image5_thumb.jpg'] 只提取第一个匹配的元素，则可以调用选择器.get()（或其别名）.extract_first() >>> response.xpath...('//div[@id="images"]/a/text()').get() 'Name: My image 1 ' 如果未找到元素,返回None >>> response.xpath('//div[@

6851 0

爬虫必备技能之网页解析库：xpath用法和实战

在这里列出了xpath的常用匹配规则，例如 / 代表选取直接子节点，// 代表选择所有子孙节点，. 代表选取当前节点，.. 代表选取当前节点的父节点，@ 则是加了属性的限定，选取匹配属性的特定节点。...//div[@class='box']/ul//li") 遍历这个列表，取出我们所需要的章节，详细链接 li_list = selector.xpath("..../a/text()").extract_first('') href = text.xpath('..../a/@href').extract_first('') 接下来，从详情链接中取出小说内容，即完成了这个小爬虫！ ? p_list = selector.xpath("..../a/text()").extract_first('') # 标题 href = text.xpath('.

1.1K3 0

Scrapy框架

如果实在不想自己写的话可以借助edge浏览器的插件SelectorGadget 给自动生成一下在XPath中，有7种类型的节点：元素、属性、文本、命名空间、处理指令、注释以及文档节点（...选取当前节点 … 选取当前节点的父节点 @+属性名称选择属性 * 匹配任何元素节点 @* 匹配任何属性节点 Node() 匹配任何类型的节点 /text（）节点的文本内容提取 @href 节点href...采集name属性为en的数据 print(se(text=body).xpath('//name[@lang="en"]').extract()) Response（Using selectors）定义在...getall()：返回所有结果 extract():返回所有结果 extract_first：返回第一个结果调用getall返回的是一个列表，当爬取的数据不存在时，对列表的索引会导致程序出现IndexError...类的属性： name：自己定义的spider的名字 allowed_domains：包含了spider允许爬取的域名(domain)列表(list) start_urls：URL列表。

4623 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭