开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

带有rvest的xpath失败，返回一个空列表

rvest是R语言中用于网络数据抓取的包，它可以通过xpath选择器从HTML或XML文档中提取所需的数据。在使用rvest进行xpath选择时，有时会遇到返回空列表的问题。这可能是由于以下几个原因导致的：

选择器错误：首先，需要确保xpath选择器的正确性。可以使用开发者工具或其他工具来验证选择器是否能够正确地匹配到目标元素。如果选择器错误，rvest就无法找到匹配的元素，从而返回空列表。建议使用Chrome浏览器的开发者工具来验证选择器的正确性。
页面加载问题：如果要抓取的网页是动态加载的（例如通过JavaScript），rvest默认只能获取到最初加载的静态内容，无法获取到后续动态加载的内容。这可能导致xpath选择器无法匹配到目标元素，返回空列表。解决这个问题的方法是使用R语言中的其他库，如RSelenium，来模拟浏览器的行为，从而获取到完整的动态加载内容。
网页结构变化：有些网页的结构可能会发生变化，导致之前编写的xpath选择器无法正确匹配到目标元素。这种情况下，需要检查目标网页的结构是否发生了变化，并相应地更新选择器。

综上所述，要解决带有rvest的xpath返回空列表的问题，可以先验证选择器的正确性，确保选择器能够准确匹配到目标元素。如果是动态加载的内容，可以考虑使用RSelenium等库来模拟浏览器行为。同时，也需要关注目标网页的结构是否发生变化，及时更新选择器。

相关搜索:Rvest:返回空列表的标题 Lxml xpath返回一个空数组为什么我的XPath返回一个空的节点集(带有库xml2)为什么xpath的extract()返回锚元素的href属性的空列表？Scrapy查询返回一个空列表 Beautifulsoup findAll返回一个空列表 Selenium只返回一个空列表带有XPath的findElement逐行工作，但在循环中失败返回带有@Validated注释的空体查找所有返回的空列表 GET :urn/metadata返回一个空列表模拟调用返回一个空列表 Laravel eager查询返回一个空列表 html_nodes返回一个空列表如果输入是非空列表或空列表，我需要我的模块返回一个项目列表 BeautifulSoup中的网络抓取返回一个空列表获取python中的XPATH表达式的空列表 ConnectyCube检索对话框列表返回一个空列表使用lxml的Python脚本，返回空列表的xpath 为什么Python BeautifulSoup返回一个空列表？

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

扒一扒rvest的前世今生！

坦白的说，rvest的确是一个很好地数据抓取工具，不过他的强项更多在于网页解析，这一点儿之前就有说到。...但肯定也遇到过有些网页明明数据就摆在那里，通过Chrome开发者工具（或者selectorgadget）也copy了css或者xpath路径，可就是没有返回值，或者总是返回chracter(0)、list...），首先校验xpath是否合法，不合法则报错，合法则返回xptah路径。...源码在这里： https://github.com/hadley/rvest/blob/master/R/session.R 至此，主要的rvest函数都撸完一个遍了，这里给rvest做一个小结吧：它的高级请求功能依托于...当你看到这个R语言爬虫工具列表时，你肯定会很惊讶，哇塞，原来R语言的爬虫功能这么强大耶，的确如此，太多的高级功能只是无人问津罢了。

2.7K7 0

生信人的R语言视频教程-语法篇-第十一章：R中的网络爬虫

用R语言制作爬虫无非就是三个主要的包。XML,RCurl,rvest，这三个包都有不同的主要函数，是R语言最牛的网络爬虫包。...图片来自网络 2.rvest包介绍对于rvest的使用，主要掌握read_html、html_nodes、html_attr几个函数。...rvest是R语言一个用来做网页数据抓取的包，包的介绍就是“更容易地收割（抓取）网页”。其中html_nodes()函数查找标签的功能非常好用。...():利用cookie实现模拟登陆； guess_encoding():返回文档的详细编码； repair_encoding():用来修复html文档读入后乱码的问题。...html_session()用来在浏览器中模拟会话 jump_to()用来接收一个url用来连接的跳转 follow_link()用来接收一个表达式(例如a标签)进行连接的跳转 back()用来模拟浏览器后退按钮

1.6K2 0

左手用R右手Python系列16——XPath与网页解析库

RCurl包是R语言中比较传统和古老的网页请求包，其功能及其庞大，它在请求网页之后通常搭配XML解析包进行内容解析与提取，而对于初学者最为友好的rvest包，其实他谈不上一个好的请求库，rvest是内置了...rvest包的作者是哈德利大神，他对rvest的定位是一个及其精简的、高效、友好的网页获取与交互包，如果你看过rvest的源文档，那么你肯定知道，rvest其实是封装了httr(请求库)和xml2（解析库...（至于CSS，那是rvest的默认支持解析语法，我会单列一篇进行加讲解）本文演示的目标xml文件是我的个人博客：博客地址——raindu.com,选择的页面是博客rss源文件，是一个.xml格式的文件...“|”符号代表或条件，无论是在正则中还是在函数逻辑符号中都是如此，在XPath中也是如此，使用Xath分割两个单XPath表达式，即可同时返回符合两个条件的所有信息。...你可以很清楚的看到第一个返回多出了”http://www.raindu.com/"链接。“*”这里遍历了所有相对路径中的id属性，而第二个只能捕获到entry中的id对象。

2.4K5 0

卧槽， R 语言也能爬取网页的数据！

网页数据的位置本质上可以通过观察网页的结构，然后结合Selector和XPath的语法规则得出来（限于篇幅，Selector和XPath 的语法规则在本节就不进行介绍了）。...至此，关于爬虫的准备工作已经完成。二、rvest 简介 rvest 是 R 用户使用得最多的爬虫包，它简洁的语法可以解决大部分的爬虫问题。它的基本使用方法如下。...1.rvest API 下面对 rvest 包的 API 进行一个简单总结。（1）读取与提取。这一部分主要涉及对网页进行操作的基本函数，如表 1 所示。（2）乱码处理。...● x ：一个 xml_document 数据。 ● css、xpath ：要收集的节点。...在解析结果列表中的位置，最后提取对应列表的解析结果。

5.8K2 0

RCurl中这么多get函数，是不是一直傻傻分不清！！！

.opt是一个配置参数，它就收一组带有命名的list参数，这些通常包括httpheader、proxy、timeout、verbose、cookiefile（cookiejar）等配置信息。...]) #返回的请求头信息 ?...还原结果是一个带有命名的字符串向量。 getCurlErrorClassNames 函数是一个排错函数，具体怎么用我也不知道，目前还没有用过，感兴趣的自己探索！ ?...其实除了RCurl之外，rvest包也有很多好玩的东西，最近的探索发现，rvest本身并不神奇，它作为一个底层请求器httr以及解析器selectr包、xml2包的封装，整合了这些包的优点，在解析方面大有可为...，但是请求功能上很薄弱，它的css解析器实现其实是在内部调用selectr包中的css_to_xpath函数，将css语法转化为xpath之后才开始解析的，这样如果你能花些时间学一下xml2\httr\

2.4K5 0

R语言数据抓取实战——RCurl+XML组合与XPath解析

经常有小伙伴儿跟我咨询，在使用R语言做网络数据抓取时，遇到空值和缺失值或者不存在的值，应该怎么办。...如果原始数据是关系型的，但是你抓取来的是乱序的字段，记录无法一一对应，那么这些数据通常价值不大，今天我以一个小案例（跟昨天案例相同）来演示，如何在网页遍历、循环嵌套中设置逻辑判断，适时的给缺失值、不存在值填充预设值...KHTML, like Gecko) Chrome/61.0.3163.79 Safari/537.36') 构建抓取函数： getcontent<-function(url){ #这个数据框是为最终的数据汇总返回提供的初始值...判断缺失值（或者填充不存在值）的一般思路就是遍历每一页的每一条记录的XPath路径，判断其length，倘若为0基本就可以判断该对应记录不存在。...通过设置一个长度为length的预设向量，仅需将那些存在的（长度不为0）记录通过下标插入对应位置即可，if判断可以只写一半（后半部分使用预设的空值）。

2.4K8 0

一个简单的页面加载管理类(包含加载中，加载失败，数据为空，加载成功)

我们一般在写网络请求的时候，如果不涉及什么MVP，或者别的，就一个简单网络请求，然后再成功的结果里刷新View，请求过程中总不能白屏吧，所以有些人可能会让转一个圈，或者显示加载中的布局，然后等成功后再隐藏掉...{ /**加载中的view*/ private View loadingView; /**加载失败的view*/ private View errorView; /**加载数据为空的view...*/ STATE_SUCCESS(1),/*加载成功的状态*/ STATE_ERROR(2),/*加载失败的状态*/ STATE_EMPTY(3);/*加载数据为空的状态*/ private...先是一个BaseFragment的基类。...fragment填充的具体View */ protected abstract View getSuccessView(); /** * 返回请求服务器的数据

1.2K4 0

R语言爬虫教程与实例操作：如何爬取基金与Pubmed网站信息

R包使用rvest包中的read_html()函数提取网页中的内容。读取国自然操作 1....现在复制另外一个题目的xpath，内容为 //*[@id="resultLst"]/div[2]/p/a。...rvest包中，网页的定位是使用html_nodes()函数，现在我们定位第1个标题的位置，现在将读取的网页赋值给content，来定位网页中的某个东西，例如标题1，如下所示： content <- read_html...标题的xpath地址赋值给xpath，上面的结果就是相应的内容，里面就是一个文本，我们使用html_text()函数来提取这些内容，并将定位的内容赋值给location，然后再提取，如下所示： location...term=circulation') 像前面一样，右键xpath，如下所示：其中，一个rprt对应的就是左侧的蓝色阴影部分，一共有20个这样的结构（其实就是一页中的20个结果），如下所示：我们再回到第

1.3K1 0

左手用R右手Python系列——动态网页抓取与selenium驱动浏览器

关于基础的网络数据抓取相关内容，本公众号已经做过很多次分享，特别是R语言的爬虫框架（RCurl+XML/httr+rvest[xml2+selectr]）已经形成了较为丰富的教程系统。...我在今年年初写过一个实习僧网站的爬虫，那个是使用R语言中另一个基于selenium驱动的接口包——Rwebdriver来完成的。...陈堰平老师主讲：《用RSelenium打造灵活强大的网络爬虫》 http://www.xueqing.tv/course/88 一个老外关于RSelenium的入门视频（youtobe请自行访问外国网站...因为涉及到自动化点击操作，Chrome浏览器倒腾一下午硬是在点击环节出故障，找到了原因，因为拉勾网页面很长，而下一页按钮不在默认视窗范围内，使用了js脚本控制滑动条失败，原因不明，看到有人用firefox...0的空字典！

2.2K10 0

如何在Selenium WebDriver中查找元素？（一）

在Selenium WebDriver中查找元素：“ FindElement”和“ FindElements”之间的区别查找元素查找元素如果定位器发现了多个Web元素，则返回第一个匹配的Web元素...返回匹配的Web元素列表如果找不到元素，则抛出NoSuchElementException 如果找不到匹配的元素，则返回一个空列表此方法仅用于检测唯一的Web元素此方法用于返回匹配元素的集合。...有多种方法可以唯一地标识网页中的一个Web元素，例如ID，名称，类名，链接文本，部分链接文本，标记名和XPATH。...如果任何网站具有非唯一ID或具有动态生成的ID，则不能使用此策略唯一地查找元素，而是将返回与定位器匹配的第一个Web元素。我们将如何克服这种情况，将在XPATH / CSS选择器策略中进行说明。...;// URL地址 List links = driver.findElements(By.className("svg-bkgd01 xi8"));//如果元素不存在，则返回一个空列表

6K1 0

Jmeter(十八) - 从入门到精通 - JMeter后置处理器 -下篇（详解教程）

2、关键参数说明如下： Name：名称，可以随意设置，甚至为空； Comments：注释，可随意设置，可以为空； parameter：要传递到脚本文件或脚本的参数列表； file name：用于执行的脚本文件...3.4结果状态处理器结果状态处理器，实际上在测试的时候我们也经常会遇到这样的测试场景：在一些测试用例失败之后我们需要进行一些操作，例如停止测试，这里可以使用结果状态处理器。...编写脚本的区域。 3.5XPath提取器 Xpath提取器，如果请求返回的消息为xml或html格式的，可以用XPath提取器来提取需要的数据。...2、天气预报返回HTML，然后再添加xpath提取器，如下图所示：举例：//div[@class='w_city city_guonei']//a/@href 选取div下带有class属性为w_city...Namespaces aliases list：命名空间别名列表。就是这个功能，能让使用命名空间比使用旧的XPath提取器更方便。

4.5K3 0

现代生物学领域的生物信息学权重高吗

简单的使用谷歌浏览器的检查功能，就可以看到每个页面的书籍列表里面的书籍大标题是： <a href="https://www.springer.com/book/9781071634165" data-track...包进行这些网页的解析而已，全部的代码如下所示： # 安装和加载rvest包 if (!...require(rvest)) { install.packages("rvest") } library(rvest) # 定义要爬取的URL urls <- paste0("https://www.springer.com...，接下来就是针对它们的标题内容进行一个简单的汇总整理。...系统生物学：这是一个试图理解生物系统的整体行为的领域，而不仅仅是研究单个的基因或蛋白质。

1752 0

这个包绝对值得你用心体验一次！

比如今天，我找到了一个自带请求器的解析包，而且还是嵌入的pantomjs无头浏览器，这样就不用你再傻乎乎的再去装个selenium驱动，也不用借助任何请求器（RCurl或者httr）包就可以自动解析带有...http://phantomjs.org/ 关于异步加载的逻辑以及为何带有异步加载的网页里，XML包的readHTMLTable函数和rvest包的html_table函数统统对束手无策，项目主页里作者都有提到...XML和xml2以及rvest包，允许你直接从url地址下载并解析HTML文档，但是它们确少一个中介浏览器引擎来渲染这些HTML源文档！...——rdom，它在后台调用phantomjs浏览器来对请求的HTML文档进行渲染，并将渲染后的完整HTML文档返回。...你可以提供给rdom函数一个css路径，来从HTML文档中抽取一部分内容返回。

2.1K6 0

R 爬虫｜手把手带你爬取 800 条文献信息

试水我们主要是使用 rvest 这个 R 包来爬取，这个主要应用于静态网页的数据爬取会实用一些，安装： install.packages('rvest') 我们的目的是搜索感兴趣的关键词，然后对搜索的结果进行爬取...，首先我们爬取的网址就是当前页面的网址，因为显示的限制，所以需要对每个页面的数据进行爬取： # 加载R包 library(xml2) library(rvest) library(tidyverse)...，html 主要有 head 和 body 两个成分组成： # 示例，read_html 返回html格式的内容 read_html(url[1],encoding = 'utf-8') ## {html_document...，首先点击我们选中的内容，然后在 3 位置上鼠标右键点击复制选项：可以看到复制 selector、复制 XPath 和复制完整的 XPath 三个选项，分别是节点选择器，节点相对路径，节点绝对路径，...可以看到返回的是完整的该位置处的节点信息，可以使用 html_text 函数从里面提取文本信息，去除 html 格式的标签等不必要信息： read_html(url[1],encoding = 'utf

5.9K2 0

利用爬虫技术自动化采集汽车之家的车型参数数据

，返回空值 if retry == 0: logging.error(f'请求失败，重试次数用尽，URL：{url}') return None4....# 否则，记录错误信息，并返回空值 else: logging.error('解析失败，无法提取车型名称或车型参数表格') return None5....定义存储或处理提取的数据的函数然后，我们需要定义一个函数，用于存储或处理提取的数据：def save_data(data): # 判断数据是否存在 if data: # 将数据添加到车型参数数据的空列表中...QUEUE.put(car_url) # 初始化一个空列表，用于存储爬虫线程对象 threads = [] #...logging.error('网页源代码为空，无法继续爬取') # 判断车型参数数据的空列表是否存在 if DATA: # 使用pandas库创建一个数据框对象，传入车型参数数据的空列表和列名

5013 0

左手用R右手Python系列17——CSS表达式与网页解析

css路径表达式，当然rvest也是支持XPath，只是XPath并非首选语法，而是备选语法，怎么知道呢，打印一下rvest的html_nodes函数参数内容即可得知。...~”也是代表包含关系，但是这里的包含关系与上一条的包含关系有所不同，这里的“~”专门用于匹配属性值为句子（带有单词边界【一般为空格】），所有本案例情形无法匹配到。..."那些培训师都不曾告诉你的关于Excel图表的秘密~" [3] "Excel依然是一款强大的数据可视化利器~" 以上的contains是一个匹配函数，跟XPath中的匹配函数及其类似，但是这里限定的是节点文本内包含的字符串...，因为li的子节点中第一个节点是a而非span，所以适用span:first-child限定了第一个节点必须是span，自然输出内容为空，而span:first-of-type则输出子节点中的第一个span...，因为li内的后三个节点都是span节点，也就是last-child是有符合条件的，所以返回最后一个span内容，内容为空。

1.7K5 0

R语言爬虫初尝试-基于RVEST包学习

在学完coursera的getting and Cleaning data后，继续学习用R弄爬虫网络爬虫。主要用的还是Hadley Wickham开发的rvest包。...另外，因为之前听人说过，要了解一个公司的动态，有一个办法是去看这个公司放出来的招聘岗位，可以知道他们最近哪个业务线要扩张了，哪个业务线要跑人了，以及了解技术需求。 rvest基础语法： ?...上面完成了第一个列表。爬出效果如图关于这个数据有什么用呢…… 简单来说，我们可以用它来看这个网上有多少在招的，各公司招人的比例，以及薪资水平，做一点基础的数据分析。...注意事项：对于被编码保护的数据（如国外yellow.local.ch，email被编码保护了。需要用 decodeURIComponent函数反编译。） xpath语句对html_nodes适用。...rvest对于静态抓取很方便！但是对于脚本访问的网页，还需要继续学习RCurl包。

1.6K3 0

Selenium 动态爬取51job招聘信息

'addbut']//input[@id='work_position_input']").click() # 选中城市弹出框 browser.current_window_handle # 定义一个空字典...方法模拟用户输入关键字,选择城市,点击搜索，返回browser对象 getUrl方法找到所有符合规则的url，返回urls列表 spider方法 ...'addbut']//input[@id='work_position_input']").click() # 选中城市弹出框 browser.current_window_handle # 定义一个空字典... self.log.info('获取所有岗位成功') # browser.quit() def getUrl(self, browser): # 创建一个空列表...,用来存放所有岗位详情的url urls = [] # 创建一个特殊招聘空列表 job_urls = [] # 获取所有岗位详情url

1.3K4 0

给一非空的单词列表，返回前 k 个出现次数最多的单词。返回的答案应该按单词出现频率由高到低排序，如果不同的单词有相同出现频率，按字母顺序排序。

题目要求给一非空的单词列表，返回前 k 个出现次数最多的单词。返回的答案应该按单词出现频率由高到低排序。如果不同的单词有相同出现频率，按字母顺序排序。...i”, “love”, “leetcode”, “i”, “love”, “coding”], k = 2 输出: [“i”, “love”] 解析: “i” 和 “love” 为出现次数最多的两个单词...”, “is”, “is”], k = 4 输出: [“the”, “is”, “sunny”, “day”] 解析: “the”, “is”, “sunny” 和 “day” 是出现次数最多的四个单词...} } public List topKFrequent(String[] words, int k) { //1.先统计每个单词出现的个数...ArrayList中 //keySet相当于得到了一个Set，Set中存放的就是所有的key ArrayList arrayList = new ArrayList

1.6K3 0

大数据—爬虫基础

，则要修改编码格式 ret.encoding='utf-8' 查看是否请求成功： print(ret) 返回200为成功，非200则请求失败。...常用函数函数说明 re.match( ) 从字符串的起始位置匹配, 匹配成功, 返回一个匹配的对象, 否则返回None re.match( ) 扫描整个字符串并返回第一个成功的匹配 re.findall...( ) 在字符串中找到正则表达式所匹配的所有子串, 并返回一个列表, 如果没有找到匹配的, 则返回空列表 re.split( ) 将一个字符串按照正则表达式匹配结果进行分割, 返回列表类型 re.finditer...它会返回一个包含所有匹配项的列表。参数： find_all(name, attrs, recursive, string, **kwargs) name：要查找的标签名。...find()函数 find() 方法与 find_all() 类似，但它只返回第一个匹配的标签（而不是一个列表）。如果没有找到匹配的标签，则返回 None。

1012 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭