开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

使用xpathSApply来提取现有节点，而使用NA来提取丢失的节点？

使用xpathSApply来提取现有节点，而使用NA来提取丢失的节点是一种在R语言中处理XML数据的方法。

xpathSApply是R语言中的一个函数，用于在XML文档中根据XPath表达式提取节点。XPath是一种用于在XML文档中定位节点的语言，可以通过指定节点的路径或属性来定位节点。

使用xpathSApply函数，可以通过指定XPath表达式来提取现有节点。该函数会返回一个包含提取到的节点的列表或向量。

例如，如果我们有一个XML文档如下：

<root>
  <node1>Value 1</node1>
  <node2>Value 2</node2>
</root>

我们可以使用xpathSApply函数提取节点node1和node2的值：

library(XML)

# 读取XML文档
doc <- xmlParse("path/to/xml/file.xml")

# 提取节点值
values <- xpathSApply(doc, "//root/node1 | //root/node2", xmlValue)

在上面的例子中，XPath表达式"//root/node1 | //root/node2"指定了要提取的节点路径。函数会返回一个包含节点值的向量。

而使用NA来提取丢失的节点，意味着我们希望在节点不存在时返回一个缺失值（NA）。这可以通过判断节点是否存在来实现。

例如，如果我们希望提取节点node3的值，但是该节点在XML文档中不存在，我们可以使用以下代码：

library(XML)

# 读取XML文档
doc <- xmlParse("path/to/xml/file.xml")

# 判断节点是否存在
if (length(xpathApply(doc, "//root/node3")) > 0) {
  # 提取节点值
  value <- xpathSApply(doc, "//root/node3", xmlValue)
} else {
  # 节点不存在，返回NA
  value <- NA
}

在上面的例子中，我们首先使用xpathApply函数判断节点是否存在。如果节点存在，我们使用xpathSApply函数提取节点值；如果节点不存在，我们将value设置为NA。

总结：

xpathSApply是R语言中用于提取XML文档中现有节点的函数，通过指定XPath表达式来定位节点。
使用NA来提取丢失的节点意味着在节点不存在时返回缺失值NA，可以通过判断节点是否存在来实现。
这种方法适用于在R语言中处理XML数据，提取现有节点和处理丢失节点的需求。

相关搜索:使用Rvest将特定父节点的所有子节点的文本提取为数据框中的变量使用R为xml文件中的所有节点提取同名属性使用VB.NET提取HTML节点的值使用xml2在不丢失与父节点的连接的情况下提取子节点使用xpath从使用节点前缀的xml中提取对象使用XPath和Scrapy从下一个节点的子节点中提取文本使用XSL提取XML文件的子集并更改一个节点使用具有概率的`dplyr::na_if`来创建丢失的数据？在RestAssured中使用contains with JsonPath提取Java中的节点值如何使用annotate in query set来提取某个位置的类型计数？

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

左手用R右手Python系列16——XPath与网页解析库

通常我们使用的XPath选择工具是getNodeSet函数或者xpathSApply函数（是sapply的一个简单封装）。...title的值，而剩余的title节点全部都包含在feed》entry》中，第一遍使用相对路径时，因为可以自由跳转和跨越，也就时找到文档中所有含有title节点的对象值，所以路径表达式返回了所有文档中title...但是有一个明显区别是sapply输出内容更为整齐，如何符合条件即可输出向量，而getNodeSet则一直输出list，所以提倡大家使用xpathSApply。...2、文本谓语: 以上所有操作针对的都是节点以及节点值，而很多时候我们需要的不是节点值而是属性值，涉及到属性值捕获，则需要熟记文本谓语。...“ggplot”字样的记录，第二条可以解释为找到文档中所有entry节点中的category（绝对路径）节点，并提取出节点内term属性值包含“R”的节点，提取出来这些节点对象的scheme属性值。

2.3K5 0

一篇就让小白入门K8S，使用Minikube来搭建本地的单节点K8S集群

我们将使用Minikube工具来搭建本地的单节点Kubernetes集群，并部署一个简单的Nginx Web服务器。...安装和配置Kubernetes集群在本案例中，我们将使用Minikube工具来搭建本地的Kubernetes集群，以便在开发环境中进行实验和测试。...kubectl与集群进行交互：# 验证集群状态kubectl cluster-info# 查看节点状态kubectl get nodes构建Docker镜像在将应用程序部署到Kubernetes集群之前...创建Kubernetes资源对象在Kubernetes中，我们使用资源对象来定义应用程序的部署、服务和访问规则。按照以下步骤创建资源对象：a....，并学习了如何安装、配置和使用Kubernetes来部署和管理容器化应用程序。

3160 1

R语言学习笔记——R语言面向对象编程系列2

R语言内目前可以实现OOP范式的一共有四套标准：S3、S4、RC、R6，其中关于S3、S4两种范式在早期的各种扩展包中使用比较多，是基于泛型函数而实现的，之前在学习Python的面向对象编程系列时曾经做过粗浅的练习...list，然后设置其class属性，而初始化S4对象时需要使用函数new； 3.提取变量的符号不同，S3为$，而S4为@； 4.在应用泛型函数时，S3需要定义f.classname，而S4需要使用setMethod...函数； 5.在声明泛型函数时，S3使用UseMethod()，而S4使用setGeneric()。...，在封装上非常不方便，而RC以及在RC基础上进一步发展的R6标准已经逐步开始接近主流编程语言中面向对象的实现模式。...fullinfo = NA, headers = NA, #初始化函数 initialize = function(i,fullinfo

1.8K12 0

用R语言照葫芦画瓢撸了一个简易代理~

爬虫的入门也算有了一点儿小小的心得，下一步计划在不断练习巩固现有知识的同时、对服务器的反反爬进行探索，这里涉及到如何使用随机agent、如何构造匿名代理IP以及如何使用多进程，要走的路还有很长。...想要好用的，据说有钱能使磨推鬼！以下是我个人使用R语言仿照上面那篇文章的思路写的一个简易IP代理抓取与检测代码，仅供参考，不要吐槽文科僧那屎一般的代码风格！...cat("ERROR :",conditionMessage(e),"\n") }) myproxy % htmlParse() #提取...% xpathSApply('//tr/td[3]',xmlValue) #端口 sur_time % xpathSApply('//tr/...) } return(tmp_proxies) } ###返回有效代理： UsefulProxy % unlist %>% na.omit

1K7 0

R语言数据抓取实战——RCurl+XML组合与XPath解析

经常有小伙伴儿跟我咨询，在使用R语言做网络数据抓取时，遇到空值和缺失值或者不存在的值，应该怎么办。...因为我们大多数场合从网络抓取的数据都是关系型的，需要字段和记录一一对应，但是html文档的结构千差万别，代码纷繁复杂，很难保证提取出来的数据开始就是严格的关系型，需要做大量的缺失值、不存在内容的判断。...如果原始数据是关系型的，但是你抓取来的是乱序的字段，记录无法一一对应，那么这些数据通常价值不大，今天我以一个小案例（跟昨天案例相同）来演示，如何在网页遍历、循环嵌套中设置逻辑判断，适时的给缺失值、不存在值填充预设值...###提取图书类别： category=content %>% xpathSApply(....构建自动化抓取函数，其实挑战不仅仅是缺失值、不存在值的处理，变量作用域的设置也至关重要，以上自动以函数中使用了两层for循环嵌套，在内层for循环中还使用了四个if 判断，个别字段的XPath路径不唯一

2.4K8 0

左手用R右手Python系列——面向对象编程基础

R语言中的面向对象编程是通过泛型函数来实现的，R语言中现有的S3类、S4类、以及R6类等都可以实现面向对象的编程规范。...仅需将实例绑定到对应的方法上，那么在类中传入实例之后，类便可以自动搜寻到该实例的方法，并自动执行该实例对应方法的函数调用，R语言中的summary、plot、print函数等都是通过这种泛型函数的模式来实现的...使用基于S4类的方法来实现以上案例的面向对象模式 initialize <- list( i = 0, fullinfo = data.frame()...S4对象时需要使用函数new；提取变量的符号不同，S3为$，而S4为@；在应用泛型函数时，S3需要定义f.classname，而S4需要使用setMethod函数；在声明泛型函数时，S3使用UseMethod...()，而S4使用setGeneric()。

1.3K12 0

豆瓣内容抓取：使用R、httr和XML库的完整教程

概述在数据分析和统计领域，R语言以其强大的数据处理能力和丰富的包库资源而闻名。它不仅提供了一个灵活的编程环境，还拥有专门用于数据抓取和处理的工具，如httr和XML库。...这些工具使得从各种网站上抓取数据变得简单而高效。豆瓣网站作为一个集电影、书籍、音乐等文化内容于一体的社交平台，其数据库丰富，信息更新及时，是数据分析师和研究人员的宝贵资源。...解析返回的XML文档使用XML库解析返回的HTML内容，并提取我们感兴趣的数据。在这个例子中，我们将提取豆瓣主页中的一些重要信息。...# 解析XML文档xml_doc <- htmlParse(content, asText = TRUE)# 提取数据（例如标题）titles <- xpathSApply(xml_doc, "//title...（例如标题） titles <- xpathSApply(xml_doc, "//title", xmlValue) # 提取所有链接 links <- xpathSApply(xml_doc

741 0

如何用R语言从网上读取多样格式数据

：凡是以http开头的，放心大胆的使用download.file() 凡是以https开头的，这个函数可能失效在设置路径时可以通过file.exists来查看文件夹是否存在，如果不存在可以使用dir.create...来创建它，避免找不到路径的烦恼。...类型的数据，htmlParse函数产生的对象 path:XPath 表达式，常用的有 "/" 表示根节点处寻找;"//"表示文档任意处寻找;"@"表示选择相应的属性我们可以通过抓取HTML里的关键词来发现很多东西...进一步地，对于每一个链接，如果我们还想知道标题与日期，我们可以使用sapply函数： bbcScraper2 <- function(url){ title=date=NA #Return empty...，然而除了微博外也有很多其他的网站因为json采用完全独立于语言的文本格式，但是也使用了类似于C语言家族的习惯使JSON成为理想的数据交换语言被许多的API使用。

6.9K5 0

扒一扒rvest的前世今生！

你可能惊艳于rvest强大的解析能力，有两套解析语法可选（Xpath、css）,短短几个关键词路径就可以提取出来很重要的数据。...还记得之前讲异步加载的时候说过的，ajax技术将请求的的网络资源分成了html纯文档和js脚本，浏览器可以通过解析并执行js脚本来更新关键数据，而通过其他非浏览器终端发送的请求，通常情况下只能拿到纯文档...包中的xml_attrs函数，就是从节点中批量提取属性值。...包中的xml_text函数，提取节点文本。...httr（当然你可以直接使用httr来构造请求）。

2.6K7 0

如何用R语言从网上读取多样格式数据

：凡是以http开头的，放心大胆的使用download.file() 凡是以https开头的，这个函数可能失效在设置路径时可以通过file.exists来查看文件夹是否存在，如果不存在可以使用dir.create...来创建它，避免找不到路径的烦恼。...类型的数据，htmlParse函数产生的对象 path:XPath 表达式，常用的有 "/" 表示根节点处寻找;"//"表示文档任意处寻找;"@"表示选择相应的属性我们可以通过抓取HTML里的关键词来发现很多东西...进一步地，对于每一个链接，如果我们还想知道标题与日期，我们可以使用sapply函数： bbcScraper2 <- function(url){ title=date=NA #Return empty...，然而除了微博外也有很多其他的网站因为json采用完全独立于语言的文本格式，但是也使用了类似于C语言家族的习惯使JSON成为理想的数据交换语言被许多的API使用。

6.1K7 0

iclr 2020 | Geom-GCN：几何图神经网络

尽管现有的MPNN已成功应用于各种场景，但MPNN聚合器的两个基本弱点限制了它们表示图结构数据的能力：(1）丢失节点与其邻居节点的结构信息（这也是GCN存在的一个普遍性问题，很多学者都无法确定结构信息在图卷积中具体的作用到底是什么...），现有的MPNN将邻域中的所有信息视为一个集合，而在进行聚合时会丢失节点的结构信息，如果不对此类结构信息进行建模，则现有的MPNN无法区分某些非同构图；（2）无法在异配图中捕获节点的大范围依赖关系，MPNN...3 如何克服两个缺点为了克服第一个缺点，该方案通过利用隐空间中节点之间的几何关系，然后使用双层聚合有效地提取信息，从而对结构信息进行显式建模。...6 总结文章解决了图上现有的消息传递神经网络的两个主要缺点，即判别结构的丢失和长期依赖。...通过图嵌入将离散图映射到连续的几何空间，换言之，利用卷积原理：在有意义的空间上进行空间聚合，因此，该方法从图形的嵌入空间中提取或“恢复”了嵌入式空间丢失的信息。

5233 0

一个小爬虫：获取Kindle的图书排行榜

,不过书籍的信息不是类似表格的形式,(如果是表格,应该具有类似的标签,可以直接用readHTMLTable来读取) 在这里我使用xpathSApply来读取标签内的信息: 先看下一个书籍的...看起来很乱是不是,我们主要需要从这里面找到我们需要的数据,并用一个Xpath来解读它,什么,不懂Xpath?...的数据: givePrice = function(rootNode){ price<-xpathSApply(rootNode,"//strong[@class='price']",xmlValue...给我评价数我在刷Amazon的时候,发现有书竟然能到5.0的评分(竟然是满分!)...,yes = ifelse(is.na(yes),100,yes)) %>% mutate(.,improve = yes-X1.100) %>% arrange(.

1.2K8 0

相关性网络的子群划分

而基于网络的聚类手段更加强大，能够将相关网络划分为一个个子群体（community），子群内的个体之间关联度要显著强于与子群之外的个体。...两个节点之间有连接则视为同一个子群，正、负关联度没有影响，可以使用clusters()函数来实现，如下所示： sub1=clusters(g1) 可以提取其结果中的子群成员、大小、子群个数信息，如下所示...： sub1$membership sub1$csize sub1$no 结果如下所示：可以看到凡是有连接的节点都被归到同一子群，因此在相关性网络分析中较少使用。...⑴网络聚类系数网络聚类系数也即聚集系数是对网络中节点聚集程度的衡量，值越大表示网络中节点关联性越强，网络结构越复杂，可以使用transitivity()函数进行计算，如下所示： ⑵网络密度跟网路聚类系数相似...=I/E-((2I+O)/2E)2，其中I表示两个节点均在该子群中的边的数目，E为两个节点均不在该子群的边的数目，O表示其中一个端点在该子群中，而另一个端点不在该子群中的边的数目，所有子群的值相加得到Q

4862 0

同时用R语言和Python爬取知乎美图

学习Python已有两月有余，是时候检验下学习效果了，之前练习了不少R语言数据爬取，Python的爬虫模块还没有来得及认真入门，乱拼乱凑就匆忙的开始了，今天就尝试着使用R+Python来进行图片爬取，完成一个简单得小爬虫...url)%>% html_nodes("div.RichContent-inner>span")%>% html_nodes("img")%>%html_attr("data-original")%>%na.omit...#借助Chrome的审查元素功能，借助其路径copy功能精准定位图片所在节点 ?...CSS选择器提取图片地址所在节点 os.makedirs("D:/Python/Image/zhihu0807") os.chdir('D:/Python/Image/zhihu0807') for...link in link_list: mylink=link.get('data-original') #使用get方法提取图片地址： name=re.findall(r"v2-.*

1.2K5 0

BIB | 基于图卷积网络和深度神经网络的药物靶点相互作用识别

然而，现有的方法大多是分别构建药物网络和靶点网络，然后根据已知的药物和靶点之间的关联来预测新的DTI，而没有考虑药物-蛋白质对之间的关联(DPP)。...GCN可以根据DPP网络的拓扑结构提取各个DPP的特征。通过GCN层从这个大型网络中提取特征后，使用DNN来预测DPP的标签。...GCN网络特征表示层 2.3 通过深度神经网络进行分类利用GCN提取DPP网络的特征后，使用DNN模型作为监督学习模型来确定DPP的真实性。...虽然这些方法没有考虑药物和蛋白质网络，这将导致信息的丢失。然而，’DDR’和’DNILMF’同时构建了药物网络和蛋白质网络，这使它们能够提取更多的化学和分子信息，从而获得更多的相似性信息。’...DDR’使用随机森林方法根据不同的基于图的特征对DTI进行分类，而’DNILMF’使用logistic矩阵分解。虽然这两种方法分别建立了药物和蛋白质网络，但它们没有考虑不同DPP之间的联系。

1.6K4 1

如何监控Elasticsearch

节点2找出需要提取的文档，并向相关分片发出多个GET请求 ? 每个分片加载文档，并返回给节点2 ?...Query延迟：尽管Elastisearch没有明确提供这个指标，但是可以用现有指标来推算这个值，算法是定期用查询总数除以总耗时。...如果计划索引大量文档，并且不需要新的信息可立即用于搜索，可以通过降低刷新频率来优化索引性能而不是搜索性能，直到完成索引。...分配给Elasticsearch的堆内存越小，Lucene可用的内存就越多，而Lucene很大程度上依赖于文件系统缓存来快速响应请求；但是也不能设置的太小，因为可能会遇到内存不足，或者因为频繁GC导致吞吐量降低...对于具有持续经历大量I / O活动的节点的大量集群，Elasticsearch建议使用SSD来提高性能。 CPU使用率：可视化CPU使用率会很有用。CPU使用率增加通常是由大量搜索和索引请求导致。

1.5K3 0

BioRxiv｜PointVS：识别重要的蛋白质-药物关联的机器学习打分函数

作者提出了PointVS，一个基于机器学习的蛋白质-药物关联评分函数。 PointVS使用等变图神经网络从给定的蛋白质靶标中提取重要的结合药效团。...作者使用这些信息来执行片段细化，并分析相比于使用传统基于数据的结构信息方法而言，PointVS对接的改进。PointVS是第一个通过深度学习从分子设计靶点中提取结构信息的方法。...作者使用基于E（n）-等变图的图神经网络（Equivalent GNN，EGNN）层。EGNN层也是置换等变的，这意味着网络对输入节点的映射不随着其输入顺序而变。...（c）使用节点属性，以获得对蛋白质口袋中重要结合区域的深入了解。（d）将学到的知识用于片段细化。...结果作者将所提出的PointVS（包括分别使用CoreR和Core80）与现有的多种方法进行了比较，对于每一种方法，分别对比了引入或者不引入晶体姿态作为特征的情况。

4026 0

ICLR2021放榜~6篇SOTA GNN论文推荐

具体来说，CAW是通过时间随机游走提取类似motif的结构来捕获图的动态性，这避免了motif计算复杂的问题。...SuperGAT通过一对节点中是否存在边来引导注意力。用和表示节点和节点之间有边的概率 ,即实验结果 ? ?...提出的图卷积网络AdaGCN（Adaboosting图卷积网络）具有有效提取来自当前节点的高阶邻居知识的能力。...然而，为了获得图形的准确表示还需要定义良好的池化功能，即在不丢失单个节点特征和全局图结构的前提下将节点表示集映射到紧凑的形式。...为了解决现有的图池化的限制，本文将图池化问题表述为带有关于图结构的辅助信息的多集编码问题，并提出了图形多集转换器（GMT）。该方法可以轻松扩展到以前的节点聚类方法，来进行分层图池化。

5683 0

工程师分享vsan存储结构和数据恢复方法

VSAN通过在vSphere集群主机当中安装闪存和硬盘来构建VSAN存储层，由VSAN进行控制和管理，形成一个供vSphere集群使用的统一共享存储层。...先把四个节点的所有硬盘都做个只读的镜像，包含SSD闪存盘和SAS容量盘，还有三块因故障离线的硬盘，备份完成之后，把所有的原盘都还原到服务器上，开始对镜像文件来进行分析底层数据存储结构，来确认虚拟机所在硬盘的分布信息...，因为现有的虚拟化程序没有针对VSAN的架构来恢复虚拟机的，工程师在分析底层数据存储结构的时候，也在做相应的程序开发，来测试数据分布信息的准确性。...4、根据组件的位图提取组件数据和缓存数据 5、根据组件的描述信息获取组件所属对象及组件顺序，并把组件合并成对象 6、根据对象，提取数据。...，本次故障组件损坏的很少，恢复出来的虚拟机都能正常启动，这次故障解决在分析组件位图和磁盘对应关系用来比较长的时间，但是最后把所有的技术难题都解决了，恢复出来的虚拟机都正常启动，圆满解决了VSAN出现故障导致数据丢失的恢复

9972 0

VSAN存储结构解析+存储数据恢复案例

今天给大家介绍一的是一款常见存储设备-Vsan的结构原理，相对而言技术性文字较多。VSAN是一种以vSphere内核作为基础开发出来的一款可以扩展使用的分布式存储架构。...先把四个节点的所有硬盘都做个只读的镜像，包含SSD闪存盘和SAS容量盘，还有三块因故障离线的硬盘，备份完成之后，把所有的原盘都还原到服务器上，开始对镜像文件来进行分析底层数据存储结构，来确认虚拟机所在硬盘的分布信息...，因为现有的虚拟化程序没有针对VSAN的架构来恢复虚拟机的，北亚的工程师在分析底层数据存储结构的时候，也在做相应的程序开发，来测试数据分布信息的准确性。...4、根据组件的位图提取组件数据和缓存数据 5、根据组件的描述信息获取组件所属对象及组件顺序，并把组件合并成对象 6、根据对象，提取数据。...，本次故障组件损坏的很少，恢复出来的虚拟机都能正常启动，这次故障解决在分析组件位图和磁盘对应关系用来比较长的时间，但是最后把所有的技术难题都解决了，恢复出来的虚拟机都正常启动，圆满解决了VSAN出现故障导致数据丢失的恢复

1.4K3 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭