前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >如何从xml文件创建R语言数据框dataframe

如何从xml文件创建R语言数据框dataframe

原创
作者头像
拓端
修改于 2020-10-26 03:21:38
修改于 2020-10-26 03:21:38
3.2K00
代码可运行
举报
文章被收录于专栏:拓端tecdat拓端tecdat
运行总次数:0
代码可运行

原文链接:http://tecdat.cn/?p=16788

问题重现 

软件:R语言

环境:windows

问题描述:我有一个XML文档文件。文件的一部分如下所示:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
<?xml version="1.0" encoding="UTF-8"?><List><SubCategory><ID>BO</ID><Name>Bookcases</Name></SubCategory><SubCategory><ID>CH</ID><Name>Chairs</Name></SubCategory><SubCategory><ID>LA</ID><Name>Labels</Name></SubCategory><SubCategory><ID>TA</ID><Name>Tables</Name></SubCategory><SubCategory><ID>ST</ID><Name>Storage</Name></SubCategory><SubCategory><ID>FU</ID><Name>Furnishings</Name></SubCategory><SubCategory><ID>AR</ID><Name>Art</Name></SubCategory><SubCategory><ID>PH</ID><Name>Phones</Name></SubCategory><SubCategory><ID>BI</ID><Name>Binders</Name></SubCategory><SubCategory><ID>AP</ID><Name>Appliances</Name></SubCategory><SubCategory><ID>PA</ID><Name>Paper</Name></SubCategory><SubCategory><ID>AC</ID><Name>Accessories</Name></SubCategory><SubCategory><ID>EN</ID><Name>Envelopes</Name></SubCategory><SubCategory><ID>FA</ID><Name>Fasteners</Name></SubCategory><SubCategory><ID>SU</ID><Name>Supplies</Name></SubCategory><SubCategory><ID>MA</ID><Name>Machines</Name></SubCategory><SubCategory><ID>CO</ID><Name>Copiers</Name></SubCategory></List>

从这个XML文件中,我想创建一个具有ID,name 列的R数据框。请注意,name和ID应包含变量的所有级别。

解决方案

假设这是正确的taxlots.shp.xml文件:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
<?xml version="1.0" encoding="UTF-8"?><List><SubCategory><ID>BO</ID><Name>Bookcases</Name></SubCategory><SubCategory><ID>CH</ID><Name>Chairs</Name></SubCategory><SubCategory><ID>LA</ID><Name>Labels</Name></SubCategory><SubCategory><ID>TA</ID><Name>Tables</Name></SubCategory><SubCategory><ID>ST</ID><Name>Storage</Name></SubCategory><SubCategory><ID>FU</ID><Name>Furnishings</Name></SubCategory><SubCategory><ID>AR</ID><Name>Art</Name></SubCategory><SubCategory><ID>PH</ID><Name>Phones</Name></SubCategory><SubCategory><ID>BI</ID><Name>Binders</Name></SubCategory><SubCategory><ID>AP</ID><Name>Appliances</Name></SubCategory><SubCategory><ID>PA</ID><Name>Paper</Name></SubCategory><SubCategory><ID>AC</ID><Name>Accessories</Name></SubCategory><SubCategory><ID>EN</ID><Name>Envelopes</Name></SubCategory><SubCategory><ID>FA</ID><Name>Fasteners</Name></SubCategory><SubCategory><ID>SU</ID><Name>Supplies</Name></SubCategory><SubCategory><ID>MA</ID><Name>Machines</Name></SubCategory><SubCategory><ID>CO</ID><Name>Copiers</Name></SubCategory></List>

XML格式的数据很少以允许该xmlToDataFrame功能正常工作的方式进行组织。最好提取列表中的所有内容,然后将列表绑定到数据框中:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
data <- xmlParse("ProductSubcategory.xml")xml_data <- xmlToList(data)dataDictionary <- xmlToDataFrame(getNodeSet(data,"//SubCategory"))  

最受欢迎的见解

1.如何解决线性混合模型中畸形拟合(SINGULAR FIT)的问题

2.在UBUNTU虚拟机上安装R软件包

3.WINDOWS中用命令行执行R语言命令

4.R语言GGSURVPLOT绘制生存曲线报错 : OBJECT OF TYPE ‘SYMBOL‘ IS NOT SUBSETTABLE

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
R语言网络爬虫之Pubmed API的使用
查询文献你懂的,我认为Pubmed首选。当oncotarget杂志不再被Pubmed检索的收获,多少博士内心发慌,多少专家内心悔恨自己掏出的稿费。当然,用好Pubmed不能仅限于利用网页界面去检索那么几个关键词,AND 或者 OR。今天我来给大家介绍一下Pubmed API是如何在R语言中运用自如的。
一粒沙
2019/07/31
6.5K20
R语言网络爬虫之Pubmed API的使用
R语言入门 Chapter04 | 数据框
这篇文章讲述的是R语言中关于数据框的相关知识。希望这篇R语言文章对您有所帮助!如果您有想学习的知识或建议,可以给作者留言~
不温卜火
2020/10/28
4640
R语言入门 Chapter04 | 数据框
2019-07高德地图行政区域省市区json数据获取(php代码)
从省向下查三级, 高德接口当市为县级市时子级会返回街道的数据,正常的市正常返回子级为区。 具体高德api参数详情请查看https://lbs.amap.com/api/webservice/guide/api/district 不写代码直接拿json也可以:https://download.csdn.net/download/mynote1994/11484639
全栈程序员站长
2022/06/24
6710
使用R语言读取PUBMED存入MYSQL数据库
最近,在科研狗网站看到了一个有趣的项目,使用R语言读取pubmed存入mysql数据库,之前报名没有报上,还是决心要跟着做一下,无奈R语言水平比较渣渣,只能复制别人的代码来用,悲剧的是,原代码复制过来还是报错,来一个小目标,把这段代码运行起来。花了两三天的功夫,终于实现了目标。
用户1075469
2020/03/03
3.4K0
数据流编程教程:R语言与DataFrame
DataFrame DataFrame 是一个表格或者类似二维数组的结构,它的各行表示一个实例,各列表示一个变量。 一. DataFrame数据流编程 二. 数据读取 readr/httr/DBI 1
小莹莹
2018/04/23
3.9K0
数据流编程教程:R语言与DataFrame
如何用R语言从网上读取多样格式数据
生活中,我们面临着各种各样的数据:比如你的成绩单,比如公司的财务报表,比如朋友圈的一些状态,比如微信里的一段语音……我们生活的大数据时代的一个重要特征便是数据的多样化(variety)。
机器学习AI算法工程
2018/03/14
7K0
如何用R语言从网上读取多样格式数据
分享一个PHP取URL根域名的方法
PHP根据URL提取主域名,在网上荡了一个! 优化了一下域名库,支持了PHP7.0! 可以直接拿来用,测试了一下没发现问题! <?php  #使用示例 echo getBaseDomain('http
墨渊
2018/05/15
3.4K1
口播神器,基于Edge,微软TTS(text-to-speech)文字转语音免费开源库edge-tts语音合成实践(Python3.10)
    不能否认,微软Azure在TTS(text-to-speech文字转语音)这个人工智能细分领域的影响力是统治级的,一如ChatGPT在NLP领域的随心所欲,予取予求。君不见几乎所有的抖音营销号口播均采用微软的语音合成技术,其影响力由此可见一斑,仅有的白璧微瑕之处就是价格略高,虽然国内也可以使用科大讯飞语音合成进行平替,但我们只想要最好的那一个,本次我们使用免费的开源库edge-tts来实现文本转语音操作,薅微软edge的羊毛。
用户9127725
2023/03/09
4.5K0
口播神器,基于Edge,微软TTS(text-to-speech)文字转语音免费开源库edge-tts语音合成实践(Python3.10)
国家语言,语言代码,locale id对应表
国家语言,语言代码,locale id对应表。比如 en_US对应的id为1033, 中文的locale=zh_CN,id=2052. LocaleLanguage codeLCID stringLCID DecimalLCID HexadecimalCodepage Afrikaans af af 1078 436 1252 Albanian sq sq 1052 1250 Amharic am am 1118 Arabic - Algeria ar ar-dz 5121
Ryan-Miao
2018/03/14
9.4K0
R语言生存曲线的可视化(超详细)
关于Cox模型诊断和汇总在之前的推文中已经进行过详细的讲解:R语言生存分析:Cox回归
医学和生信笔记
2023/02/14
2.7K0
R语言生存曲线的可视化(超详细)
R语言 数据框、矩阵、列表的创建、修改、导出
数据框来源主要包括用代码新建(data.frame),由已有数据转换或处理得到(取子集、运算、合并等操作),读取表格文件(read.csv,read.table等)及R语言内置数据
Magnolia
2023/01/06
8K0
R语言里面双层list变成长形数据框
韦恩图固然是一种展现方式,可以看到3个样品各自的上下调基因的overlap情况,基本上呢,随机生成的数值它们的overlap不咋地!
生信技能树
2020/11/11
6730
R语言里面双层list变成长形数据框
EMLOG标签汇总[按首字母索引]
在写EMLOG版本的Begin主题是做了一个单独的标签页面,按照首字母排列,目前好像没有看见,我也是从独狼那里弄过来的,以下是代码,有需要的朋友可以拿去玩玩。
用户8099761
2023/05/10
6370
R语言网络数据抓取的又一个难题,终于攻破了!
单纯从数据抓取的逻辑来讲(不谈那些工程上的可用框架),个人觉得R语言中现有的请求库中,RCurl和httr完全可以对标Python中的urllib和reuqests(当然py中在错误处理和解析框架上显得更为专业!)。 我们经常使用的网络数据抓取需求,无非两种: 要么伪造浏览器请求 要么驱动浏览器请求 对于伪造浏览器请求而言,虽然请求定义里有诸多类型,但是实际上爬虫用到的无非就是GET请求和POST请求。 而驱动浏览器就几乎没有什么门槛了,所见即所得,R语言中的RSelenium/Rwebdriver和Py
数据小磨坊
2018/04/11
3.2K0
R语言网络数据抓取的又一个难题,终于攻破了!
R语言︱文本挖掘套餐包之——XML+SnowballC+tm包
版权声明:博主原创文章,微信公众号:素质云笔记,转载请注明来源“素质云博客”,谢谢合作!! https://blog.csdn.net/sinat_26917383/article/details/51055518
悟乙己
2019/05/27
1.3K0
R语言数据清洗实战——高效list解析方案
list是R语言中包容性最强的数据对象,几乎可以容乃所有的其他数据类型。 但是包容性最强也也意味着他对于内部子对象的类型限制最少,甚至内部可以存在递归结构,这样给我们提取数据带来了很大的困难。 如果你对R语言的list结构非常熟悉,又熟练控制流等函数的操作,自然可以通过构建循环来完成目标数据的提取。但是在数据量大、结构及其复杂的情形下,自建循环无论是性能还是代码量上都很不经济。 好在确实有开发者在针对list数据结构进行操作上的优化,任坤老师的大作——rlist就是一个强大的list解析神器,它可以让我们像
数据小磨坊
2018/04/11
2.6K0
R语言数据清洗实战——高效list解析方案
R语言入门(一)之数据处理
写在前面:公众号又被我搁置好久,闲来无事,写写近期学的R语言吧,主要分为两个部分写,一主要为数据处理,二为ggplot作图。这两个部分将生信分析的绝大多数常用命令都讲到了,作为R语言入门是够用的,但是学海无涯,以此只是作为一个引子,想要进步还是要自己多学多练,举一反三才行。
生信real
2020/08/26
10.2K0
R语言入门(一)之数据处理
R语言数据抓取实战——RCurl+XML组合与XPath解析
经常有小伙伴儿跟我咨询,在使用R语言做网络数据抓取时,遇到空值和缺失值或者不存在的值,应该怎么办。 因为我们大多数场合从网络抓取的数据都是关系型的,需要字段和记录一一对应,但是html文档的结构千差万别,代码纷繁复杂,很难保证提取出来的数据开始就是严格的关系型,需要做大量的缺失值、不存在内容的判断。 如果原始数据是关系型的,但是你抓取来的是乱序的字段,记录无法一一对应,那么这些数据通常价值不大,今天我以一个小案例(跟昨天案例相同)来演示,如何在网页遍历、循环嵌套中设置逻辑判断,适时的给缺失值、不存在值填充预
数据小磨坊
2018/04/11
2.5K0
R语言数据抓取实战——RCurl+XML组合与XPath解析
R语言 | 第一部分:数据预处理
1.创建数据集/矩阵【data.frame数据框、matrix矩阵、array数组】
拴小林
2020/07/10
9490
如何将VOC XML文件转化成COCO数据格式
在一个项目中,我需要将已有的VOC的xml标注文件转化成COCO的数据格式,为了方便理解,文章按如下顺序介绍:
marsggbo
2019/08/14
1.8K0
相关推荐
R语言网络爬虫之Pubmed API的使用
更多 >
领券
社区富文本编辑器全新改版!诚邀体验~
全新交互,全新视觉,新增快捷键、悬浮工具栏、高亮块等功能并同时优化现有功能,全面提升创作效率和体验
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文