python遍历文件 python创建XML对象 方法 python解析XML文件 提取ROI坐标计存入文件

  XML文件???

  xml即可扩展标记语言,它可以用来标记数据、定义数据类型,是一种允许用户对自己的标记语言进行定义的源语言。

里面的标签都是可以随心所欲的按照他的命名规则来定义的,文件名为roi.xml

<?xml version="1.0" encoding="UTF-8"?>
<readingSession>
    <roi>
        <xCoord id="1">312</xCoord>
          <yCoord>355</yCoord>
    </roi>
</readingSession>
第一行是XML序言,<?xml version="1.0"?>。这一行代码会告诉解析器和浏览器,这个文件应该按照1.0版本的XML规则进行解析。
encoding = "utf-8"表示此XML文件采用utf-8的编码格式。

里面的标签都是自己命名定义的  只要符合这种包围的命名都可以  <></>   还有注意缩进。

解析xml文件第一步:
#coding=utf-8
import  xml.dom.minidom


#打开xml文档

获得了对象之后就可以运用一些对元素标签操作的语法,每一个像<></>这样的标签 都是一个结点,而每一个结点都有它的nodeName,nodeValue,nodeType属性,写法是root.nodeName   要注意了这些语法对大小写都是敏感的,错一个大小写都是不行的,一般都符合驼峰的格式。

顾名思义  nodename 就是结点的名字 也就是标签名,nodevalue 就是结点里面的值 或者数据  不过这个只对文本结点有效。

第二步对XML文件进行操作,获取其中的值:

#coding=utf-8
import  xml.dom.minidom

#打开xml文档
dom = xml.dom.minidom.parse('roi.xml')

#得到xml文档元素对象
root = dom.documentElement

#开始操作

#获取readSession标签集并且继续获取标签集中第一个readSession下的xCoord标签集
roiX=root.getElementsByTagName('readingSession')[0].getElementsByTagName('roi')[0].getElementsByTagName('xCoord')

#获取到了xCoord第一子集  的子元素的数据  将其打印    firstChild 在这里代表xCoord的文本内容 也是一个文本结点  将文本结点的数据打印
print roiX[0].firstChild.data

#还可以获取长度
xLen = root.getElementsByTagName('readingSession').length
print xLen

 getElementsByTagName(标签名)这个函数就是用来通过标签名字获取

通过getElementsByTagName(标签名)获取到了标签元素对象  如果这个标签有id属性=“”也可以获取这个标签中的ID, 注意到xCoord中有一个id属性   直接ID=roiX.getAttribute("id")  就可以获取了    

这里还有很多对其操作的方法  就不详细介绍了。

接下来看看用Python遍历文件:

import os

非常简单的代码,这里我只对files文件名进行遍历打印  其他的用法大家看到这个语法就可以自己尝试了。

接下来进入正题  遍历文件解析XML文件 提取坐标集存入文档:

  先看一部分简单版本的XML文件,目标就是将其中X,Y坐标提取存入文件          用途方便后来对数字图像处理的操作

<readingSession>
    <annotationVersion>3.12</annotationVersion>
    <servicingRadiologistID>540461523</servicingRadiologistID>
    <unblindedReadNodule>
      <noduleID>Nodule 001</noduleID>
      <characteristics>
        <subtlety>5</subtlety>
        <internalStructure>1</internalStructure>
        <calcification>6</calcification>
        <sphericity>3</sphericity>
        <margin>3</margin>
        <lobulation>3</lobulation>
        <spiculation>4</spiculation>
        <texture>5</texture>
        <malignancy>5</malignancy>
      </characteristics>
      <roi>
        <imageZposition>-125.000000 </imageZposition>
        <imageSOP_UID>1.3.6.1.4.1.14519.5.2.1.6279.6001.110383487652933113465768208719</imageSOP_UID>
        <inclusion>TRUE</inclusion>
        <edgeMap>
          <xCoord>312</xCoord>
          <yCoord>355</yCoord>
        </edgeMap>
        <edgeMap>
          <xCoord>311</xCoord>
          <yCoord>356</yCoord>
        </edgeMap>
        <edgeMap>
          <xCoord>310</xCoord>
          <yCoord>357</yCoord>
        </edgeMap>
        <edgeMap>
          <xCoord>309</xCoord>
          <yCoord>357</yCoord>
        </edgeMap>
        <edgeMap>
          <xCoord>308</xCoord>
          <yCoord>358</yCoord>
        </edgeMap>
     </roi>
<readingSession>

接下来看看PYTHON部分的代码:

# -*- coding: UTF-8 -*-
"""
Spyder Editor

This is a temporary script file.
"""
#from __future__ import divition

import  xml.dom.minidom
import os
path = 'C:\Program Files\Java\jre-9.0.1\lib\jfr'

#遍历文件夹获取文件名返回数组
for root, dirs, files in os.walk(path):
    print( "files = ", files)
    print len(files)


#通过文件名数组,不断的打开XML文件提取坐标
for f in range(len(files)):
    fpName = files[f]

#获取XML文件的除了xml三个后缀之前的名字

    nn =str(fpName[0:3])

  #对每个XML文件都以相同的名字打开   W的方式  没有文件的话  会自动创建一个出来

    fp = open(nn+".txt","w")
    print nn
    print fpName

    #打开XML文档
    dom = xml.dom.minidom.parse(fpName)
         #得到文档元素对象
    root = dom.documentElement

    #获取标签集并提取坐标存入文档
    drLen= root.getElementsByTagName('readingSession').length
    if(drLen != 0):
        for s in range(drLen):
                drText ="\n\nDR"+str(s+1)+"\n\n"
                fp.write(drText)
                bb = root.getElementsByTagName('readingSession')[s].getElementsByTagName('roi').length
                for i in range(bb):
                    roiX = root.getElementsByTagName('readingSession')[s].getElementsByTagName('roi')[i].getElementsByTagName('xCoord')
                    xLen = root.getElementsByTagName('readingSession')[s].getElementsByTagName('roi')[i].getElementsByTagName('xCoord').length
                    roiY = root.getElementsByTagName('readingSession')[s].getElementsByTagName('roi')[i].getElementsByTagName('yCoord')
                    yLen = root.getElementsByTagName('readingSession')[s].getElementsByTagName('roi')[i].getElementsByTagName('yCoord').length
                    
                    xText = "\n    第"+str(i+1)+"个roi的X坐标\n"
                    fp.write(xText)
                    
                    #将X坐标全部存入
                    roiData =""
                    for j in range(xLen):
                        roiData+= str(roiX[j].firstChild.data)+","
                        fp.write(roiData)
                        
                    yText ="\n    Y坐标\n"
                    fp.write(yText)
                    for k in range(yLen)   :
                        roiData += str(roiX[j].firstChild.data)+","
                        fp.write(roiData)
                                  
        fp.close()

  以上代码完成后就能形成一个这样的文件:

  如果是遍历解析的话  大概就会形成这样的一堆文件:

大家好我是飞机,是一个想成为全栈工程师的男人。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏IMWeb前端团队

还在纠结用不用ES6,不如来试试TypeScript

The only limits in our life are those we impose on ourselves. 弱爆的 ES6 in bro...

2040
来自专栏从零开始学自动化测试

Selenium2+python自动化49-判断文本(text_to_be_present_in_element)

前言 在做结果判断的时候,经常想判断某个元素中是否存在指定的文本,如登录后判断页面中是账号是否是该用户的用户名。 在前面的登录案例中,写了一个简单的方法,但不是...

3275
来自专栏Linux驱动

22.C++- 继承与组合,protected访问级别

在C++里,通过继承和组合实现了代码复用,使得开发效率提高,并且能够通过代码看到事物的关系 组合比继承简单,所以在写代码时先考虑能否组合,再来考虑继承. ---...

2705
来自专栏猿人谷

memcpy和memmove的区别

memcpy()和memmove()都是C语言中的库函数,在头文件string.h中,其原型分别如下: void *memcpy(void *dst, con...

1975
来自专栏Golang语言社区

【前端基础】JS基础学习笔记整理

JavaScript是一种基于对象的脚本编程语言,是浏览器上的程序语言。当web容器输出内容到浏览器时,这个内容是包含js源代码的,此时,JavaScript可...

3767
来自专栏前端儿

前端代码相关规范

项目目录和文件的命名使用小写字母,避免使用大写或驼峰,多个单词以下划线 _ 分隔  如:my_project/cast_detail.js

1223
来自专栏猿人谷

结构体字节对齐

结构体字节对齐       在用sizeof运算符求算某结构体所占空间时,并不是简单地将结构体中所有元素各自占的空间相加,这里涉及到内存字节对齐的问题。从理论上...

1886
来自专栏智能合约

PHP魔术方法之__set()和__get()

1213
来自专栏一个会写诗的程序员的博客

Clojure使用Java方法Clojure使用Java方法

Clojure有个很强大的功能,就是你可以使用Lisp语言风格无缝调用java api(java interop).这无疑是如虎添翼.

742
来自专栏有趣的Python

python分布式爬虫搜索引擎实战-5-右键即可的爬虫利器xpath爬取伯乐在线实例

提取目标伯乐在线 xpath让你可以不懂前端html,不看html的详细结构,只需要会右键查看就能获取网页上任何内容。速度远超beautifulsoup。 x...

3536

扫码关注云+社区