前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >利用python读取EXCEL文档中的创建者信息

利用python读取EXCEL文档中的创建者信息

原创
作者头像
sparkexpert
修改2020-07-20 10:05:48
2.2K1
修改2020-07-20 10:05:48
举报

文件创建者信息提取是文件拷贝检测的一个重要维度信息,前面WORD文档的创建者信息可以通过成熟的python-docx库来进行提取,而EXCEL文件的属性信息,目前还没有成熟的提取方法。

因此只能采取笨办法,即用解压缩文件工具,打开EXCEL文件,可以看到里面的文件树存在docProps/core.xml的目录。

core.xml文件打开的效果如下:

因此,可以采用读取压缩包中文件的方式来进行信息的抽取,对应的python代码如下:

代码语言:javascript
复制
def get_excel_author(excel_file):
    # open zipfile
    zf = zipfile.ZipFile(excel_file)
    # use lxml to parse the xml file we are interested in
    doc = lxml.etree.fromstring(zf.read('docProps/core.xml'))
    attr_nodes = doc.getgetchildren()
    # retrieve creator
    #ns={'dc': 'http://purl.org/dc/elements/1.1/'}
   # creator = doc.xpath('//dc:creator', namespaces=ns)[0].text
    return {'作者':attr_nodes[0].text,'创建时间':attr_nodes[2].text,'修改人':attr_nodes[1].text,
                '最后修改时间':attr_nodes[3].text}

显示的结果如下:

{'作者': None, '创建时间': '2018-10-15T15:04:42Z', '修改人': '77851', '最后修改时间': '2019-10-30T04:56:58Z'}

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档