专栏首页大数据智能实战利用python读取EXCEL文档中的创建者信息
原创

利用python读取EXCEL文档中的创建者信息

文件创建者信息提取是文件拷贝检测的一个重要维度信息,前面WORD文档的创建者信息可以通过成熟的python-docx库来进行提取,而EXCEL文件的属性信息,目前还没有成熟的提取方法。

因此只能采取笨办法,即用解压缩文件工具,打开EXCEL文件,可以看到里面的文件树存在docProps/core.xml的目录。

core.xml文件打开的效果如下:

因此,可以采用读取压缩包中文件的方式来进行信息的抽取,对应的python代码如下:

def get_excel_author(excel_file):
    # open zipfile
    zf = zipfile.ZipFile(excel_file)
    # use lxml to parse the xml file we are interested in
    doc = lxml.etree.fromstring(zf.read('docProps/core.xml'))
    attr_nodes = doc.getgetchildren()
    # retrieve creator
    #ns={'dc': 'http://purl.org/dc/elements/1.1/'}
   # creator = doc.xpath('//dc:creator', namespaces=ns)[0].text
    return {'作者':attr_nodes[0].text,'创建时间':attr_nodes[2].text,'修改人':attr_nodes[1].text,
                '最后修改时间':attr_nodes[3].text}

显示的结果如下:

{'作者': None, '创建时间': '2018-10-15T15:04:42Z', '修改人': '77851', '最后修改时间': '2019-10-30T04:56:58Z'}

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 利用python读取WORD文档中的创建者信息

    在一些常规分析过程中,常会判断这个文档是否为拷贝检测,对WORD而言,其内部数据中封装了相关的属性信息,如在WINDOW环境下,通过右键属性可以看到其相关的信息...

    sparkexpert
  • 用Python处理Excel文件

    我主要尝试了四种工具,在此并不会给出他们的排名,因为在不同的应用场景下,做出的选择会不同。

    py3study
  • Python 使用 Xlrd/xlwt

    Python 处理 Excel,可以使用 xlrd/xlwt 2个模块,使用简单特好上手。

    py3study
  • 教你如何用Python轻轻松松操作Excel、Word、CSV,一文就够了,赶紧码住!!!

    数据处理是 Python 的一大应用场景,而 Excel 又是当前最流行的数据处理软件。因此用 Python 进行数据处理时,很容易会和 Excel 打起交道。...

    小F
  • 一文学会用Python操作Excel+Word+CSV

    数据处理是 Python 的一大应用场景,而 Excel 又是当前最流行的数据处理软件。因此用 Python 进行数据处理时,很容易会和 Excel 打起交道。...

    Python小二
  • 爬取拉勾网招聘信息并使用xlwt存入Excel

    通过浏览器自带的开发者工具查看是通过Post方式提交的,数据是通过Ajax(异步加载)得到的

    Python攻城狮
  • Python办公自动化之Excel做表自动化:全网最全,看这一篇就够了!

    官方文档:https://xlrd.readthedocs.io/en/latest/

    Python小二
  • Python自动化办公之Excel报表自动化指南!全文3W字

    来源:https://blog.csdn.net/u014779536/article/details/108182833

    统计学家
  • 这52页pdf,顶10篇python自动化办公文章

    发现很多读者对python自动化办公(python操作Excel、Word、PDF)的文章都很喜欢,并希望能够应用到工作中去。

    朱小五
  • python接口自动化(三十七)-封装与调用--读取excel 数据(详解)

      在进行软件接口测试或设计自动化测试框架时,一个不比可避免的过程就是: 参数化,在利用python进行自动化测试开发时,通常会使用excel来做数据管理,利用...

    北京-宏哥
  • Python+Excel+Word一秒制作百份合同

    今天我们继续分享一个真实的办公自动化需求:如何使Python+Excel+Word批量生成指定格式内容的合同。

    刘早起
  • Excel 旧用户正成为恶意软件的目标

    根据安全专家的最新发现,Microsoft Excel的旧用户正成为恶意软件的攻击目标。这种恶意软件攻击活动使用了一种新的恶意软件混淆技术来禁用Microsof...

    FB客服
  • 一文贯通python文件读取

    不论是数据分析还是机器学习,乃至于高大上的AI,数据源的获取是所有过程的入口。 数据源的存在形式多为数据库或者文件,如果把数据看做一种特殊格式的文件的话,即所有...

    半吊子全栈工匠
  • Python一条龙:创建、读取、更新、搜索Excel文件

    CSV文件是由逗号分隔的值文件,其中纯文本数据以表格格式显示。它们可以与任何电子表格程序一起使用,如Microsoft Office Excel、Google ...

    量化投资与机器学习微信公众号
  • Python3外置模块使用

    (1)外置模块一览表 描述:Python外置模块可以说是Python的强大之处的存在,使得Python语言扩展性高,使用方法众多并且使用也非常简单,在我们日常的...

    WeiyiGeek
  • Python处理CSV,Excel,PD

    逗号分隔值(Comma-Separated Values,CSV,有时也称为字符分隔值,因为分隔字符也可以不是逗号),其文件以纯文本形式存储表格数据(数字和文本...

    py3study
  • 别再问我Python怎么操作Word了!

    在之前的自动化系列文章中,我们分别讲解过?Python操作Excel利器openpyxl,也讲过?Python操作PDF的几种方式,今天我们将通过代码讲解Pyt...

    刘早起
  • 【Z投稿】通过API批量自动生成报表

    多年Linux运维经验,精通Zabbix监控系统架构,熟悉Shell,Python等语言脚本的编写等。

    Zabbix
  • Python | 使用Python操作Excel文档(一)

    openpyxl操作Excel的第三方库,作者是Eric Gazoni, Charlie Clark。您也可以访问openpyxl的官方网站通过官方手册进行学习...

    LogicPanda

扫码关注云+社区

领取腾讯云代金券