前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >python使用magic模块进行文件类型识别

python使用magic模块进行文件类型识别

作者头像
周小董
发布2019-03-25 10:23:14
3K0
发布2019-03-25 10:23:14
举报
文章被收录于专栏:python前行者

python-magic是libmagic文件类型识别库的python接口。 libmagic通过根据预定义的文件类型列表检查它们的头文件来识别文件类型。 这个功能通过Unix命令文件暴露给命令行。

安装magic

代码语言:javascript
复制
pip install python-magic 
pip install python-magic-bin
代码语言:javascript
复制
# encoding=utf-8
import magic #pip install python-magic python-magic-bin


type_info = magic.from_file("./data/123.pdf")
print('file_type: %s' % type_info)#file_type: PDF document, version 1.6

type_info = magic.from_buffer(open("./data/123.pdf",'rb').read(1024))
print('file_type: %s' % type_info)#file_type: PDF document, version 1.6

type_info = magic.from_file("./data/123.pdf", mime=True)
print('file_type: %s' % type_info)#file_type: application/pdf

还有一个Magic类提供更直接的控制,包括覆盖魔术数据库文件并开启字符编码检测。 这不建议用于一般用途。 特别是,跨多个线程共享并不安全,如果尝试这样做会失败。

代码语言:javascript
复制
f = magic.Magic(uncompress=True)
type_info =f.from_file('./data/123.docx')
print('file_type: %s' % type_info)#file_type: Microsoft Word 2007+
type_info =f.from_file('./data/123.pdf')
print('file_type: %s' % type_info)#file_type: PDF document, version 1.6

还可以结合标志选项:

代码语言:javascript
复制
f = magic.Magic(mime=True, uncompress=True)
type_info =f.from_file('./data/123.docx')
print('file_type: %s' % type_info)#file_type: application/vnd.openxmlformats-officedocument.wordprocessingml.document
type_info =f.from_file('./data/123.pdf')
print('file_type: %s' % type_info)#file_type: application/pdf

参考:  https://github.com/ahupp/python-magic https://pypi.org/project/python-magic/

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2019年01月18日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档