前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Java如何准确判断是Excel文件

Java如何准确判断是Excel文件

作者头像
一个程序员的成长
发布2020-11-25 15:24:20
3.5K0
发布2020-11-25 15:24:20
举报
文章被收录于专栏:bingfeng-技术bingfeng-技术

这两天逛guthub,看到一个Java操作Excel文件的项目,突然想到我们公司的WEB应用,也经常会涉及到Excel的操作,比如说很常用的Excel文件导入。

那么我们是如何判断出,上传的文件确实是Excel文件呢?

我翻阅了一下我们系统里面的代码,常见的写法如下:

做法很简单,就是直接获取文件名,取最后一个“.”符号后面的字符串,然后判断字符串是否属于xls、xlsx。

仔细想一下,其实这里面有很多漏洞。比如一个恶意的“用户”传上来的是一张改了扩展名为xlsx的图片,那我们系统处理的时候就会产生异常;或者那些原本就是Excel文件,但是没有扩展名的,其实也应该能够正常导入;或者一些恶意的“用户”可能会绕过这个校验,搞一些小破坏……

我在这个github项目里面,看到作者使用了POI的FileMagic类,一看名字,我有点思路了。我想起来,以前看JVM的书籍的时候,看到过魔数这个概念,英文叫做“Magic Number”。说法是:每个Class文件的头4个字节称为魔数,它的唯一作用是用于确定这个文件是否为一个能被虚拟机接收的Class文件。

我拓展开来,是不是这些不同类型的文件都有属于自己的魔数呢?

百度了一下,确实,一般类型的文件都有特定的魔数:

我查阅资料和POI工具的源码,发现xlsx文件的魔数十六进制的表示法是:0x50, 0x4b。

为了验证是否存在这个魔数,我创建了一个Excel文件,保存为test.xlsx,然后把这个文件的扩展名改成txt,方便我用sublime text打开他。打开之后看到文件最开始的字节,就是0x50, 0x4b。如下:

自此,思路就清晰了,我们可以通过判断文件的魔数,确定用户上传的文件的类型是否是我们想要的类型。可以写成这样的代码:

注意一下,只有3.17及以上的POI版本才有FileMagic类,否则的话你也自己去写相关的代码了。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-12-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 一个程序员的成长 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档