读取含有BOM头的文件遇到的问题

需求是读取一个csv文件,然后解析成对应的数据结构。csv必须包含指定的某些列,通过列名header来进行校验。

解析配置文件的方法。

 1 public List<QuestionData> buildConfigData(final MultipartFile file) {
 2 
 3     CsvReader csvReader = null;
 4     List<QuestionData> questionDataList;
 5     try (DataInputStream inputStream = new DataInputStream(file.getInputStream())) {
 6         csvReader = new CsvReader(new InputStreamReader(inputStream, Charset.forName("UTF-8")));
 7 
 8         if (!csvReader.readHeaders()) {
 9             return Lists.newLinkedList();
10         }
11 
12         final String[] headers = csvReader.getHeaders();
13         getAndCheckHeader(headers);
14         questionDataList = getQuestionData(csvReader, headers);
15 
16     } catch (final IOException e) {
17         log.error("解析配置文件错误", e);
18         throw new FatalException("解析配置文件错误");
19     } finally {
20         if (csvReader != null) {
21             csvReader.close();
22         }
23     }
24     return questionDataList;
25 }

其中,检查header的方法:

private static final Set<String> NEEDED_COLUMNS = ImmutableSet
        .of(QuestionDataType.ORDER.name(), QuestionDataType.DESC.name(), QuestionDataType.OPTION_A.name(),
                QuestionDataType.OPTION_B.name(), QuestionDataType.OPTION_C.name(), QuestionDataType.ANSWER.name());

private void getAndCheckHeader(final String[] headers) {
    //某些必要的列不存在
    HashSet<String> sets = Sets.newHashSet(headers);
    if (!sets.containsAll(NEEDED_COLUMNS)) {
        throw new FatalException("缺少必要的列信息");
    }
}

实际出现的问题是,上传文件的时候总是出现缺少必要的列信息这个异常。debug发现,containsAll这个方法一直返回false,但是看NEEDED_COLUMNS里面的字符串,在header里面都存在,例如ORDER字符串:

从这里看,headers里面有ORDER字符串,但是NEEDED_COLUMNS.contains(headers[0])返回的结果就是false。

debug时使用evaluate,将headers[0]的value  copy一下,粘贴到输入框里,就发现了问题:

可以看的出来,headers[0]的实际值是"\uFEFFORDER",而非"ORDER",前面多了一个"\uFEFF"。

经查,"\uFEFF"是BOM头,windows下保存文件时经常会插入在字符串最前面,debug时直接看值是看不出来有这个BOM头的。

解决方案,使用apache的BOMInputStream,可以过滤掉BOM头:

public List<QuestionData> buildConfigData(final MultipartFile file) {

    CsvReader csvReader = null;
    List<QuestionData> questionDataList;

    //过滤BOM头
    try (BOMInputStream inputStream =  new BOMInputStream(file.getInputStream())) {
        csvReader = new CsvReader(new InputStreamReader(inputStream, Charset.forName("UTF-8")));

        if (!csvReader.readHeaders()) {
            return Lists.newLinkedList();
        }

        final String[] headers = csvReader.getHeaders();
        getAndCheckHeader(headers);
        questionDataList = getQuestionData(csvReader, headers);

    } catch (final IOException e) {
        log.error("解析配置文件错误", e);
        throw new FatalException("解析配置文件错误");
    } finally {
        if (csvReader != null) {
            csvReader.close();
        }
    }
    return questionDataList;
}

使用BOMInputStream,将原有的InputSteam包一层即可。

参考文章:Java处理文件BOM头的方式推荐

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏WindCoder

Angular6自定义表单控件方式集成Editormd

曾经找到过“Editor.md”,看之心喜,一直想在Angular中集成下这款markdownpad编辑器玩,在网上也只找到一篇通过指令集成的,虽然可以实现,但...

5182
来自专栏Golang语言社区

【转载】记Golang数据库查询封装的坑

前文 golang接触也有一段时间,项目中有用到web api,基本上就是post json格式的,本想用java来写,刚下手想到java太臃肿,各种繁琐。觉得...

5347
来自专栏c#开发者

如何在DataGrid里面产生滚动条而不滚动题头

我们在开发的时候一定遇到,使用DataGrid的时候由于不想分页(数据没有那么多)但是又显示不在一页里面,此时我们希望在DataGrid里面出现一个滚动条,可以...

37911
来自专栏小灰灰

Java 实现 markdown转Image

markdown 转 image 前段时间实现了长图文生成的基本功能,然后想了下能否有个进阶版,直接将markdown生成渲染后的图片呢? 思路 有不少的库...

3265
来自专栏DOTNET

学会WCF之试错法——超时

服务契约 [ServiceContract] public interface IService { [OperationCon...

3306
来自专栏hotqin888的专栏

bootstrap table x-editable select2——带图标的选择

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/hotqin888/article/det...

1.2K1
来自专栏转载gongluck的CSDN博客

vc++快速使用richedit控件

? vc++快速使用richedit控件 1)初始化//必须加,否则无法显示窗口 CXXXApp::CXXXApp()  //找到应用类 { // TOD...

4288
来自专栏挖坑填坑

angular使用NG ZORRO来构建博客展示项目(简单实现展示页面)

这两个并没有设计成core模块的组件,但是也放在这里,不知道放在哪里合适。有的可以不用设计成angular模块或者组件,初学者真烦恼

2863
来自专栏yukong的小专栏

【SpringBoot2.0系列11】SpringBoot之@Elasticsearch完成CURD

【SpringBoot系列02】SpringBoot之使用Thymeleaf视图模板

6823
来自专栏GreenLeaves

C# 文件操作系列一

在.Net环境中,所有关于文件操作的类都在System.IO命名空间下,注:在修改文件时,安全性显得格外重要,但是本随笔不过多讲述安全性,这里假设我们有足够的权...

2595

扫码关注云+社区

领取腾讯云代金券