专栏首页JackieZheng文件预览——一路躺过来的那些坑

文件预览——一路躺过来的那些坑

因为最近项目比较紧,所以dubbo源码系列是顾不上了。

恰巧这周花了几天在做文件预览这块,两三天的时间下来,有过一些走弯路的经验教训(准确说,全都是弯路),在这里给大家分享下~

背景

基于产品需求,需要支持文件预览的功能。顾名思义,要支持类似word、excel、TXT、PDF等格式文件的在线预览。

业界对于文件预览功能的实现也是各显神通。大体主要分为两种,一种是自主研发,另外就是购买成熟预览服务提供商的服务。

既然说到躺坑,那自然是属于第一种自主研发的情况。

自主研发主要还是借用现有的软件和类库组合,加上编码实现。网上搜罗一通,资料相对老旧,很多组件也有超过5年没有更新迭代了。解决方案大致分为两种:

1、以Openoffice + swftools + Flexmapper + jodconverter技术组合的预览实现

大体思路是将如doc等文件格式转为pdf格式,再将pdf经过swftools工具转为swf格式,有flexmapper负责最后的预览。

上面这四个组件,没有一个是好惹的,各个脾气古怪,稍不顺心,就给你报个错,让你折腾半天。

2、以https://github.com/kekingcn/kkFileView(下面简称kkFileView)该项目为首的基于jodconverter-core + Openoffice的解决方案

大体思路是借助jodconverter-core和Openoffice将doc等文件转为pdf格式,再由前端通过第三方预览组件如pdf.js负责预览展示。

调研

既然市面上提供多种可行性的方案,那么就需要调研对比具体的效果。

kkFileView

首先调用的是kkFileView,相信只要找文档格式转换和预览相关的,最终都会看到这个项目。

该项目托管在GitHub上,使用spring boot打造文件文档在线预览项目解决方案,支持doc、docx、ppt、pptx、xls、xlsx、zip、rar、mp4,mp3以及众多类文本如txt、html、xml、java、properties、sql、js、md、json、conf、ini、vue、php、py、bat、gitignore等文件在线预览。

看上去完美,但是对接也并非一帆风顺。一些具体细节问题可以到QQ群咨询,在Github上有提供加入方式。

  • 环境配置

该项目的思路是将如doc、xls等格式转为pdf格式供前端展示。但是应该是考虑到文件转换耗时较长的问题,所以使用了Redis做缓存,如果发现缓存中已经有转换过的记录就不再执行耗时的转换操作。所以需要配置Redis环境。

该项目同样依赖Openoffice服务,所以要安装Openoffice软件。安装完成需要在项目的配置文件中配置安装软件路径。

最后kkFileView项目application-dev.properties配置如下

#redis连接
spring.redisson.address = 127.0.0.1:6379
##资源映射路径
file.dir = downloadfile/
#spring.redisson.password=123
spring.resources.static-locations = classpath:/META-INF/resources/,classpath:/resources/,classpath:/static/,classpath:/public/,file:${file.dir}
## openoffice home路径
office.home = /Applications/OpenOffice.app/Contents
server.tomcat.uri-encoding = UTF-8
converted.file.charset = GBK
#文件上传限制
spring.http.multipart.max-file-size=10000MB
##文本类型
simText = txt,html,xml,java,properties,mp3,mp4,sql
#多媒体类型
media=mp3,mp4,flv,rmvb
logging.level.root=debug

如果Redis设置密码,需要配置“spring.redisson.password”属性

另外,本机系统环境是macOS,所以启动Openoffice需要执行

cd /Applications/OpenOffice.app/Contents/program

./soffice -headless -accept="socket,host=127.0.0.1,port=8100;urp;" -nofirststartwizard 
  • 文件转换

本地搭建环境后,启动服务,测试各种常见文档如word、excel、ppt等,发现仍然存在一些问题。

当上传word或其他文档过大时,预览翻页的时候会有明显的阴影和卡顿的情况,而且翻页速度变快时,会出现反复加载的情况。

对于ppt文档的支持较差,尤其包含动画的ppt页,只是简单的叠加,导致内容失真。同时可能是电脑本地字体库的原因,有些文件在转换后预览的时候会出现乱码的情况。

Openoffice + swftools + Flexmapper + jodconverter方案

为了运行起该方案,走了太多弯路。

  • 环境配置

安装swftools之前,一切都还顺利。但是对于macOS环境安装swftools安装各种报错。

主要受影响的是需要使用的pdf2swf没有安装,通过http://blog.chinaunix.net/uid-21374062-id-3031316.html等资料解决了安装时不抱这个错。同时也换过使用brew直接安装的方式,但是最终结果都是一致的让人绝望,那就是pdf2swf一直没有成功安装。

后来只能在虚拟机的Windows环境中安装swftools,安装过程中也会弹出一个错误,只需要以管理员的身份重新安装即可。

最终在Windows环境下成功实现从doc->pdf->swf的转换。

如需代码,请留下邮箱~~~

  • 文件转换

该模式与上面方案存在同样的问题,如果需要支持高版本office文档的转换,也需要jodconverter-core的支持。

而且,该方案,文件转换繁琐,需要转为pdf,再由pdf转为swf,最后进行预览。swf已经是极为过时的技术。

使用

  • kkFileView

刚开始仅仅依赖com.artofsolving.jodconverter的jar包完成文档转换。但是实际操作发现,该工具包不支持较高版本的office文档如docx、xlsx和pptx等。

所以后来找了相关资料,发现要么重写BaseDocumentFormatRegistry类(参见https://blog.csdn.net/make_a_difference/article/details/53771136)或者引用jodconverter-core的jar包(参见http://huangronaldo.iteye.com/blog/1628339)。

其实这里的orgartofsolving.jodconverter-core就是我们提到的kkFileView项目中的jodconverter-core子项目。

关于引用jodconverter-core按照网上添加denpendency无法下载,后来根据下面的线索访问http://maven.jahia.org/maven2找到可用的版本是3.0-beta-4-jahia4

因为本地的setting.xml文件没有添加这个repository,所以在当前项目的pom.xml文件中添加

<repositories>
    <repository>
        <id>org.artofsolving.jodconverter</id>
        <name>Maven jahia Mirror</name>
        <url>http://maven.jahia.org/maven2/</url>
        <releases>
            <enabled>true</enabled>
        </releases>
        <snapshots>
            <enabled>true</enabled>
        </snapshots>
    </repository>
</repositories>

我本地有一个测试的完整项目代码,如果需要,下方留下你的邮箱。

实测效果

将一个近10M的xls文件转为pdf文档,本地耗时约为5分钟左右(不能忍)。

总体,该项目考虑较为完整,但是仍然有不少细节需要优化和处理。

  • Openoffice + swftools + Flexmapper + jodconverter方案

从实际转换后得到的swf文件可以看出,对于doc和xls的预览效果要比上面的好,不会出现卡顿的情况,但是对于ppt格式的支持仍然不理想,只是简单的叠加覆盖。

整体对比下来,这两种方案都存在问题

  • 都依赖相对较多的第三方库和软件Openoffice、swftools等
  • 库和jar的版本没有持续维护,jodconverter的版本最新的是2008年,jodconverter-core最新版本是2012年。swftools最新版本是2012年。
  • 效率较低,从上面测试效果发现,在文档转换过程中占用资源较多,时间比较长,不能很好的满足用户的需求,只能通过一些补偿机制做补充,如添加缓存或落盘转换后的文件

经过调研,协调运维和全后端开发人员,决定采用市面上较为成熟的预览服务提供商,这里就不说名称了,以免有打广告之嫌。

通过对接后发现,只需要完成注册+配置域名+拼装http请求即可,同时预览同等大小的文件仅需5秒左右。

毕竟,人民币玩家就是强!

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Gephi可视化(二)——Gephi Toolkit叫板Prefuse

      继在园子里写的《Gephi可视化(一)——使用Gephi Toolkit创建Gephi应用》介绍了如何使用Gephi Toolkit工具集进行可视化编程后,...

    JackieZheng
  • 学习Spark——那些让你精疲力尽的坑

    这一个月我都干了些什么…… 工作上,还是一如既往的写bug并不亦乐乎的修bug。学习上,最近看了一些非专业书籍,时常在公众号(JackieZheng)上写点小...

    JackieZheng
  • 学习Spark——那些让你精疲力尽的坑

    这一个月我都干了些什么…… 工作上,还是一如既往的写bug并不亦乐乎的修bug。学习上,最近看了一些非专业书籍,时常在公众号(JackieZheng)上写点小...

    JackieZheng
  • LintCode 跳跃游戏题目分析代码

    desperate633
  • 提升node.js中使用redis的性能

    某基于node.js开发的业务系统向外提供了一个dubbo服务,提供向第三方缓存查询、设置多项业务数据并聚合操作结果。在QPS达到800时(两台虚拟机,每台机器...

    欲休
  • 基于AOE网的关键路径的求解

    【1】关键路径 在我的经验意识深处,“关键”二字一般都是指临界点。 凡事万物都遵循一个度的问题,那么存在度就会自然有临界点。 关键路径也正是研究这个临界点的问题...

    Angel_Kitty
  • 会变戏法的运算符——取反运算符

    不管是学习什么编程语言都会遇到各种运算符,运算符主要分为以下 6 类:算术运算符、关系运算符、逻辑运算符、位运算符、赋值运算符、其他运算符。今天我们主要看一下位...

    不可言诉的深渊
  • HDU 6109 数据分割(并查集+set维护)

     题目:http://acm.hdu.edu.cn/showproblem.php?pid=6109

    用户2965768
  • Spark 实现MySQL update操作

    目前 spark 对 MySQL 的操作只有 Append,Overwrite,ErrorIfExists,Ignore几种表级别的模式,有时我们需要对表进行行...

    UFO
  • OJ刷题记录:集合的运算 题目编号:456

    题目要求: 已知A和B均是由整型数据组成的集合,使用线性表表示集合,设计算法求集合A、B的交集和并集,功能包括输入集合A,输入集合B,求A和B的并集,求A和B...

    英雄爱吃土豆片

扫码关注云+社区

领取腾讯云代金券