首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

word转出图片(使用免费插件)02

/**      * 将word文档, 转换成pdf, 中间替换掉变量      * @param source 源为word文档, 必须为docx文档      * @param target 目标输出      * @param params 需要替换的变量      * @throws Exception      */     public static void wordConverterToPdf(InputStream source,                                           OutputStream target, Map<String, String> params) throws Exception {         wordConverterToPdf(source, target, null, params);     }     /**      * 将word文档, 转换成pdf, 中间替换掉变量      * @param source 源为word文档, 必须为docx文档      * @param target 目标输出      * @param params 需要替换的变量      * @param options PdfOptions.create().fontEncoding( "windows-1250" ) 或者其他      * @throws Exception      */     public static void wordConverterToPdf(InputStream source, OutputStream target,                                           PdfOptions options,                                           Map<String, String> params) throws Exception {         //HWPFDocument doc=new HWPFDocument(source);         XWPFDocument doc = new XWPFDocument(source);         paragraphReplace(doc.getParagraphs(), params);         for (XWPFTable table : doc.getTables()) {             for (XWPFTableRow row : table.getRows()) {                 for (XWPFTableCell cell : row.getTableCells()) {                     paragraphReplace(cell.getParagraphs(), params);                 }             }         }         PdfConverter.getInstance().convert(doc, target, options);     }     /** 替换段落中内容 */     private static void paragraphReplace(List<XWPFParagraph> paragraphs, Map<String, String> params) {         if (MapUtils.isNotEmpty(params)) {             for (XWPFParagraph p : paragraphs){                 for (XWPFRun r : p.getRuns()){                     String content = r.getText(r.getTextPosition());                     if(StringUtils.isNotEmpty(content) && params.containsKey(content)) {                         r.setText(params.get(content), 0);                     }                 }             }         }     }

01

用Unoconv工具将DOC,PPT批量转为PDF

最近需要在网页上做一个对于文档的预览功能,但是这个预览功能基本只能对pdf格式的文件进行处理,而不能对doc、ppt之类的格式进行处理(毕竟微软爸爸)。因此为了能够方便的显示所有的文档,并且统一管理,我需要找到一个能将doc、ppt这些文件方便快捷的转成pdf的工具。当然,word、ppt这些软件本省有到出成pdf的功能,网络上这类转换工具很多,但是用起来也是不太方便,而且这当中垃圾软件也不少。 仔细想想,实现这个功能无非有两个途径,一是利用微软自己的api。不过这显然有点麻烦,还要自己写代码。另外一个途径就是用仿ms的开源软件,比如libreoffice、openoffice、wps这些比较成熟的工具提供的支持。搜索一番后发现,还是开源软件的力量大,这类的转换工具还特别的多,最终我选择了一个叫unoconv的文档格式转换工具。

02

python小应用之整理手机图片

前几天去国图拍了一本书,一本心理学方面的书,也许你问我为什么不去买一本,或者去网上找pdf。其实吧,关于心理学方面的书可以说在市面上一抓就是一堆,至于拍这本书两个原因,一个是没有什么收藏价值不值得我去买,只适合应急用,然后就是这本书的作者写作特点和其他大众的不太一样,可以说是有特点或者偏门,于是我就在手机上拍了一堆的图片,后来整理成了pdf,但是昨天我看的时候原图片文件还在快上千了吧,一个一个选择删除真是删烦了, 也许你会说为什么不导入到电脑上进行删除,没办法我就是想整点不一样的,学了python就是喜欢整点骚操作。(手动滑稽) 所以下面就在手机上使用python进行一波骚操作。。。

03

Python读取PDF内容

1,引言 晚上翻看《Python网络数据采集》这本书,看到读取PDF内容的代码,想起来前几天集搜客刚刚发布了一个抓取网页pdf内容的抓取规则,这个规则能够把pdf内容当成html来做网页抓取。神奇之处要归功于Firefox解析PDF的能力,能够把pdf格式转换成html标签,比如,div之类的标签,从而用GooSeeker网页抓取软件像抓普通网页一样抓取结构化内容。 从而产生了一个问题:用Python爬虫的话,能做到什么程度。下面将讲述一个实验过程和源代码。 2,把pdf转换成文本的Python源代码 下面的python源代码,读取pdf文件内容(互联网上的或是本地的),转换成文本,打印出来。这段代码主要用了一个第三方库PDFMiner3K把PDF读成字符串,然后用StringIO转换成文件对象。(源代码下载地址参看文章末尾的GitHub源)

03

python小应用之整理手机图片

前几天去国图拍了一本书,一本心理学方面的书,也许你问我为什么不去买一本,或者去网上找pdf。 其实吧,关于心理学方面的书可以说在市面上一抓就是一堆,至于拍这本书两个原因,一个是没有什么收藏价值不值得我去买,只适合应急用,然后就是这本书的作者写作特点和其他大众的不太一样,可以说是有特点或者偏门,于是我就在手机上拍了一堆的图片,后来整理成了pdf,但是昨天我看的时候原图片文件还在快上千了吧,一个一个选择删除真是删烦了, 也许你会说为什么不导入到电脑上进行删除,没办法我就是想整点不一样的,学了python就是喜欢整点骚操作。(手动滑稽) 所以下面就在手机上使用python进行一波骚操作。。。

01
领券