用Python将word文件转换成html

最近公司一个客户大大购买了一堆医疗健康方面的科普文章,希望能放到我们正在开发的健康档案管理软件上。客户大大说,要智能推送!要掌握节奏!要深度学习!要让用户留恋网站无法自拔!

话说符合以上特点的我也只能联想到某榴了。

当然,万里长征的第一步是把文章导入我们的数据库。项目使用的是AWS的dynamoDB,是非关系型数据库,所有内容都是以json的形式储存的。而客户大大购买来的文章,一共600多篇,要么是word要么是Adobe indesign的indd。找了一圈,没有发现合适的应用可以把word或indd转化成干净的html。所以我只能自己造轮子啦~听说python很擅长文本处理,所以就是你了,python!这是我第一次用python写项目,不符合规范的地方欢迎大神提点。

太长不看

用逆天的python 模块mammoth和docx 处理你的word文件;把indd批量转化成pdf然后用layout_scanner转化成html。

word批量转化为html

1、 建立文件结构并批量读取文件

在根目录下创建几个文件夹,用来放不同格式的文件,我把所有要处理的word文件放在docfiles 这个子目录里。word.py里写转化程序。

├── docfiles

├── imgs

├── inddfiles

├── output

└── pdfs

└── word.py

2、引入模块和申明文件路径

import mammoth
import mammoth.transforms
import os from docx 
import Document from bson 
import json_util
import zipfile
import json
import unidecode
import requests

guidUrl = "https://my.phrplus.com/REST/guid"
inputPath = '/Users/admin/cwell/parser/docfiles/'
imgPath = "/Users/admin/cwell/parser/imgs/"
outputFile = '/Users/admin/cwell/parser/output/output.json'

mammoth: 核心组件,用来做转化工作

docx: 另一个做转化工作的模块,用来补充mammoth

os: 用来在系统中读取写入文件

zipfile: 用来解压word文档以提取图片

json: 用来把数据转化成json

bson: 用来配置写入json文件

unicode:用来处理字符

requests:用来调用api

3、转换单个文件

styleMap = 
"""

p[style-name='Title'] => h1.hide

p[style-name='Subhead 1'] => h3

p[style-name='List Bullet'] => ul.first > li:fresh

p[style-name='List Bullet 2'] => ul.second > li:fresh

p[style-name='Hyperlink']=>a.link

"""

def
 convert_image(image):

    return{   "src":""}


def parseFile(f):
    document = Document(inputPath + f)
    article = {"Title":document.core_properties.title,"Content":""}

    
with open(inputPath + f,"rb") 
as docFile:
        html = mammoth.convert_to_html(docFile,style_map=styleMap,
         convert_image=mammoth.images.img_element(convert_image))
        decoded = unidecode.unidecode(html.value)
    
if not article["Title"]:
        
for para in document.paragraphs:
   if para.style.name == 'Title':              
   if para.text: article["Title"] = para.text
   article["Content"]= decoded 
   return article  

parseFile就是核心功能了。传递进来的参数f是文件名,和文件路径合在一起能够帮我们准确定位要转化的文件。首先用docx找到文档的标题,并创建一个dictionary,里面包含标题和内容。然后用mammoth转化整个文件。注意命令中要用到stylemap和convertimage。前者用来规定转化规则:'style-name'是word里的式样名称,用word打开文档,点击任意一个元素可以查看其式样名称;这里规定标题转化为h1,副标题转化为h2等等。关于列表的转化规则这里就不详细叙述了,具体可以参考下面的文章:

参考链接

Converting docx to clean HTML: handling the XML structure mismatch

'convert_image' 是用来规定图片的转化方式的,由于我准备之后批处理所有文档中的图片,在这里就告诉程序不储存任何图片信息。但是于此同时保留图片的img tag以便标注图片在文档中的位置。如果不规定任何转化方式,生成的html里面会包含一大长串base64的图片信息。

mammoth转化出来的html是含有unicode的,不知道为什么python里跑一直报错,就用unicode解码了一下。

这之后,如果前面的程序没有抓取到文档标题,用docx换个姿势再抓取一下。

最后返回article这个dictionary。

4、抓取图片

def extractImage(f):    
    ziped = zipfile.ZipFile(inputPath+f)    
    allFiles = ziped.namelist()    
    imgs = filter(lambda x: x.startswith('word/media/'), allFiles)    
    imgNameArr = []    for img in imgs:        
    res = requests.post(guidUrl)        
    if res.status_code is 200:            
    guid = res.text            
    data = ziped.read(img,imgPath)            
    idxStr = os.path.basename(img).split(".")[0][-1:]            
    imgDict = {}            
    imgDict["index"] = int(idxStr)-1            
    imgDict["fileName"] = guid+".jpg"            
    imgNameArr.append(imgDict)            
    targetPath = os.path.join(imgPath,guid+".jpg")            
    target = open(targetPath,"wb")            
    target.write(data)            
    target.close()    
    ziped.close()    
    return imgNameArr

没想到word文档其实是一个压缩文件吧?如果直接把word文档的后缀名改成zip然后再用解压软件查看,会看到一个media文件夹,里面就包含所有插入的图片。

用ziped读取文档,然后找到存放图片的media文件夹,每一个图片重新用guid命名,生成一个dictionary,里面包含的信息有“此图片在文档中出现的顺序”和文件名。话说media中的图片都被按照顺序重新命名为image1.png, image2.png,刚好为我们抓取顺序信息提供了方便。

(python也有生成guid的模块,我在这里调用api有点多此一举,但是为了和项目中其他图片需要用到的uuidv4保持一致还是用了)

之后就是把图片存在‘imgs’这个文件夹下。

5、生成json

def processDocs(path):    
    result = []    
    for f in os.listdir(path):        
        if not f.startswith('.'):            
        imgNameArr = extractImage(f)            
        article = parseFile(f)            
        fileName = os.path.basename(f)            
        contentArr = article["Content"].split("<img")            
            for idx, section in enumerate(contentArr):                
                for info in imgNameArr:                    
                    if idx is info["index"]:                       
                         contentArr[idx] = section+"<img alt='"+info["fileName"]+"' data-fileName='"+info["fileName"]+"'"            
                         article["Content"] = ''.join(contentArr)            
                         result.append(article)    
                         with open(outputFile,'w+') as f:        
                         json.dump(result,f,default=json_util.default)

最后要用到的一个function就是写个循环挨个处理docfiles文件夹底下的文件了。针对每一个文件,记得把之前生成的图片信息的数组map到html里,然后在写入到json文件里就大功告成了!

indd转化为html

话说,到现在为止,我还没有找到一个完美的解决方案。我使用了相同的思路,把indd先批量生成为pdf(有一个indesign 脚本就是专门批量转化pdf的),然后用了一个叫做layout_scanner的github项目抓取pdf信息并转化为html。最后生成的html包含了文字和图片,但是图标和排版就保存不下来了。客户大大表示不满意。我也很惆怅啊!机智的小伙伴们如果有更好的思路请务必告诉我!如果需要我详细说明一下这一块内容,我会更新在这篇文章中。

参考链接

dpapathanasiou/pdfminer-layout-scanner

本文作者

栗子君

Python中文社区专栏作者,一枚身在美帝的小程序媛,爱好:Web开发/古典吉他。

原文发布于微信公众号 - Python中文社区(python-china)

原文发表时间:2018-01-07

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏顶级程序员

干货 | Python 爬虫的工具列表大全

源 / 伯乐头条 这个列表包含与网页抓取和数据处理的Python库。 网络 通用 urllib -网络库(stdlib)。 requests -网络库。 gr...

43160
来自专栏机器学习算法与Python学习

干货 | Python 爬虫的工具列表大全

源 | 伯乐头条 | 小象 这个列表包含与网页抓取和数据处理的Python库。 网络 通用 urllib -网络库(stdlib)。 requests -网络...

35790
来自专栏更流畅、简洁的软件开发方式

【开源】QuickPager 分页控件的内部结构,和OO原则与设计模式

关键字:提出需求、需求分析、原则、设计模式、索引      先说一下讨论的范围:使用数据库保存信息的项目,b/s结构,asp.net编写。请不要讨论这个范围之外...

21960
来自专栏月色的自留地

AngularJS2+调用原有的js脚本(AngularJS脚本跟本地原有脚本之间的关系)

19460
来自专栏信安之路

ROP Emporium 挑战 WP

ROP Emporium 挑战是用来学习 ROP 技术的一系列挑战,本文就对于其中涉及的所有挑战记录一下 wirte up。

12200
来自专栏DeveWork

WordPress删除头部wp_head()多余代码

如果你有查看过你的WordPress博客的“查看源代码”的话,你会发现头部的html代码非常多,而且是密密麻麻,有些像meta name="generator"...

93070
来自专栏拂晓风起

node.js WebService异常处理(domain)以及利用domain实现request生命周期的全局变量

18130
来自专栏Crossin的编程教室

这些年,你们一起踩过的坑(1)

编程教室创建5年多了,回答的问题不说上万也有好几千了。尽管大多数的问题在过去的文章以及论坛上都有讲过不止一遍,但因为不断有新人到来,难免还是被这些小坑磕磕绊绊一...

13250
来自专栏java达人

如何编写一个简易网络爬虫

感谢小臣投稿 本文将简述网络爬虫及其工作流程,结合个人实践,简单介绍如何使用HttpClient、HtmlParser第三方jar工具包,编写一个简易的网络爬虫...

24970
来自专栏CDA数据分析师

Python 爬虫的工具列表

这个列表包含与网页抓取和数据处理的Python库 网络 通用 urllib -网络库(stdlib)。 requests -网络库。 grab – 网络库(基于...

444100

扫码关注云+社区

领取腾讯云代金券