如何解析word文档".doc“、".docx”以获得使用golang的所有文本?
发布于 2016-10-22 20:27:05
你可以从这些项目中获得一些灵感:
https://github.com/nguyenthenguyen/docx
https://github.com/opencontrol/doc-template
基本上,DOCX是一个包含XML的Zip文件。所有的文本都在document.xml
里面
这两个项目所做的是删除所有的XML标记,只留下完整的文本。你应该看看这种方法是否也适合你。
https://stackoverflow.com/questions/40196378
复制相似问题