它是.NET平台上的文件抽取框架,主要解决各种格式的内容抽取问题,比如pdf, doc, docx, xls, xlsx等,尽管听上去支持了很多格式,但它的使用却是极其方便的,因为Toxy把复杂的抽取流程透明化...目前所有的测试用例都可以跑在Mono上,但是有少数没有过,正在逐步改进。
从另一个层面讲,Toxy能将文件数据变成统一的结构化数据。...ToxyMetadata
doc, docx string, ToxyDocument, ToxyMetadata
.vsd, .pub, .shw, .sldprt, pubx, vsdx ToxyMetadata
如何使用...只要是文件属性中详细信息列出来的东西,理论上都可以抽取出来。...当然每个抽取器能够使用的参数是不一样的,本文就不详细一一列举了,在以后的文章中,我们会详细列举每个抽取器的参数及对应抽取内容。