我正在开发应用程序,我需要从pdf中识别段落。
我需要提取文本并识别段落。
是否有任何方法提取文本和识别段落和页面边界提取的文本从pdf文档使用c#?
发布于 2015-03-25 05:44:08
PDF是二进制格式,尝试使用其中之一读取它:
http://www.pdflib.com/
http://sourceforge.net/projects/itextsharp/
一旦您有了流,您应该能够检查
换行/返回(\n/\r)或制表符\t以查找新段落。
https://stackoverflow.com/questions/29247737
复制相似问题