我们正在使用Aspose tools for .Net进行PDF操作。我们有需要合并然后再拆分的1000+ pdf文档。合并过程将在合并时在两个pdf文档之间添加一个分隔页。因此拆分过程将知道在何处拆分文档。
这1000个文档由3种不同的类型组成。所以我需要创建3个不同的分隔符(每种类型一个)。合并过程将根据文档类型在合并时添加适当的分隔符。
我知道如何使用Aspose合并和拆分PDF文档。我的问题是,如何创建和检测这个分隔符页面?
我想的一个选择是创建一个具有特定条形码的PDF页面,拆分过程将读取条形码。(Using Aspose Barcode)但这似乎是一个耗时的过程,因为拆分过程必须读取每一页,检查是否有条形码,如果是真的,则提取数据以检查类型。
有没有其他更好的方法呢?
发布于 2017-03-28 23:26:47
您能分享一些关于您在合并文档时使用的不同类型的分隔符的信息吗(非常感谢示例文档或图像)。在您添加空白页作为分隔符的情况下,.NET的Aspose.Pdf提供了确定文件内空白页的功能。但是,当使用这种方法时,你需要遍历所有页面并识别空的pages.Or,你还可以跟踪索引中添加分隔符的位置,以及当你需要拆分时,使用相同的信息。
// The path to the documents directory.
string dataDir = RunExamples.GetDataDir_AsposePdfFacades_TechnicalArticles();
// Instantiate a memoryStream object to hold the extracted text from Document
MemoryStream ms = new MemoryStream();
// Instantiate PdfExtractor object
PdfExtractor extractor = new PdfExtractor();
// Bind the input PDF document to extractor
extractor.BindPdf(dataDir + "FilledForm.pdf");
// Extract text from the input PDF document
extractor.ExtractText();
bool containsText = false;
bool containsImage = false;
// Save the extracted text to a text file
extractor.GetText(ms);
// Check if the MemoryStream length is greater than or equal to 1
if (ms.Length >= 1)
containsText = true;
// Extract images from the input PDF document
extractor.ExtractImage();
// Calling HasNextImage method in while loop. When images will finish, loop will exit
if (extractor.HasNextImage())
containsImage = true;
// Now find out whether this PDF is text only or image only
if (containsText == true && containsImage == false)
Console.WriteLine("PDF contains text only");
else if (containsText == false && containsImage == true)
Console.WriteLine("PDF contains image only");
else if (containsText == true && containsImage == true)
Console.WriteLine("PDF contains both text and image");
else if (containsText == false && containsImage == false)
Console.WriteLine("PDF contains neither text or nor image");
我的名字是Nayyer,我是Aspose的开发者布道者。
https://stackoverflow.com/questions/37975997
复制相似问题