我想获得现有的光学字符识别数据在.tif文件中使用Java。此OCR数据使用MS Office Document Image Writer创建。我已经搜索了一些开源库,但我找不到任何可以检索/读取附加OCR数据的库/工具。
如何使用Java在.tif文件中获取此光学字符识别数据?
发布于 2011-09-07 18:40:19
使用MS Office Document Image Writer创建的OCR数据和(其他)元数据可以使用ExifTool检索。
示例:
String[] cmdLineInput = { "C:\\ExifTool\\exif.exe", "-ee",
"C:\\images\\example.tif" };
ProcessBuilder processBuilder = new ProcessBuilder(cmdLineInput);
Process exif; // = processBuilder.start();
/**
* CmdLineIpnut[1] = Fully qualified path to exiftool CmdLineIpnut[2] =
* -ee // ( extract embedded ) option to extract data from multipaged
* .tif files. CmdLineIpnut[3] = Fully qualified path to .tif file.
*/
String outputLine = "";
try {
exif = processBuilder.start();
BufferedReader brInput = new BufferedReader(new InputStreamReader(
exif.getInputStream()));
while ((outputLine = brInput.readLine()) != null) {
System.out.println(outputLine);
}
exif.waitFor();
} catch (IOException ioe) {
// handle exeception
}
您可以解析outputLine中的一些数据,并将其存储在对象中以供进一步处理,例如保存在数据库中。
https://stackoverflow.com/questions/7022829
复制相似问题