我有一系列的图像,都是相同的大小,相同的格式,共享相同的配色方案,它们都有相同的文本格式。我想使用tesseractjs来返回它们的文本,但tesseract在所有这些文件上的工作方式并不相同。在一些图像上,它会返回另一些图像上的文本,而其他图像则不会。这是我的tesseract代码:
import { createWorker } from "tesseract.js";
const worker = createWorker();
(async () => {
  await worker.load();
  await worker.loadLanguage("eng");
  await worker.initialize("eng");
  const {
    data: { text }
  } = await worker.recognize("image.png");
  console.log(text);
  await worker.terminate();
})();代码来源: tesseract.js github
发布于 2019-11-28 21:51:13
虽然图像看起来如此清晰和易于阅读,但它们似乎有一定的噪声水平,其中一些图像的噪声水平更高,这使得tesseract失败,因此需要进行预处理才能获得良好的结果。
https://stackoverflow.com/questions/59088248
复制相似问题