我找不到OCRing图像在PySpark中的开源解决方案。我知道像pytesseract这样的解决方案是存在的,但不确定它们是否能很好地处理PySpark,因为tesseract-ocr需要安装在linux机器上。是否有任何开放源码的OCR解决方案可以很好地与PySpark兼容?
发布于 2022-03-04 01:00:31
我找不到一个纯蟒蛇库。pytesseract调用了一个名为tesseract-ocr的linux库,我能够将它安装在Spark集群上。您也可以很容易地将它安装到Spark集群上,并且运行得很好。
这里有一个关于如何在Databricks上安装它的答案。我使用全局init脚本来安装它:
https://stackoverflow.com/questions/71229162
复制相似问题