我正试图训练Tesseract 4从图像中识别一些电子电路图符号,如电阻、电容器等,但似乎没有直接的指南指导培训测试,官方文档似乎更多地集中在字体而不是图像数据上。
在this post上的答复似乎是迄今为止我发现的最有用的东西,但在遵循这些步骤时,我得到了一个错误:
我到目前为止所做的事:
在ubuntu 16
中。
注意:我知道我需要更多的数据,这只是一个测试,让一切正常工作,并成功地创建一个.traineddata文件。
当我运行命令“make培训MODEL_NAME=testModel_1”时,我在我的控制台中得到了以下内容:
@CKVM1:~/Downloads/tesstrain$ make training MODEL_NAME=testModel_1
find: ‘data/testModel_1-ground-truth’: No such file or directory
find: ‘data/testModel_1-ground-truth’: No such file or directory
Error: missing ground truth for training
Makefile:175: recipe for target 'data/testModel_1/list.train' failed
make: *** [data/testModel_1/list.train] Error 1我相信问题是,在这篇文章中,我把说明与"START_MODEL“参数联系起来,据我所知,它使用了你设定的任何一种语言作为提高培训时间的起点,但由于我使用的是自定义符号,而不是实际的字母,所以我看不出这对我有什么好处。然而,问题似乎是,它期望一个(更一般的?)地面真相档案在训练开始前就已经出现了,我不知道该怎么去解决。
对如何解决这个问题有什么想法吗?
发布于 2021-04-23 11:56:10
确保你的训练数据是在“tesstrain/ data /testModel_1-地面-真理”中。
你可以看看“让培训”在https://github.com/tesseract-ocr/tesstrain/blob/0d972f86f4aaf88fde77e3445ff607e68866c882/Makefile#L200做什么
你会发现它正在´GROUND_TRUTH_DIR´中寻找一些东西。
$(ALL_GT): $(shell find $(GROUND_TRUTH_DIR) -name '*.gt.txt')
@mkdir -p $(OUTPUT_DIR)
find $(GROUND_TRUTH_DIR) -name '*.gt.txt' | xargs paste -s > "$@"默认情况下,GROUND_TRUTH_DIR是´GROUND_TRUTH_DIR := $(OUTPUT_DIR)-基本事实
如果我们继续追踪环境变量的路径..。
# Name of the model to be built. Default: $(MODEL_NAME)
MODEL_NAME = foo
# Data directory for output files, proto model, start model, etc. Default: $(DATA_DIR)
DATA_DIR = data
# Output directory for generated files. Default: $(OUTPUT_DIR)
OUTPUT_DIR = $(DATA_DIR)/$(MODEL_NAME)考虑到您的错误消息的输出,看起来您的环境变量并没有从它们的缺省值中被更改,这是很好的。一切都应该正常。看起来,培训项目只是在抱怨你没有一个文件夹-这是必需的。
https://stackoverflow.com/questions/66031260
复制相似问题