我有一个完全可以理解的信息提取要求(发票号、发票数据、到期日、总数等)。从扫描发票(数字格式是图像,而不是PDF),最好是Python。好的是,所需的信息或多或少肯定存在于页面上,而这些信息的(regexp类)文本格式也往往是后续的。另一方面,缺点是发票的布局非常多样。
我使用了以下可能的方法:
确实是非常不寻常的任务。
发布于 2017-03-23 03:48:55
发布于 2017-03-23 01:13:36
一种方法是采用一种很好的分割技术,然后用(ann,svm,knn.)等算法对所有区域进行分类,这种方法不需要大量的训练样本。另一种方法是应用深度学习(但这意味着大量的训练样本),您可以使用CNN,它执行一个回归,作为输出,它给你的文本(这意味着你必须设置一个最大的句子长度)。但是为了避免最大的句子长度,您可以使用带有一些RNN层的CNN,然后用图像的一部分(级联方法)给网络提供信息。
https://datascience.stackexchange.com/questions/17799
复制