我尝试实现对鼠标绘制的汉字的识别。对于我想要识别的每个汉字,我都有一个样本文件,它提供了所有笔画的开始和结束位置,以及各自笔画的开始和结束位置(对于固定的图像分辨率)。
我想知道如何使用这些笔画信息来识别汉字。我在考虑使用笔画开始和结束之间的斜率,并将其用作机器学习的特征,但如果每个汉字只有一个样本,我将有大约2000个类(每个汉字一个)和数据稀疏问题(每个汉字只有一组笔画信息)。在这样的稀疏数据集上使用ML是可能的吗?
发布于 2014-05-01 23:53:22
你的模型可能会受到数据集稀疏性的影响,但仍然有可能对其应用某些机器学习算法,特别是参数数量较少的较简单算法。(简而言之,试试看)。
然而,你所描述的情况在我看来并不像乍一看那么糟糕。根据一组有序的识别笔画(我猜)来确定哪个汉字是相当简单的。困难在于从一开始就识别笔画。
因此,真正需要数据的机器学习任务是笔画识别。然而,这个模型每个类都有远远不止一个样本,因为每个笔画可能会出现在多个汉字中。
发布于 2014-05-02 13:11:56
首先,您可能会从http://demos.shogun-toolbox.org/application/ocr/中获得一些灵感(其源代码位于幕府发行版中)。
然后将每个班级的单个汉字作为训练示例:当汉字非常相似时,这将不会很好地工作。然而,你可以做的是生成虚拟例子,你可以通过稍微扭曲你的汉字来生成虚拟例子,例如,平移,旋转,缩放等。这就是Yann和其他许多人在MNIST (http://yann.lecun.com/exdb/mnist/)上所做的。
https://stackoverflow.com/questions/23410426
复制相似问题