来源:thegradient
编译:李雷、刘俊寰、陈若朦
人类历史进程中留下的大量历史文献和文物,而随着当时的语言文字消逝,尽管这些文档包含了对现代文化遗产至关重要的历史传说记载,对于普通读者而言连基本的“读懂”都无法做到。
例如,考古学家曾在古代巴比伦遗址发掘成千上万的陶土片 ,但只有几百名专业学者可以对记载的文字进行翻译。截止到现在,绝大多数记录这些陶土片内容的文件也鲜有人问津。
再比如,1851年,一个考古队发现了一块记载了吉尔伽美什传说的陶片,其含义直到1872年才被解读出来。陶片上还有对圣经出现前的一次洪水的记载,作为理解诺亚方舟故事的背景资料,具有巨大的文化和宗教意义。
这是一个全球性问题,其中,日本尤其值得关注,因为日本在识别古文字上已经有了相当大的进展和突破。
从公元800年到1900年,日本统一使用的是一种称为古草体(Kuzushiji)的文字,1900年日本小学教育改革时,将古草体从课程中删除。
目前,绝大多数日本人无法阅读150年前的文字,能够无障碍阅读古草体的人只占了日本全国人数的0.01%,这些人大多是日本古典文学和日本历史博士,这对日本历史研究相当不利!
与之相对应的,这些古书籍的数量惊人,存储量超过300万本。目前仅有一个数字化图书馆存储了2000万页此类文档,但其总数(包括但不限于信件和个人日记)估计超过10亿。
如果通过资助这些博士将古草体翻译成现代日语,无疑是一个费时且费力的工作。这也催生了使用机器学习来理解古书籍文档的相关研究。
识别古草体识别到底有哪些困难?
但这仍然是一项艰巨的任务。
古草体的书写规律与现代日语完全不同,虽然能通过机器学习将古草体文字转录成为现代日语,但由于一些语法和词汇的变化,要彻底理解还存在困难。
目前已经采用了深度学习和计算机视觉等各种利用计算机辅助的方法来识别古草体。但是,这些模型的识别精度还有待提高,这是因为光学字符识别(OCR)体系没有很多识别日本历史文献的经验,以及缺乏高质量的标准化数据集。
OCR研究人员曾试图自己创建训练数据集。但是,由于自创数据集的字符数非常有限,因此在对所有字符范围进行识别时,模型性能很差。
为此,NIJL-CODH为研究人员进行训练和评估提供了一个大而全的古草体数据集,解决了这个问题。日本国立文学研究所(NIJL)创建并发布了一个古草体数据集,该数据集由人文开放数据中心(CODH)策划,目前数据库已经具有4000多个字符类和一百万个字符图像。
古草体识别具有挑战性的原因有以下几个:
使用墨水和画笔的木版印刷技术
KuroNet模型能快速准确地进行转录
KuroNet是一种古草体字体转录模型,由Alex Lamb与两位合作伙伴,来自日本国立信息学研究所人文信息系统ROIS-DS开放数据中心的Tarin Clanuwat和Asanobu Kitamoto共同开发。KuroNet模型能够通过处理整个文本图像页面,以捕获全局和局部文字依赖关系。
KuroNet将包含整个文本页面的图像送入残余U-Net架构(FusionNet)处理,以获得特征表示。但是,数据集中的字符类总数相对较大,超过4300个,因此,预测每个位置的确切字符需要复杂的计算。
古草体文本刻在一个木版上以进行印刷
为了解决这个问题,研究人员引入了一个近似值,用于初始估计某位置是否包含字符,这样就只需根据实际情况在包含字符的位置上计算相对复杂的字符分类。
这其实是一种“Teacher Forcing”训练机制,有助于显着降低内存使用量和计算量。
研究人员还探究了使用数据增强来提高泛化性能,这在标记数据量有限的情况下对于深度学习而言尤为重要。他们在探索Mixup正则化项的变体,保留原始标签的同时,沿随机不同数据的方向进行了少量插值。
许多古书所用的纸张相对较薄,相邻页面的内容通常可能会透过纸张,由Mixup生成的图像看起来有点类似于这种情况。Mixup能有助于使模型忽略相邻页面的内容。
有关KuroNet的更多信息,请查看相关论文《KuroNet:用深度学习识别古近代日本古草体字符》,该论文已被收录于2019年国际文档分析和识别会议(ICDAR)会刊。
论文链接:
https://arxiv.org/abs/1910.09433
F1分数高于0.9的页面上的KuroNet转录示例。
KuroNet可以转录整个古草体文本页面,平均时间为每页1.2秒,包括未优化的模型后处理管道。尽管对不同书的识别的性能差异仍然很大,但研究人员发现,KuroNet模型对于17至19世纪的江户时代的木刻印刷书籍的识别表现很好。但也必须承认,KuroNet对非常规大小和罕见字符的识别上还存在不足。
除此之外,研究人员还利用各种书籍的“留出”(held-out)页评估了该模型,发现识别最差的书籍是字典和一本烹饪书籍,字典内包含了许多罕见字符,而烹饪书中穿插着许多插图和非常规的排版方式。
Kaggle古草体识别竞赛结果公布
KuroNet在研发阶段取得了极好的结果,其相关论文也发表在文档分析和识别领域的顶级会议上。为了激发对古草体的进一步研究,并发现KuroNet可能存在的缺陷,研究人员希望向更广泛的社会群体开放这项研究。
最终,经过3个月的比赛,共有293支队伍,338名参赛者参加Kaggle Kuzushiji 字体识别竞赛,2652份代码被提交,第一名的F1分数高达0.950。
使用相同的设置评估KuroNet,可以发现它的F1得分为0.902,排名第12位——尽管达到了可以接受的水平,但其结果与最优解决方案仍然存在差距。
以下是比赛排行榜前十:
从这次Kaggle比赛中我们可以吸取了一些重要教训:
未来的研究方向
目前CODH已经在转录古草体文本方面取得了实质性进展,但是,对于解锁历史文献知识的整体问题还远没有解决。甚至在转录古草体方面,仍然存在着巨大的、开放式的挑战。
其中一个难题是,人们可能想要转录许多其他类型的古草体文本,有些是手写的,还有印刷的(通常使用木刻版)。曾有人发现了一个用古草体字体书写的石刻路标,并希望将其转录。另外,某些页面具有非典型的或罕见的内容——例如书籍的书名页。
对于这些特别的数据,尤其是当书写介质发生变化的情况下,识别工作可能会非常困难。
另外还存在的问题是,所有的技术都只能将古草体文档转换为现代日语文本——这意味着虽然可以识别各个字符,但是整体文本仍然具有阅读难度。
通过与日语为母语的人进行讨论,得到一个结论:像这样转录的文本可以被当代日本人所阅读,但是要理解其含义还是稍有难度。
因此,需要进一步研究将古草体转换为现代日语词汇(非字符)和语法。在许多情况下,可以将过时的词汇换成现代的单词,然而对于诗歌和优美的散文,要将其用词之间的细微差别正确地翻译出来几乎是不可能的。此外,缺乏(或只有少量)来自古典和现代日语之间完全准确的配对数据也是一个问题。
研究人员表示,这是当今机器学习中最具影响力的应用之一,如要取得进展,则需要具有历史文献领域特定专业知识的历史学家、机器学习应用研究人员和机器学习算法研究人员之间的协作——这需要跨学科的努力。
历史学家可以帮助确定相关的子问题,并可以直观地判断算法指标是否真正发挥作用;应用研究人员可以构建模型来优化各项指标,并确定当前算法的不足之处;而算法研究人员则可以帮助改进算法。
当前机器学习领域中受到广泛关注和研究的内容是:开发能够进行多次学习的更优算法,同时能够更好地适应不断变化的上下文本语境。
同时,这还需要国际上的协作努力。文档数据难以获得是世界各地的古代语言识别的共同问题,只有让来自各国的研究人员共同参与,我们才有希望取得进展。此外,与土著群体进行交流也很重要。
在世界许多地方,历史和文学教育的价值被大大低估了。在这个虚假新闻日益增长的世界中,对历史的深入了解比以往任何时候都更为重要。对历史文献学习和理解,可以使学生系统地接触大量的历史内容,从而有助于提高对历史重要性的认识。
这项工作将使学生和公众能够通过丰富的插图和易于理解的书写风格,原汁原味地阅读历史故事。同时研究对象也将在更多类型的文献之间进行选择,包括动作,喜剧和冒险小说,从而使研究变得更加有趣和实用。
相关报道:
https://thegradient.pub/machine-learning-ancient-japan/