首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

古籍数字化是以保护和利用古籍为目的,利用扫描、拍照等技术手段,将古籍的文本信息转化为计算机识别的数字符号。

古籍数字化是以保护和利用古籍为目的,利用扫描、拍照等技术手段,将古籍的文本信息转化为计算机识别的数字符号,进而揭示古籍文献中包含的信息资源的系统工作。

字节跳动在助力永乐大典数字化的过程中必然会遇到部分难点,接下来本文从技术角度出发分析一下。

古籍数字化是以保护和利用古籍为目的,利用扫描、拍照等技术手段,将古籍的文本信息转化为计算机识别的数字符号,进而揭示古籍文献中包含的信息资源的系统工作。

古籍数字化操作平台是进行古籍数字化的主要硬件。

从全球范围来看,真正做到完全符合古籍数字化各项标准的操作平台几乎没有。

由于受自然光照环境的影响,使得扫描的古籍书影有时会出现偏色和色彩分布不均等情况,从而影响扫描效果,需要经常反复加工、多次扫描才能达到要求。

设备存储空间不足也是操作中存在的问题之一。

扫描后的古籍书影基本都是以TIFF无压缩图像进行存储,每个书影在后期加工处理前都在100MB左右。

这样算来,每人每天扫描的图像数据容量在10GB左右,占用的空间相当大,经常出现电脑空间不足。

即使是将扫描好的书影剪切到移动硬盘或者其他磁盘上,复制速度较慢,同时只能是以点对点的形式进行保存,很容易造成数据丢失,对数据安全造成隐患。

古籍数字化人员的工作量特别大,从前期整理、原始书影采集,到后期纠偏裁切、元数据著录等都由一名同志完成。

在不包括元数据著录的情况下,每人每天最多只能处理100幅书影左右,大大影响了扫描速度,而且容易造成漏扫、多扫与重复扫描等问题。

在填写《文献整理登记表》中,叶数一栏的规定是阿拉伯数字。

除封面、前护、后护、封底单独统计叶数外,各卷叶数均在此填写。

但如果上一卷卷末和下一卷卷端在同一页上则没有明确的规定,容易造成卷次叶数统计混乱。

软件的默认设置参数比较混乱。比如:每次扫描设置好的分辨率400DPI、TIFF无压缩格式、平面扫描、矩形裁切等参数无法保存,扫描不同部古籍时默认参数每次都不一样。

有时其他参数不变,只将TIFF无压缩格式变成TIFF-G4,或者只将TIFF格式变成PDF格式等等,一不小心就容易出错,所以每次打开软件都需要重新设定参数。

同时该软件裁切和倾斜校正参数不完善,无法精确设置留边1CM,也没有大批量处理功能,需要利用其他软件逐幅书影进行纠编和裁切,给书影的后期加工处理增加了难度。

技术问题还再其次,永乐大典的文字诘屈聱牙,如果没有负责的工作人员和专家指点,就会出现错误,可见古籍数字化之难。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O1CtflL7-gBmFfQOAPEBTLNw0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券