前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >腾讯AI新成果:建立全球最大的甲骨文单字数据库

腾讯AI新成果:建立全球最大的甲骨文单字数据库

作者头像
腾讯云TI平台
发布2023-07-25 20:49:00
7170
发布2023-07-25 20:49:00
举报
文章被收录于专栏:腾讯云TI平台腾讯云TI平台

AI又双叒立大功!

2023世界人工智能大会上,我们公布了

在AI for Science("人工智能驱动科学研究")

领域的一点“遥远”的成果

你有没有想过

几千年前的国人是怎么看待宇宙的?

甲骨文能给我们答案,如果能看懂的话。

目前,已经出土的甲骨约有16万片,已经发现约4500个甲骨字,其中约3000字尚未释读。

而甲骨自然损坏速度很快,甲骨文专家学者数量又少,急需数字化保存和智能工具的帮助、加快破译速度。

去年,腾讯优图实验室、SSV数字文化实验室与安阳市文物局、安阳甲骨文信息处理实验室等多个部门合作,宣布共建甲骨文开放创新平台,让AI和专家们一起投入甲骨文考释工作。

截至目前,我们已经建立起覆盖143万字的全球最大甲骨文单字数据库!

1

AI怎么建这个甲骨文单字数据库?

甲骨文的考释,一般会从两个维度去考虑:字形,和辞例(即实际的语义)。

优图实验室的同学们发现,甲骨文的不同字形、不同写法之间的匹配关系在破译中尤为关键——这跟图像识别一样的嘛!老本行!

而为了达成字形匹配的目标,首先得有用来匹配的字库,操作就开始了:

第一步,拓片文字检测。

每块甲骨拓片上一般有很多个字,得先“抠下来”。

AI检测算法能够精确识别拓片上不同区域、不同形态的甲骨文,智能扩充识别边界,避免漏识笔画,进一步加速字库“收集”过程。

第二步,单字摹本生成。

“黑底白字”的甲骨拓片上划痕之类的“噪声”很多,字形不够清晰。

AI摹本生成算法,能够有效识别和去除“噪声”,生成“白底黑字”的具有清晰字形的甲骨文单字摹本,为学者后续的识别和匹配工作扫清障碍。

(ppt演示下拓片-单字-摹本的变化过程)

第三步,构建字库。

到这里,已经处理好的单字摹本就可以进库啦。

目前我们已经收纳了143万个甲骨文单字拓片及其电子摹本,并且每个单字均可对应到其在拓片中的位置。

有了数据库,专家们就可以来进行甲骨文单字的查询了。

2

AI怎么帮专家们用这个数据库?

基于优图实验室的目标检索和图像匹配算法,专家可以快速实现“以字搜图”,“以图搜图”。

想找一个字,就输入字形,AI会自动比对它和字库中所有单字摹本的相似度(这比肉眼看遍143w个字快多了),给出字形最近似的摹本以及关联拓片。

等等,143万?不是只发现4500个单字吗?

原来,这个字库特意收集了每个单字多次出现、或出现在不同拓片上的重复情况。

因为对于专家来说,在研究某一个字的时候,看到这个字出现在所有语境下、或者所有拓片上面的情况,是很有必要的。

甚至有时候,一个字出现的频次高,本身就是一种有意义的重复。

这也是我们首次将文字检测、摹本生成、字形匹配等AI算法,综合应用于甲骨文研究。

未来,我们还会进一步将这个数据库工具化,提升甲骨文识别与考释、甲骨论著内容提取等的效率。

用最新的技术,追寻最古的源头,不失为一种浪漫。

腾讯云智能生态计划

腾讯云智能,依托腾讯优图实验室、腾讯AILab、腾讯多媒体实验室、微信智聆、微信智言等腾讯顶级实验室的产品和技术能力,持续引入生态合作伙伴,共建智能生态。通过授权认证、商机共享、技术共建、平台助力、品牌升级、标杆打造等合作形式,帮助合作伙伴和客户高效打造针对性的解决方案,助力各行各业的数字化和智能化转型。

END

更多AI资讯,你可能感兴趣

WAIC 2023 | AI技能限时开放中,刷掌支付、数字分身、赛博编钟….速来打卡!

AI拥抱“海运守门人”

腾讯吴运声:人工智能与行业应用正展开一场“双向奔赴”的范式变革

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2023-07-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯云AI平台 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档