首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Aeneas:用AI为古铭文研究提速

Aeneas:用AI为古铭文研究提速

原创
作者头像
用户11764306
发布2026-06-10 11:17:11
发布2026-06-10 11:17:11
1360
举报

2025年7月23日 研究

Aeneas 改变历史学家连接过去的方式

Aeneas 团队

介绍首个用于古铭文语境分析的模型,旨在帮助历史学家更好地解读、归因和修复残缺文本。

在古罗马世界,文字无处不在——从帝国纪念碑到日常物品上都有镌刻。从政治涂鸦、爱情诗歌、墓志铭,到商业交易、生日邀请函和魔法咒语,铭文为现代历史学家提供了了解古罗马日常生活多样性的丰富视角。

这些文本常常残缺不全、风化严重或被蓄意损毁。没有上下文信息,几乎不可能对它们进行修复、定年和定位,尤其是在比较相似铭文时。

今天,我们在《自然》期刊上发表论文,介绍 Aeneas——首个用于古铭文语境分析的人工智能模型。

在处理古代铭文时,历史学家传统上依靠自身专业知识和专门资源来识别“平行文本”——即在措辞、句法、标准化公式或出处上相似的文本。

Aeneas 极大地加速了这一复杂且耗时的工作。它能对数以千计的拉丁铭文进行推理,在几秒钟内检索出文本和上下文的相似之处,让历史学家能够解读并基于模型的发现开展进一步研究。

该模型还可适配其他古代语言、文字和媒介(从纸莎草纸到钱币),扩展其能力,帮助在更广泛的历史证据之间建立联系。

Aeneas 是与诺丁汉大学共同开发,并与华威大学、牛津大学和雅典经济与商业大学的研究人员合作完成的。这是一项更广泛探索生成式AI如何帮助历史学家大规模识别和解读相似文本的工作的一部分。

为了让这项研究惠及更多人,我们在 predictingthepast.com 上免费向研究人员、学生、教育工作者、博物馆专业人士等提供 Aeneas 的交互版本。为了支持进一步研究,我们也开源了代码和数据集。

Aeneas 的高级能力

Aeneas 以希腊罗马神话中四处流浪的英雄命名,构建于我们之前用于修复、定年和定位古希腊铭文的 Ithaca 模型基础之上。

Aeneas 更进一步,帮助历史学家解读文本并赋予其语境,为孤立的碎片赋予意义,得出更丰富的结论,并拼凑出对古代历史更深入的理解。

该模型的高级能力包括:

  • 相似文本搜索:在大规模拉丁铭文集合中搜索相似文本。通过将每段文本转化为一种历史指纹,Aeneas 能够识别深层联系,帮助历史学家将铭文置于更广阔的历史背景中。
  • 处理多模态输入:Aeneas 是首个利用多模态输入判断文本地理来源的模型。它同时分析文本和视觉信息(如铭文的图像)。
  • 修复未知长度的缺损:Aeneas 首次能够修复文本中缺失长度未知的缺损部分。这使得它成为历史学家处理严重损毁材料时更通用的工具。
  • 最先进的性能:Aeneas 在修复受损文本以及预测其书写时间和地点方面树立了新的标杆。

Aeneas 的工作原理

Aeneas 是一个多模态生成式神经网络,以铭文的文本和图像作为输入。为了训练 Aeneas,我们整理了一个大规模且可靠的数据库,借鉴了历史学家数十年来创建数字集的工作成果,特别是罗马铭文数据库、海德堡铭文数据库和克劳斯-斯拉比铭文数据库。

我们清理、统一并关联了这些记录,形成了一个可机器操作的数据集,称为拉丁铭文数据集(LED),其中包含来自古罗马世界的超过 17.6 万条拉丁铭文。

该模型使用基于 transformer 的解码器处理铭文的文本输入。专用网络负责利用文本进行字符修复和定年,而地理归因还利用了铭文的图像作为输入。解码器从 LED 中检索相似的铭文,并按相关性排序。

对于每条铭文,Aeneas 的语境化机制使用一种称为“嵌入”的技术检索一系列相似文本——将每条铭文的文本和上下文信息编码成一种历史指纹,包含文本内容、语言、时间和来源地以及与其他铭文关系的细节。

最先进的性能

Aeneas 对铭文按书写时间的聚类清晰度远高于其他同样在拉丁语上训练的通用模型。

Aeneas 在修复受损铭文时,对于最多十个字符的缺损,Top-20 准确率达到 73%。即使修复长度未知(这是一项极具挑战性的任务),准确率也仅降至 58%。该模型还能以可解释的方式展示其推理过程,提供显著图,突出显示输入的哪些部分影响了预测。借助视觉数据,该模型能够以 72% 的准确率将铭文归因到 62 个古罗马行省之一。在定年方面,Aeneas 将文本的年代范围推测在历史学家提供的年代区间前后 13 年以内。

为历史争论提供新视角

为了在持续的研究争论中测试 Aeneas 的能力,我们给了它最著名的罗马铭文之一:《奥古斯都功业录》,这是奥古斯都皇帝以第一人称写下的自述。

历史学家长期以来对该铭文的定年存在争议。Aeneas 并没有预测一个单一的固定日期,而是生成了一个详细的可能日期分布,显示出两个明显的峰值:一个较小的峰值在公元前 10-1 年左右,另一个更大、置信度更高的峰值在公元 10-20 年之间。这些结果以量化的方式涵盖了两种主要的定年假设。

Aeneas 的预测基于细微的语言特征和历史标记,如文本中提到的官方头衔和纪念碑。通过将定年问题转化为基于语言和上下文数据的概率估计,该模型为参与长期存在的历史争论提供了一种新的量化方式。

更重要的是,Aeneas 还从与奥古斯都遗产相关的帝国法律文本中检索了许多相关的相似文本,凸显了帝国意识形态是如何跨媒介和地理区域被复制的。

通过协作推进历史研究

为了评估 Aeneas 作为研究辅助工具的影响,我们进行了一项大规模的历史学家与AI协作研究。我们邀请了 23 位经常处理铭文的历史学家,使用 Aeneas 来修复、定年和定位一组文本。

评估表明,当历史学家同时使用 Aeneas 的上下文信息及其修复和归因预测时,取得了最有效的结果。

Aeneas 帮助参与研究的历史学家发现了新的相似文本,并提高了他们在处理复杂铭文任务时的信心。历史学家一致强调 Aeneas 在加速工作和扩展最相关平行铭文范围方面的价值。

“Aeneas 提供的相似文本完全改变了我对这段铭文的看法。它注意到了那些对修复和定年归因起到决定性作用的细节。”—— 参与研究的匿名历史学家

共享工具,塑造未来

Aeneas 旨在融入历史学家现有的研究工作流程。通过将专家知识与机器学习相结合,它开启了一种协作过程,提供可解释的建议,成为历史探究的宝贵起点。

作为本次发布的一部分,我们还升级了古希腊铭文模型 Ithaca,使其由 Aeneas 驱动,并包含语境化功能、未知长度缺损修复以及更好的整体性能。

我们还共同设计了一套新的教学大纲,用于在课堂上连接技术技能与历史思维。该大纲符合多项AI素养倡议。

Aeneas 团队正继续与各领域的专家合作,利用 Aeneas 揭示古代历史的更多面貌——更多成果敬请期待。

了解更多关于 Aeneas 的信息

阅读论文 | 试用 Aeneas | 获取代码和数据集 | 阅读意大利语博客 | 阅读希腊语博客

致谢

该研究由 Yannis Assael 和 Thea Sommerschield 共同领导。贡献者包括:Alison Cooley、Brendan Shillingford、John Pavlopoulos、Priyanka Suresh、Bailey Herms、Jonathan Prag、Alex Mullen 和 Shakir Mohamed。Aeneas 网络界面由 Justin Grayston、Benjamin Maynard 和 Nicholas Dietrich 开发,并由某机构云平台提供支持。教学大纲由比利时根特 Sint-Lievenscollege 的 Robbe Wulgaert 开发。FINISHED

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档