文档解析测评工具中表格指标的意义
TextIn发布了文档解析测评工具,https://github.com/intsig/markdown_tester ,定量测评文档解析还原的效果。
本文来解析其中的表格指标部分。
为何表格是解析任务中的重点?
在语料源头,含表格的文档相当普遍。论文、年报、财报、行业报告、法律文件及企业文档等文件类型中,表格往往包含重要且精密的数据或信息。表格解析在知识库搭建及RAG(Retrieval-Augmented Generation)系统建设等应用场景中至关重要。
表格解析对RAG系统性能提升的贡献:
表格多样性和复杂性的问题:表格样式的复杂多变,包含无线表、合并单元格、跨页表格、超密集表格、不规则表单及单元格内多行文字的还原等,增加了解析难度。扫描模糊或倾斜、手写内容等因素进一步提高了解析的复杂性。
直接观感:
定量计算标准:
在表格解析评估中,如果解析引擎提供的表格结构与实际结构完全一致,则表格结构树状编辑距离为0,即得满分100。该指标得分越高,意味着表格结构还原度越好,错误如错行、漏行或合并单元格问题越少。
表格树状编辑距离的定义如下:所有表格树编辑距离分数之和(包含文字)除以总表格数量。该指标结合了文本全对率与结构准确度,整合了测评表格解析结果的准确程度。
通过几个案例,直观感受表格解析效果。 下图中,表格数据未能解析为各列一一对应的格式。如果大模型获得这样的解析结果,必然无法在此基础上提取准确的参数信息,无法建立正确的分析或回答。
对比来看,正确解析的表格在无框线、合并单元格的情况下,准确还原文本内容及各单元格结构关系,为RAG系统提供高质量的信息基础。