特别策划│延续与突破:2017年语义出版研究与实践回顾

本文刊载于《科技与出版》2018年第2期P33-38

如果您喜欢,欢迎转发至朋友圈

订购我刊,邮发代号:82-65

摘 要

语义出版作为学术出版的未来发展方向与前进路径,广受各方关注。2017年,借力人工智能理念与技术的发展,语义出版相关研究与实践得到了极大丰富。对这些研究进行综述,有助于把握语义出版未来发展方向,能够助力于学术出版的转型升级。本文在文献检索与网络调研的基础上,从理论、技术与实践三个角度对2017年语义出版相关研究与应用进行了综述。在综述的基础上,本文总结了当下语义出版研究的特点与问题,并对语义出版的未来发展进行了展望。

关键词

语义出版;出版本体;语义出版物;知识图谱;研究综述

01

引 言

科学交流是科研活动的重要环节,随着e-Science的发展,语义出版系统建设正在成为科学交流领域的新兴趋势[1]。语义出版是数字出版的高级形态,在内容资源从数字化向语义化和智能化转型升级过程中发挥着重要作用,对出版业发展知识服务业务具有十分重要的意义。近年来,语义出版发展迅速,研究与实践成果日益丰富[2]。特别是2017年,伴随人工智能理念与认知计算技术的普及与应用,语义出版理论、技术与实践都取得了一些新的进展。综合梳理语义出版领域的发展,有利于明确当前语义出版领域的问题及未来发展方向。

为了获得基础文献信息,我们利用Web of Science与中国知网进行了文献检索,将检索时间设定为2017年,以semantic publication、semantic publishing、语义出版等主题进行检索,并对检索结果进行筛选,剔除了不相关文献,最后共获得55篇高度相关的文献。本文以此55篇文献为基础进行了文献分析。此外,为了了解语义出版的实践情况,我们还进行了网络调研,对相关实践项目进行了归纳。在此基础上,本文从理论、技术与实践三个角度对2017年语义出版领域进展进行了概述。

02

语义出版基础理论研究

语义出版是一个新兴的跨学科研究领域,在探讨语义技术的应用路径与方式的同时,离不开对语义出版领域的理论探讨。2017年,语义出版理论研究较为丰富。王晓光、宋宁远等[3-5]在比较分析纳米出版物、微型出版物及增强型出版物模型的基础上,对语义出版物和增强型出版物模型的概念与差异进行了解析和定义,指出语义出版物模型是一种全新的出版物架构,主要用于增强出版物内容对机器的可理解性。增强型出版物则通过提高内容表达能力、关联外部资源等方式实现科学论文内容语义增强,其目标是提高读者对内容的理解程度。尽管两类模型的出发点不同,但是近年来语义出版物模型却正在向人机都可以读取的方向发展。苏静、曾建勋[6]研究了语义出版的基本表现形式,认为语义出版具备外部内容集成、内部内容增强、内部内容分析及数据融合四种表现形式。李航[7]探讨了语义出版对传统出版在评价机制、盈利模式及出版内容等方面的影响。张伟伟等[8]从宏观的期刊定位、微观的出版流程及具体参与者的角色转变等三个方面,分析了语义出版环境下学术期刊的发展,并对国内学术期刊的发展方向及路径进行了探讨。王莉莉等[9]从基础架构、应用环境、出版模式、作用效果等四个维度对动态语义出版与数字出版进行了对比分析,认为语义出版能够在多个领域得到广泛运用,尤其可以进一步提升科研工作者的知识发现与创新效率。Hallo Maria等人[10]提出了利用语义技术评价开放存取期刊的方法。Pellegrini等人[11]探讨了富语义元数据在出版业内的运用及其影响。Santarem Segundo等人[12]以VIVO平台的运用为例分析了语义网环境对科学合作网络的影响。

这些研究深化了语义出版概念,进一步明确了语义出版是以语义技术为基础,以实现文献内容语义化、智能化、关联化为核心,以满足用户信息与知识需求为目的的综合性、系统性工程,对知识服务与科学交流具有重大意义。同时,这些研究也显示发展语义出版的关键是促进文献内容的富语义化,实现多模态内容的机器可理解、可操作、可组织,进而提升用户的知识获取效率与理解效果。因此,为了促进语义出版进一步发展,在探索语义技术创新性应用的同时,更需要深化对科技文献内容语义结构和用户认知模式的理解。

03

语义出版技术研究

语义出版的发展离不开语义技术的丰富与成熟。2017年语义出版相关技术的研究主要集中在出版物本体建设、语义功能识别与标引、出版物内容语义组织等三个方面。

3.1 出版物内容本体建设

出版物内容本体揭示了出版物内容的语义结构和组成部分,是出版物内容深度语义标引的基础。2017年,出版物内容本体得到了学者的重点关注。李芳等人[13]对比分析了SPAR本体集与Nature本体,探讨了语义出版本体模型的构成。王晓光等人[14]从组件类型定义与关系定义两方面入手,对比分析了现有科学论文内容本体,识别已有的科学论文内容本体的不足。Sepideh Mesbah等人[15]提出了DMS(Dataset,Method,Software)本体通过对数据集、研究方法的定义,形式化表征了科学论文内容中的科研数据、数据来源、归属等语义信息。L.M.Ambrosio等人[16]在分析科学实验的基础上,对出处本体(Provenance ontology)进行了扩展,设计了用以描述科学实验过程的本体Prov-SE-O,同时构建了Context-SE框架,对实验过程情境信息进行表示与分析。

现阶段出版物内容本体研究力求多角度、多维度、多层次定义出版物内容组件,但较少有研究对这些本体进行评估,这就限制了这些本体的适用性,因此未来有必要对这些本体进行评估,同时还要探索出版物内容本体与学科领域本体的协同使用问题。

3.2 出版物内容语义识别与标引

出版物内容的语义功能识别与标引重点在于基于出版物内容本体和学科领域本体,将非结构化的出版物内容转化为带有语义标记的结构化数据。因此,需要对出版物内容进行自动的语义识别与标引。Sepideh Mesbah等人[15]在DMS本体的基础上,利用机器学习,构建了用以实现针对科学论文内容语义标引的方法体系,并在多个会议论文数据集上进行了测试。D.Bahloul[17]提出了一种基于本体的文献标引框架,在实现对知识表征与文档建模的基础上,用以对文本进行标引。Z.Kastrati[18]与M.Elhadad[19]分别设计了基于本体的文本分类方法,Z.Kastrati首先使用了一组本体对文本进行表示,在此基础上提出了适用于文本分类的方法。M.Elhadad在WordNet本体的基础上,综合运用VSM、TFIDF、PCA等算法,提出了面向网络文本的分类方法。WFang[20]提出了一套基于本体的标引方法,在语义标引的基础上实现文献检索。

此外,利用深度学习方法实现对科学文献内容的语义分割与识别也逐渐受到学者关注。Anitade Waard等人[21]针对语句层次的科学文献内容组件及其组成结构,使用RNN及LSTM构建了用以识别科学实验各个过程的模型。程齐凯等人[22]探讨了学术文本词汇语义功能的自动识别问题,提出了一种融合词法特征、句法特征、组件特征等信息的综合性识别模型。Jung Yuchul[23]设计了面向科学论文的语义标注框架,并利用有监督学习技术,对科学论文内容语义识别进行了初步探索。

目前,在文本分类、文本标引与文本搜寻等具体任务环境下,出版物内容本体的作用逐渐凸显,通常被用于内容语义识别与标引的基础。同时,深度学习等先进技术与方法的运用使得面向语句层次的科学文献内容语义识别更为精准,为语义出版的发展提供了新的契机。

3.3 出版物内容语义组织

实现语义出版除了需要对内容进行语义标引外,还需要对内容进行关联组织,甚至是设计全新的语义出版物模型来组织出版物内容。2017年翟珊珊等人[24]提出了利用语义出版技术实现非遗文化遗产资源关联共享的方案,指出语义出版技术能够有效建立细粒度知识单元与外部数据间的语义关联,并通过知识单元内容重组实现非遗资源共享。许鑫等人[25]提出了面向语义出版的学术期刊资源聚合模型与方法,力求解决学术期刊数字资源提供与科研用户信息需求间存在的矛盾。De Boer[26]介绍了ArchiMedes对实现建筑领域知识的富语义增强、关联集成与出版发布的作用与实现机制。Aslam等人[27]构建了SPedia知识库,借助关联数据对科技文献内部的高质量科研数据进行了语义关联,以三元组的形式进行存储,并支持SPARQL查询。Pavlovskiy[28]提出了利用科学活动概念实现科学论文内容语义组织的方法。

在语义出版物模型方面,廖建军[29]针对科研信息过载的问题,设计了分布式的纳米出版物知识服务模式。P.Sernadela[30]在纳米出版物模型的基础上,针对研究数据及知识的交换问题,设计了从生物医学文献中自动抽取并生成纳米出版物的方法。

目前,在这些研究的基础上,适用于语义出版领域的技术日益丰富,借助本体技术实现文献对象及其知识内容的语义描述,借助关联数据为出版物连接更多外部开放资源,已经成为开展语义出版工作的基础性工作,并逐渐形成了围绕特征描述、特征抽取及知识关联为基础的语义出版技术框架与实现路径,语义出版技术体系不断成熟。同时,语义出版的概念及相关技术已经渗透到多个领域,在图书馆资源建设、文化遗产资源组织等多个领域均有运用。

04

语义出版应用研究与实践

自语义出版概念提出之后,出版业界开展了一系列实践工作,开发了一定数量的开放数据集、语义出版物模型、知识库与应用系统[31],形成了一定的影响力。2017年,语义出版实践主要集中在纳米出版物建设上。同时,也有学术出版机构开始利用本体、关联数据、知识图谱等语义技术构建更加新颖的科学知识图谱。

4.1 纳米出版物建设

纳米出版物模型已经在多个领域的科研项目中得到了应用。在生命科学领域,Euretos[32]利用纳米出版物对科研数据及相关引文、贡献信息等进行了重新表示与存储,实现了单一科研数据的可操作。BEL2nanopub[33]等使用已有的主题词表及本体规范URI,提供了将BEL(Biological Expression Language)文档转化为纳米出版物的机制。在人文社会科学领域,EMTO(Early Modern Thought Online)[34]利用纳米出版物模型对近现代历史、哲学事实进行了表示;EMA(Enhancing Music Notation Addressability)[35]使用音乐领域结构化标准(Music Encoding Initiative,MEI),利用纳米出版物对音频文件、文本等多模态知识资源进行了细粒度语义组织,构建了适用于音乐领域语义检索与知识发现的知识库。目前,这些项目均取得了一定的成果,积累了丰富的结构化数据,可以用来支撑生物医学、数字人文等领域的知识发现与知识服务。

总的来说,纳米出版物模型呈现出应用场景多样化、组织资源多模态等特点,这表明纳米出版物模型已经被业界广泛接受。

4.2 科学知识图谱构建

科学知识图谱是科学领域智慧数据的表现形式,更是新型知识服务的数据基础,在2017年受到了斯普林格、微软等知名出版集团和互联网公司的重视[36]。SciGraph[37]、Microsoft Acdaemic Graph(MAG)[38]、Aminer[39]等新型知识图谱项目在2017年陆续得以开展。斯普林格·自然集团的科学知识图谱SciGraph,关联集成了科学论文内容信息、作者信息、题录信息、会议信息等,能够满足科研工作者对科学知识语义检索、查询结果可视化等需求。MAG由微软公司研发,关联集成了包括科学论文、作者、机构、会议及相关领域的数据,向科研用户提供精确的文献检索服务。清华大学的Aminer利用数据挖掘、自然语言处理、社会网络分析与挖掘等技术,构建科学知识图谱,向科研用户提供语义信息抽取、话题发现和趋势分析等在内的众多功能。MAG与Aminer还进行了合作,建构了规模更大的科学知识图谱Open Acdaemic Graph,用以支撑多类型资源的语义聚合搜索与呈现。

目前,科学知识图谱得到了业界的广泛重视,普遍被作为重要的语义出版产品加以开发与利用。构建面向科学领域知识图谱要全面整合多源、异构的领域知识与出版物内容,尝试将语义出版物模型整合到现有的知识图谱中,实现知识图谱的富语义化扩展,利用知识图谱推进语义出版的发展与科学交流体系的完善。

05

结 语

2017年,语义出版研究进展显著。语义出版基础理论研究成果逐渐丰富,技术体系日渐成熟,应用研究与实践也取得长足进步。新兴的科学知识图谱构建也成为语义出版前沿,标志着语义出版正在向知识网络建设稳步迈进。

在语义出版研究与实践取得显著进步的同时,还应看到语义出版仍面临众多问题:①出版物内容语义结构与功能基础理论研究薄弱,由此也限制了出版物内容本体设计,以及出版物内容语义自动识别与标引;②新型语义出版物模型研究不够深入,继纳米出版物模型和微型出版物模型之后,少有模型提出;③语义出版系统设计研究稀少,特别是用户视角下的语义增强和语义出版用户阅读环境研究尚未展开。

未来,从学术研究角度来看,要进一步深化基础理论,以科学论文为核心,深化其语义结构和功能研究,为出版物本体设计与自动标引奠定基础。从应用实践角度来看,要尝试构建新型语义出版物模型,并加大科学知识图谱的构建力度,为高级知识服务做好数据准备。

参考文献

[1] 王晓光,陈孝禹.语义出版的概念与形式[J].出版发行研究,2011(11):54-58.

[2] 王晓光.科学交流需要发展语义出版[J].数字图书馆论坛,2017(8):1.

[3] 王晓光,宋宁远.语义出版物的内容组织架构研究:基于纳米出版物和微型出版物的比较分析[J].出版科学,2017,25(4):20-27.

[4] 宋宁远,王晓光.增强型出版物模型比较分析[J].中国科技期刊研究,2017,28(7):587-592.

[5] 喻琪琛,王晓光.科学论文摘要语义增强形式调查研究[J].数字图书馆论坛,2017(8):8-15.

[6] 苏静,曾建勋.国内外语义出版理论研究述评[J].中国科技期刊研究,2017,28(1):33-38.

[7] 李航.浅析语义技术对传统出版的影响及发展策略[J].出版发行研究,2017(1):35-38.

[8] 张伟伟,李燕,赵文义,等.供给侧视域下的学术期刊数字出版发展路径[J].中国科技期刊研究,2017,28(2):151-155.

[9] 王莉莉,栾冠楠.英国广播公司(BBC)动态语义出版模式研究[J].图书情报工作,2017(8):126-132.

[10] Hallo M,Luján-Mora S,Maté A.Evaluating open access journals using Semantic Web technologies and scorecards[J].Journal of Information Science,2017,43(1):3-16.

[11] Pellegrini T.Semantic metadata in the publishing industry–technological achievements and economic implications[J].Electronic Markets,2017,27(1):9-20.

[12] Santarem Segundo J.E,Coneglian C.S,de Oliveira.L. Concepts and technologiesOf the semantic Web for academic-scientific cooperation:A study within theVivo platform[J].Transinformacao,2017,29(3):297-309.

[13] 李芳,纪姗姗,周毅,等.语义出版本体模型的构成分析:以SPAR本体和Nature本体为例[J].图书情报工作,2017(24):123-134.

[14] 王晓光,宋宁远.科学论文内容本体比较研究[J].数字图书馆论坛,2017(8):2-7.

[15] Mesbah S,Fragkeskos K,Lofi C,et al.Semantic Annotation of Data ProcessingPipelines in Scientific Publications[C]//14th Extended Semantic Web Conference(ESWC).2017:321-336.

[16] Campos F,Campos F.Prov-SE-O:a provenance ontology to support scientistsIn scientific experimentation process:WIP[C]//International Workshop on SoftwareEngineering for Science.IEEE Press,2017:15-21.

[17] Bahloul D,Amghar Y,Maret P.Ontology-Based Framework for Document Indexing[C]//International Conference on Enterprise Information Systems.2017:269-274.

[18] Kastrati Z,Yayilgan S Y.Improving Document Classification Effectiveness Using Knowledge Exploited by Ontologies[C]//International Conference on Applications of Natural Language to Information Systems.Springer, Cham,2017:435-438.

[19] Elhadad M K,Badran K,Salama G I.A novel approach for ontology-based dimensionality reduction for web text document classification[C]//Ieee/acis, International Conference on Computer and Information Science.IEEE,2017:373-378.

[20] Fang W,Guo Y, Liao W.Ontology-based indexing method for engineering documents retrieval[C]//IEEE International Conference on Knowledge Engineering and Applications.IEEE,2017:172-176.

[21] Dasigi P,Burns G A P C,Hovy E, et al.Experiment Segmentation in Scientific Discourse as Clause-level Structured Prediction using Recurrent NeuralNetworks。arXiv:1702.05398.

[22] 程齐凯,李信.面向语义出版的学术文本词汇语义功能自动识别[J].数字图书馆论坛,2017(8):24-31.

[23] Jung Y.A semantic annotation framework for scientific publications[J].Quality& Quantity,2017,51:1-17.

[24] 翟姗姗,许鑫,夏立新,等.语义出版技术在非遗数字资源共享中的应用研究[J].图书情报工作,2017(2):23-31.

[25] 许鑫,江燕青,翟姗姗.面向语义出版的学术期刊数字资源聚合研究[J].图书情报工作,2016(17):122-129.

[26] Boer R C D.ArchiMedes Publication and Integration of Architectural Knowledge[C]//IEEE International Conference on Software Architecture Workshops.IEEE,2017.

[27] Aslam M A,Aljohani N R.SPedia: A Central Hub for the Linked Open Data of Scientific Publications[J]. International Journal on Semantic Web&Information Systems,2017,13(1):128-146.

[28] Pavlovskiy I S.Using Concepts of Scientific Activity for Semantic Integration ofPublications[J].Procedia Computer Science,2017,103:370-377.

[29] 廖建军.基于Nanopublication的知识服务架构解析[J].图书情报工作,2017,61(17):131-138.

[30] Sernadela P,Oliveira J L.Automated nanopublications generation from biomedical literature[C]//Bioengineering.IEEE,2017:1-4.

[31] 徐雷.语义出版应用与研究进展[J].出版科学,2016,24(3):33-39.

[32] Euretos[EB/OL].[2017-12-29]http://www.phortosconsultants.com/index.php/euretos.

[33] BEL2nanopub[EB/OL].[2017-12-29]https://github.com/tkuhn/bel2nanopub.

[34] EMTO Nanopub[EB/OL].[2017-12-29]http://emto-nanopub.referata.com/wiki/EMTO_Nanopub.

[35] Enhancing Music Notation Addressability[EB/OL].[2017-12-29]http://mith.umd.edu/research/enhancingmusic-notation-addressability/.

[36] 宋宁远.面向智慧数据的科学知识图谱构建—以SciGraph为例[J].科技与出版,2017,36(11):17-19.

[37] SciGraph[EB/OL].[2017-12-30]http://www.springernature.com/cn/researchers/scigraph.

[38] Microsoft Academic Graph[EB/OL].[2017-12-30]https://www.microsoft.com/en-us/research/project/microsoft-academic-graph/.

[39] Aminer[EB/OL].[2017-12-30]https://www.aminer.cn.

|作者单位

王晓光1)2)宋宁远1)

1)武汉大学信息管理学院,430072,武汉;2)武汉大学信息资源研究中心,430072,武汉

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180313B17VEZ00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券