首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

论知识细粒度与 中国知网知识元服务的融合发展

随着社会发展和技术进步,信息检索方式已经由传统的手工检索转变为机械检索,再发展到计算机检索。而互联网技术的迅速发展,使得网络信息检索成为用户获取互联网信息的重要渠道,搜索引擎已经成为了网络时代用户查询信息的首选。于是,搜索引擎的易用性和有用性、检索结果的全面性和准确性成为了衡量检索质量的重要指标。但是,当面对着互联网庞杂信息资源的时候,用户往往会陷入“淹没于信息海洋,面对着知识饥荒”的漩涡,用户更希望能快捷、准确、可靠地获取到自己所需要的知识。

一、知识细粒度与知识元内涵

1.知识细粒度发展

用户查询和文献资源获取,其实是希望从文献资源中获取有益于学习、工作和生活的知识。传统文献资源检索往往以文献的篇名、关键词、摘要匹配用户输入的检索词,而这些检索项只能反映了文献的部分内容,其检索结果也以文献输出为主。

我们将大粒度称为文献资源,而细粒度指的是文献中蕴含的一个个知识元。细粒度是相对于大粒度的文献资源而言的,一方面,从物理载体上看,其占用的存储量和字节数相比文献资源较小;另一方面,从语义内容上看,其涵盖的语义概念相比文献资源较少。知识细粒度发展是指将文献资源中具有一定意义和价值的概念、公式、图表、数据等较小粒度的知识元挖掘出来,通过一定的技术方法加以科学组织和利用。

2.知识元内涵

因此,学者们对深入到文献资源的内部,对细粒度知识元层面的信息检索问题进行了深入研究。温有奎等认为:主题可再分为描述事实数据公式等的最小知识单位,称为知识元。文庭孝认为知识元是指文献中相对独立的、表征知识点的一个元素,它可以是一段文字、一幅图表、一个公式、一段动画等,也往往直接指知识产品中的概念、论点、论据、论证方法、 模型、结论等知识核心和知识创新点。由此得知,将文献资源中包含的有意义、有价值的事实、概念、数据以细粒度知识元形式挖掘出来,对文献中的知识元予以标注、组织和检索,以满足用户知识需求的精细化。一篇文献资源中往往包含有多个不同类型的知识元,而这些知识单元并不一定能够完全在文献标题上显示出来。

二、知识细粒度与中国知网知识元服务的融合

中国知网在国内属于较早对文献中知识元进行开发的数据库之一,笔者结合自身的使用经历,从以下几个方面简要概述:

1.文献全文检索

全文检索是将运用全文索引技术对文献的全部知识内容进行描述标引,有利于在文献内容中发现更多有用的信息。相比“篇名”“主题”“关键词”等检索项,全文检索的查全率是最高的。虽然查准率稍微低一些,但是中国知网采取了一站式检索和高级检索相结合的方式,又提供了相关度排序、文献类型和学科筛选等结果优化,使查准率进一步提升。

2. 概念知识元库

当用户想获取对某一概念更加多元化、专业性解释的时候,概念知识元库就可以发挥重要的作用。概念知识元库是知识细粒度的典型应用,中国知网将文献资源中涉及的概念知识元标引出来,提供给用户不同形式、不同学科、不同视角的概念诠释。

3.数字搜索

数字搜索在信息检索领域中属于事实检索范畴,其目标是直接获取所需的事实信息。中国知网的数字搜索将文献资源中所涉及的数据知识元标引出来,使用户可以直接获取到文献中所包含的数据,同时提供原文链接以备参考,体现了“数据也是一种资源”和“一切用数据说话”的思想理念。

4.学术图片库

同样,中国知网也将学术文献中的图片知识元进行了提取,用户通过搜索图片的主题即可以直接检索到深入到文献内部的图片中,同时可以通过图片类型、色彩、学科等多项检索条件控制,帮助用户寻找到最合适的学术图片,并能够“按图索骥”发现图片来源文献。

5.翻译助手

当我们想获取外文文献而求助于外文数据库时,外文检索词的选取是一个至关重要的环节,它直接关系着能否检索出相关英文文献。而用户在将所需要的检索词翻译成外文时,往往会出现由于不熟悉该检索词在国外的通识表达而造成检索效果不理想的情况。中国知网翻译助手挖掘文献中对特定词汇翻译的知识元,从而帮助用户获取到全面、专业、可追溯来源的学术翻译。

三、知识细粒度与中国知网知识元服务的发展

如上所述,中国知网在知识的细粒度开发和知识元服务方面已经处于国内领先的水平。为使服务得到更好的发展,笔者结合理论文献和个人理解,提出可供参考的知识元服务优化方向。

1.基于多粒度知识元的文献资源深度聚合

第一层次,我们需要将大粒度的文献资源碎化为具有参考价值的细粒度知识元,也就是将知识元从文献资源中挖掘出来,这个过程需要计算机技术方法与专家智慧的结合,并对数字资源内容进行深度地语义挖掘与理解揭示。第二层次,我们需要将这些挖掘出来的知识元进行深度聚合,语义知识元的深度聚合有助于将不同主题学科、不同内涵外延、不同属性关系的知识内容进行识别、标识和关联,可以呈现给用户树状发展、网状交织的知识脉络分析图,可以帮助用户发现更多适用的相关知识与资源。第三层次,对多粒度知识元的分层组织。在网络资源中存在着不同粒度的信息资源,这些资源粒度介于大粒度文件和小粒度知识元之间,比如微信息、微数据、微视频、微博客等。如果能够将多类型、多粒度的信息资源统一加以科学组织与呈现,既可以减少频繁搜索的麻烦,又可以方便用户整体的知识感知。最后,不得不说对于数字资源库来讲,仍是“资源为王”的时代,但是更加优化的服务能够帮助用户更好地发现、利用、激活这些资源,从而发挥资源的价值。

2.基于用户认知意图的文献资源检索与服务

根据用户认知意图提供个性化、主动化的文献资源服务一直是学界和业界所追求和努力的目标,我们需要广泛而全面地进行数字资源用户目标、行为和态度的调查与描述,而后深入而细致地进行用户数据和资源的编码归纳与统计分析,再进行聚类并凝练归结至多群体的用户角色模型。这一点类似于网络分析中的“用户画像”,在对用户角色模型充分分析描绘的基础上,能够尽可能减少主观臆测,理解用户行为特征是什么,理解用户真正想要什么,能够深入解释并理解用户群体差异化的行为规律,从而知道如何更好为不同类型用户群体服务,并在此基础上设计针对性、适用性的数字资源服务。对于中国知网来说,机构用户占有很大比例,机构用户之间总是存在着群体差异,可以在此基础上进一步通过角色群体划分,识别、聚焦于目标用户群,进而更准确地设计符合目标对象理想中的数字资源服务功能与差异化模式。

3.面向用户问题解决的知识参考与知识服务

数字资源的核心工作不仅仅是拥有资源、传递信息,而是要引导、促进用户充分利用资源,在资源充分挖掘与分析的基础上为用户提供有价值的知识参考服务,促进用户的问题解决。对用户来说,不仅仅是希望获得有参考价值的文献资源,更希望得到有助于解决学习问题的、专业化的知识方案。应从以下三方面展开:

第一,资源集成与知识挖掘。当用户需要某领域的专业化知识方案时,服务方要通过多种方式灵活地对数据库中相关资源(多载体、多类型、多语言)进行集成与整合。在资源的基础上融入知识元挖掘分析,实现以知识元为目标的数字资源内容的深度挖掘、理解、关联和重组,实现由资源内容向知识元内容的转变。

第二,交互式和嵌入式用户服务。为用户提供专业化的知识解决方案也需要适用于用户的问题情境中,从而使知识服务过程与用户知识环境能有机融合。可以通过多种虚拟交互方式融入用户的学习环境中,积极交互、协助引导,有效地发掘用户显性和隐性的、动态式的知识需求,提供合适的知识服务产品。

第三,“量体裁衣”式服务产品。服务产品的形成源于资源与技术的集成,融入了专家的智慧内涵,嵌入了用户的科研过程、捕获了用户的动态知识需求。所以这种服务产品不是统一、标准的,而是个性、适用的,所以是一种针对用户动态需求而提供最优知识解决方案的“量体裁衣”式服务产品。

四、结语

在文献资源的知识化组织、整合和服务阶段,中国知网已经处于国内领先水平。相信中国知网能够在此基础上,进一步发挥企业创新能力,关注用户需求和用户体验,推进服务的个性化、主动化、移动化和知识化,取得更高的发展成就。

作者:上海大学图书情报档案系 王毅

文章为作者授权稿件,转载请标注。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180103G0EDLP00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券