专栏首页arxiv.org翻译专栏通过将语义和统计技术结合来动态丰富网络主体(cs.CL)
原创

通过将语义和统计技术结合来动态丰富网络主体(cs.CL)

通过将语义和统计技术结合来动态丰富网络主体(cs.CL)

翻译:伴随着语义网技术的发展,开始更多使用本体来存储和提取覆盖多个领域的信息。但是,很少有本体能够处理得当不断更新的语义信息日益增长的需求,亦或是针对专业领域用户的具体需求。因此,现今最大的问题就在于无法使用不同概念之间相关联的信息,也是所谓的丢失的背景知识。针对这种问题的一个解决方案就是通过领域专家来人力丰富主体,但这是一个消耗时间和成本的过程,因为这就产生了对动态主体丰富的需求,在这篇论文里我们将展现一种自动地结合统计语义框架用于动态地丰富来自于万维网的大范围通用主体。使用编码于网站上的文章的大量信息充当语料库,丢失的背景信息因此能够通过语义关联性测量和模式学习技术的组合来挖掘得到,并且用于之后进一步开发。我们方法的优势在于:1、提出了一种动态丰富存在缺失背景知识的大范围通用主体的方式,并且同时来实现了这类知识的重复使用。2、解决了需要领域专家人工丰富主体的成本较大的问题,实验结果经过了精确评估,展现了我们提出技术的有效性。

原文题目:Coupling semantic and statistical techniques for dynamically enriching web ontologies

原文:With the development of the Semantic Web technology, the use of ontologies to store and retrieve information covering several domains has increased. However, very few ontologies are able to cope with the ever-growing need of frequently updated semantic information or specific user requirements in specialized domains. As a result, a critical issue is related to the unavailability of relational information between concepts, also coined missing background knowledge. One solution to address this issue relies on the manual enrichment of ontologies by domain experts which is however a time consuming and costly process, hence the need for dynamic ontology enrichment. In this paper we present an automatic coupled statistical/semantic framework for dynamically enriching large-scale generic ontologies from the World Wide Web. Using the massive amount of information encoded in texts on the Web as a corpus, missing background knowledge can therefore be discovered through a combination of semantic relatedness measures and pattern acquisition techniques and subsequently exploited. The benefits of our approach are: (i) proposing the dynamic enrichment of large-scale generic ontologies with missing background knowledge, and thus, enabling the reuse of such knowledge, (ii) dealing with the issue of costly ontological manual enrichment by domain experts. Experimental results in a precision-based evaluation setting demonstrate the effectiveness of the proposed techniques.

原文作者:Mohammed Maree, Mohammed Belkhatir

原文地址:https://arxiv.org/abs/2004.11081

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 针对网上资源分配机制设计的统一方法(cs.GT)

    这篇论文是关于网上资源分配在战略制定方面的机制设计。在该设定中,一个单独的供应者通过分配有限量的资源以求资源以顺序任意的方式到达。代理者则与每一个请求息息相关。...

    Donuts_choco
  • 多目标进化算法应用于提高医药数据领域学习器的性能(CS AI)

    原文标题完整翻译:多目标进化算法应用于提高在医药数据领域使用整体特征选择和离散化模型的学习器的性能

    Donuts_choco
  • 通过排序融合技术减轻推荐偏见(cs.SI)

    推荐系统最基本的目标被认为是“帮助用户找到相关品项”,并且大量的推荐算法也都是依次提出的。但是,这些基于准确率的方法经常面临着偏重于潮流商品的问题。这个问题不仅...

    Donuts_choco
  • 使用深度神经网络对超深电磁测井进行建模(CS.CE;CS.LG)

    现代的地理导航技术在很大程度上依赖于对深部电磁(EM)测量结果的实时解释。该工作提出了一种深度神经网络(DNN)模型,该模型经过训练,能够再现完整的超深度实时电...

    用户7236395
  • The Address of an Array

    青木
  • 在COVID-19爆发期间,Twitter上低可信度信息的流行(CS CY)

    随着这种新型冠状病毒在世界范围内传播,人们关于它的错误信息过分传播的担忧也在增加。在这里,我们评估了疫情爆发期间Twitter上低可信度信息链接的流行程度,以及...

    奥斯特洛夫斯萌
  • poj-1989 The Cow Lineup

    The Cow Lineup Time Limit: 1000MS Memory Limit: 30000K Total Submission...

    ShenduCC
  • C++核心准则E.25:如果不能抛出异常,模仿RAII方式进行资源管理

    Even without exceptions, RAII is usually the best and most systematic way of dea...

    面向对象思考
  • 周练19.11.24

    While playing with geometric figures Alex has accidentally invented a concept of...

    AngelNH
  • Solution for wear-leveling

    Flash is a type of electrically-erasable programmable read-only memory (EEPROM) ...

    瓜大三哥

扫码关注云+社区

领取腾讯云代金券