首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

数据分析与数据挖掘 - 09邻近算法

邻近算法又叫做K临近算法或者KNN(K-NearestNeighbor),是机器学习中非常重要的一个算法,but它简单得一塌糊涂,其核心思想就是样本的类别由距离其最近的K个邻居投票来决定。现在假设我们已经有一个已经标记好的数据集,也就是说我们已经知道了数据集中每个样本所属于的类别。这个时候我们拥有一个未标记的数据样本,我们的任务是预测出来这个数据样本所属于的类别。显然邻近算法是属于监督学习(Supervised Learning)的一种,它的原理是计算这个待标记的数据样本和数据集中每个样本的距离,取其距离最近的k个样本,那么待标记的数据样本所属于的类别,就由这距离最近的k个样本投票产生。在这个过程中,有一个动作是标记数据集,这一点在企业中一般是有专门人来负责标记数据的。

02

【赛尔原创】如何自动地向知识图谱中添加属性?

摘要:属性是实体的重要组成部分,因此如何自动获取实体的属性一直为知识图谱领域的研究者所关注。由哈尔滨工业大学社会计算与信息检索研究中心推出的开放域中文知识图谱《大词林》是通过从文本中自动挖掘实体及实体间的关系而构建而成,因此如何自动为实体添加属性也必然成为构建《大词林》所必须研究的问题之一。本文通过学习《大词林》中实体的概念层次结构和属性的表示,提出了一种基于注意力机制的属性自动获取方案。其想法可简述为,实体的属性可以通过检查它的概念类别来获得,因为实体可以作为它的概念类别的实例并继承它们的属性。实验结果显示,我们的方法能够为《大词林》中的实体自动添加属性,最终可以使大词林中实体属性的覆盖率达到95%以上。

03
领券