前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >知识图谱研讨实录10丨肖仰华教授带你读懂知识图谱的搜索推荐

知识图谱研讨实录10丨肖仰华教授带你读懂知识图谱的搜索推荐

作者头像
博文视点Broadview
发布2023-05-19 19:12:27
2950
发布2023-05-19 19:12:27
举报

知识图谱是一种大规模语义网络,已经成为大数据时代知识工程的代表性进展。

知识图谱技术是实现机器认知智能和推动各行业智能化发展的关键基础技术。由复旦大学肖仰华教授策划的《知识图谱:概念与技术》课程体系,已在国内进行了多次巡回演讲,受到参会人员一致好评。

课程主要目的和宗旨是系统讲述知识图谱相关知识,让同学们对知识图谱的理论和技术有一个系统的认知。本实录来自该课程老师和同学的研讨。

下面让我们通过第十三章《基于知识图谱的搜索与推荐》的14条精华研讨,来进一步学习了解知识图谱技术内幕。文末可查看更多章节精华回顾。

本课程配套教材《知识图谱:概念与技术》。

/ 以下为课程第13章《基于知识图谱的搜索与推荐》的研讨实录 /

1丨单纯基于统计行为的搜索与推荐存在哪些困难?

 同学代表性回答:

 回答1:

传统统计模型大多基于历史行为产生结果,对于不符合统计规律的用户,会被简单视为异常,无法获取用户背后的动机;用户意图理解难;精准匹配难;个性化服务难。

 回答2:

准确性和召回率方面存在一些局限性。

  • 对于不服从统计规律的用户,传统的统计模型只会简单地将其视为异常。
  • 传统模型由于数据匮乏难以捕捉个体行为背后的动机,只能将群体的行为特征简单地移植到个体上,因此只能提供千篇一律的服务。

 肖仰华老师:

这里需要多提几句,当前大部分搜索与推荐都是统计模型,但是统计模型的本质是抹杀个性的,虽然你可以将模型聚焦于特定的范围的群体,传统的搜索与推荐模型大都基于用户的历史行为来产生结果,从用户的历史搜索、点击、购物、浏览行为中,习得用户行为的统计规律。比如,大部分购买了 A 商品的人也购买了 B 商品,那么当用户 X 购买了 A 之后平台也倾向于把 B 推荐给 X。然而,即便大部分人的行为服从这一规律,对于特定用户 X 而言,他却未必在购买了 A 后还会购买 B。对于不服从统计规律的用户,传统的统计模型只会简单地将其视为异常。但事实上,任何用户的行为往往有其动机。传统模型由于数据匮乏难以捕捉个体行为背后的动机,只能将群体的行为特征简单地移植到个体上,因此只能提供千篇一律的服务,这样容易抹杀用户或对象的个体特性。虽然也存在大量的个性化模型,但它们也只是在一定程度上细化了统计模型的适用范围,难以改变其使用群体行为特征来服务个体的本质。

2丨 KG 对于改善搜索与推荐带来哪些新的机遇?

 同学代表性回答:

  • 知识图谱有助于完善对象的画像。
  • 知识图谱能发掘查询与答案之间的语义关联。
  • 知识图谱能为搜索与推荐提供可解释性依据。
  • 为用户的信息探索提供认知框架。

 肖仰华老师:

这里的总结是很好的,其实今年的很多论文就是在做这几个问题,比如有人将 KG 融入推荐,要么是在做可解释,要么是用 KG 增强用户或者商品的描述,为何用 KG 来增强表示是有道理的,就是我曾经说过的冰山现象,任何符号形式表达的数据都需背景知识支撑才能理解, KG 作为背景知识塞入各种model,现在已经越来越普及,本章的很多讨论都是学术界 还未深入研究的问题,大家顺着书中说到的思路去做,是有很多机会的。

3丨实体搜索的主要步骤有哪些?分别解决什么问题?

 同学代表性回答:

搜索意图理解:从用户提交的查询中识别出用户希望查找的目标实体。

目标查找:用查询语句或设计某种算法在知识图谱中查找出目标实体及其相关内容。

结果呈现:对查找到的结果进行实体排序,对结果内容进行合理的分类,再有组织地呈现给用户。

实体探索:拓展目标实体之外的相关内容,并向用户有效地呈现相关实体提升搜索多样性。

 肖仰华老师:

知识图谱在实际应用中早就用于搜索与推荐,但是学术界相应的研究极少,也就这两年基于 KG 的推荐多了起来,搜索还是不多的,所以你会发现这张章举例很多,但是方法很少,换句话说,这些例子背后的方法都有待深入研究。

4丨用户的搜索意图有哪些典型类别?意图理解有哪些具体任务?分别是什么内涵?

 同学代表性回答:

导航类意图:用户想访问的网址。

信息类意图:用户想获得的关于某个主题的信息。

事务类意图:目的是以网络为媒介的某种活动,如购物、下载互联网资源等。

主题分类:对候选的实体类别进行排序来求解实体搜索的主题分类。

语法解析:输出查询中关键词的词性标注或者语法修饰关系。

语义解析:输出查询中关键词对应的语义角色,比语法解析更加关注查询关键词之间的语义关联。

5丨实体的排序有哪些依据?

 同学代表性回答:

 回答1:

在知识图谱网络结构中的重要性,比如 PageRank 值作为实体排序的依据。实体的流行度,比如一个实体越流行,越有可能是用户期望看到的实体。

 同学代表性回答:

回答2:

①在知识图谱网络结构中的重要性:通常可以计算结果实体在知识图谱网络结构中的重要性。

②实体的流行度:一个实体越流行,越有可能是用户期望看到的实体。实体流行度有多种评估方法,可以用语料库提及该实体的频次,也可以用百科中相应词条的用户浏览次数评估。

③与查询的相关性:相关性可以通过P(e|c)进行度量。

 肖仰华老师:

这个问题也是没有充分研究的问题,大家如果能提出其他评价实体相关的维度,就是个不错的工作。

6丨搜索结果内容的分类与组织有哪些具体的关键任务?分别举例。

 同学代表性回答:

①对属性的重要性进行排序,以决定优先展现实体的哪些属性,如在高考期间搜索各大学,平台展现大学相关信息时,“历年录取分数线”、“优势学科与专业”就比“知名校友”、“相关新闻”等更应优先呈现。

②针对高频的实体类别(概念)人工设定关键属性,而对于低频的实体类别,则可以基于用户点击日志等挖掘该类别的关键属性,也可以尝试一些摘要生成技术,将相似技术结果聚类,并生成每个类别的摘要性描述。

7丨相关实体的相关性从哪些方面来度量?

 同学代表性回答:

  • 实体共现程度
  • 基于类型的相关性
  • 基于关系的相关性

8丨有哪些实体摘要的形式?主要思路分别是什么?

 同学代表性回答:

 回答1:

  • 文本式摘要

维基百科和百度百科这类百科网站中,词条项页面的信息框就是一种文本式摘要,搜索系统可以直接从中抽取摘要的文字信息反馈给用户;除此之外,也可以根据文本摘要生成方法从实体相关语料中自动生成摘要。

  • 图形化摘要

对相关实体或概念进行筛选、分类、组织与展示。一种方法是针对相关实体进行层次化聚类,并赋予类标签,使得用户可以按照浏览需要逐层探索相关实体;另一种方法是针对相关实体与目标实体的相关性进行排序,从而实现一种渐进式的展现方式。

 回答2:

  • 文本式摘要

如百度百科的infobox, 搜索系统可以直接从中抽取摘要的文字信息反馈给用户,也可根据文本摘要生成方法从实体相关语料中自动生成摘要

  • 图形化摘要

图形化摘要的关键问题是大多数相关实体通常需要经过筛选与组织后才能让用户更好地理解,有两类解决思路,第一类是针对相关实体进行层次化聚类,并赋予类标签,使得用户可以按照浏览需要逐层探索相关实体,第二类是针对相关实体与目标实体的相关性进行排序,从而实现一种渐进式的展现方式。

 肖仰华老师:

这两类摘要,全是研究问题,我就不展开讲了,我相信有同学以此为题在开展研究,如果能有用户反馈,比较炫的做法是用深度增强学习 ,自动决定图形式化展现形式,可以用用户交互的次数,作为reward,如果用户在你的图形摘要上,不断探索,说明你呈现的策略是正确的,则不断强化,就是个很好的博士、硕士课题,有兴趣的同学可以做做,因为我们有真实的交互探索系统大家可以体验的。

→  http://www.shuyantech.com/cndbpedia/ KG graph?entity=%E5%91%A8%E6%9D%B0%E4%BC%A6

9丨基于概念的实体推荐优化目标是什么?

同学代表性回答:

给定由一组实体代表的查询q,找出与q最相关的实体e,且产生一个概念C能解释相关实体与q中实体间的潜在联系,优化目标是寻找最相关的实体e,使得e的引入可以尽可能地保持q中原有实体的语义。

10丨推荐算法如何分类?各自的主要特点是什么?

 同学代表性回答:

① 基于协同过滤的推荐:根据用户之前的喜好或者与他兴趣相近的其他用户的选择来向该用户推荐物品。

② 基于内容的推荐:通过对用户的偏好特征和物品的描述特征进行提取,在特征表示的基础上计算用户与物品的匹配分值,从而实现准确的推荐。

③ 基于知识的推荐:核心是用户u与物品i的关联匹配,获得u与i的精确画像是匹配的前提。

11丨显式、隐式物品画像主要思路有哪些?

 同学代表性回答:

① 显式物品画像:

  • 基于属性向量的表示模型
  • 基于异构信息网络的关联模型

② 隐式物品画像:

  • 基于结构特征的图向量模型
  • 基于非结构特征的自动编码器模型

12丨知识图谱可以解决基于标签的用户画像中的哪些问题?分别举例。

 同学代表性回答:

 回答1:

① 标签不准确

如一段有关周杰伦结婚的新闻,只提到了“周董”这样的人物,只打“周董”的标签容易产生歧义,借助知识图谱可以识别出新闻中的人物是周杰伦,应该打上规范的人物标签“周杰伦”。

② 标签不完整

周杰伦结婚的新闻,利用知识图谱中的人物关系还应该补充“昆凌”与这一事件关系密切的人物标签。

③ 标签语义失配

比如“学生”这一标签代表的用户群体过于庞大,而“复旦大学研究生”这样的标签才能更清晰的表明用户身份。

 回答2:

① 标签不准确

例如,一个关于王宝强离婚案的新闻内容中只出现了名字叫“宝强”的人物,而只打上人物标签“宝强”容易产生歧义,借助知识图谱则可以准确识别出新闻中提及的人物是王宝强,因此应该为其打上规范的人物标签“王宝强”。

② 标签不完整

关于王宝强离婚案的新闻,利用知识图谱中的人物关系,可以补充“马蓉、宋赫”等与这一事件关系密切的人物标签,这些补充的标签能为后续的搜索、推荐等任务提供更直接、充分的依据。

③ 标签语义失配

一般来说,越具体的标签对用户或物品特征的刻画能力越强。例如,“篮球迷”标签代表的用户群体过于庞大,不足以精确刻画用户的个性化特征,而“姚明”、“科比”这样的标签才能清晰地表明用户是这些篮球明星的粉丝。但是过于精细的标签有时也易造成类似机器学习中的过拟合问题,标签必须进行适当泛化。

 肖仰华老师:

这部分内容来自我当时对知识图谱如何用在用户理解这个任务中,大家可以搜《基于知识图谱的用户理解》这个报告,报告中的讨论比书稿中还要多,事实上,这也是当前研究不多,但是极有价值的问题,很多企业落地做法就是这些做法,但是不像我们想像的那么elegant,大家也可以从这里寻找研究问题。

13丨知识图谱对于跨领域推荐带来哪些机会?

 同学代表性回答:

① 跨领域实体关联

POI 反应用户兴趣点,且作为实体存在与知识图谱中。知识图谱发现POI与用户喜好的物品间存在潜在关联。

② 跨领域的特征语义关联

利用知识图谱发现异构特征之间语义关联并实现推荐。

 肖仰华老师:

其实第一条是个很有意思的研究问题,我分享给大家,如何为POI找到相关实体,比如”西湖断桥“是个 POI,你能关联到哪些实体,把POI实体与非POI实体关联,是构建POI知识图谱的非常重要的一步,也是非常有商业价值的一步,将来你漫步到西湖断桥,系统就可以自动推送一段白素贞的故事,反过来,给非POI实体如何关联POI实体呢,在一个图上一些点标注了POI实体,一些没有,借助传播来补全,这是个什么问题?典型的 semi supervised graph learning,大家再套套现在流行的GNN做一些特征学习,你就完成了一个非常漂亮、非常实用的研究工作,希望大家抓紧做,如果有想做的联系我们,给大家提供真实数据。

14丨基于知识图谱的可解释推荐有哪些典型工作?

 同学代表性回答:

① 设计具有可解释性的推荐模型。

在设计模型时往往以用户挑选喜好物品的行为机制为出发点,为模型输入更多的可解释性特征,使得模型产生的推荐结果具备较强的可解释性。

② 为推荐结果寻找可解释的依据或原因,并通过合适的形式展现出来。

(完)

图书推荐

《知识图谱:概念与技术》

肖仰华 等 编著

本书力求涵盖知识图谱相关的基本概念与关键技术,总结了十多个知识图谱工程项目的落地经验。

本书紧密围绕知识图谱开展知识体系的梳理,尽量突出知识图谱与相关学科的差别,尽可能的为大家清晰地界定知识图谱与各分支学科的根本不同。本书注重知识图谱的整个知识体系,从最基础的基本概念、基础理论到设计、技术、模型、方法都做了全面的介绍。

(扫码了解本书详情)

 ▶ 研讨实录回顾  

代码语言:javascript
复制
如果喜欢本文欢迎 在看丨留言丨分享至朋友圈 三连

 热文推荐  
阿里云技术团队原创力作震撼上市,强力解析云上Kubernetes!如何为 MySQL 选择 CPU?
书单丨无惧停机故障,数据库异常不可怕
Python之父加入微软,一开口就知道是老“凡学家”了

点击阅读原文,了解本书详情~

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-12-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 博文视点Broadview 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
灰盒安全测试
腾讯知识图谱(Tencent Knowledge Graph,TKG)是一个集成图数据库、图计算引擎和图可视化分析的一站式平台。支持抽取和融合异构数据,支持千亿级节点关系的存储和计算,支持规则匹配、机器学习、图嵌入等图数据挖掘算法,拥有丰富的图数据渲染和展现的可视化方案。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档