【CQA论文笔记】基于异构社交网络学习的社区问答方法,同时建模问题、回答和回答者

【导读】传统的社区的问答(CQA)仅对问题和答案的内容进行编码,为问题准确地匹配高质量的回答。这篇文章提出使用社区中用户的交互信息进行嵌入,借助了异构社交网络中大量的社交信息来缓解了CQA任务的稀疏性问题,辅助解决CQA任务。提出的框架协同地利用问题、回答和回答者之间的交互关系来学习回答的相对质量。另外,使用深度随机游走框架来充分利用异构社交网络中的信息,来提升问答匹配的效果。在大规模真实CQA数据上的实验表明,借助异构社交信息,提出的算法超过了当前最好的CQA算法。

【AAAI2016 论文】Community-Based Question Answering via Heterogeneous Social Network Learning

▌摘要

基于社区的问答(CQA)网站长期积累了海量的问题和基于众包的答案,如何有效地从高质量的答案中获取有价值的知识成为一个热点研究问题。如何为问题准确地匹配高质量的回答是CQA任务的一个主要挑战。许多传统的任务仅通过内容相似性来推荐答案,这些方法受到CQA数据稀疏性的影响。

在本文中,作者提出一种新奇的框架,它不仅对问题和答案的内容进行编码,并且对社区中用户的交互信息进行编码,来辅助解决CQA任务。框架协同地利用问题、回答和回答者之间的交互关系来学习回答的相对质量。另外,作者使用深度随机游走框架来充分利用异构社交网络中的信息,来提升问答匹配的效果。在大规模真实CQA数据上的实验表明,借助异构社交信息,提出的算法超过了当前最好的CQA算法。

▌贡献

这篇文章的贡献点如下:

1. 与传统的基于内容的方法不同,文章提出了一个新奇的框架HSNL,它借助了异构社交网络中大量的社交信息来缓解了CQA任务的稀疏性问题,还利用了不同答案的相对质量信息。

2. HSNL使用随机游走来利用异构社交网络中蕴含的信息。它可在大规模网络上并行执行,因为每次训练只依赖网络中的一小部分数据。

3. HSNL中使用了深度学习模型,它可以直接计算问题和回答的匹配度。同时,可以学到问题、回答和用户的特征,这些特征可以被用于其他许多的CQA任务,例如问题检索和专家发现。,

▌异构网络

下图展示了CQA中的社交异构网络。网络中有三种节点(问题、回答和回答者),网络包含了它们之间的关系信息。可以看出,问题和回答之间的连接比较稀疏(4个问题互相之间没有连接,且只有回答2和回答3 )。HSNL有效地利用了网络中蕴含的丰富的交互信息,例如,对于同一个问题,不同用户给出的高质量回答和低质量回答之间的差异,以及用户之间的关注信息。这些丰富的交互信息对CQA任务很有用。

▌流程

  • 文本内容特征学习

HSNL使用LSTM来对文本特征进行编码,由于问题和回答往往包含多个段落,每个段落包含一个或多个句子,作者将问题或回答切分为多个句子,用LSTM对每个句子进行embedding,最后用一个max-pooling层将多个句子的embeddings合并为一个embedding。

  • 利用异构社交网络

HSNL的整体框架图下图所示。

首先,HSNL利用Random Walk采样大量的节点序列,如上图(b)所示。首先,HSNL利用Deep Walk为每个回答者预训练了一个低维表示。然后,HSNL在序列上使用滑动窗口进行扫描,对每个窗口内的问题、答案和回答者节点做了如下约束:

其中,+表示比-更相关的匹配,s是相似度计算函数:

前两个式子是标准的triplet loss,例如第2个式子的意思是“问题vi与回答q+的相似性要大于问题vi与回答q-的相似性”。这里使用的是类似SVM的Max-Margin Loss,在第二个公式中,用一个固定值m作为margin的大小,而在第一个公式中,margin的大小被表示为m*α,margin的大小会根据不同的情况改变,当a-是一个无关的回答时,α被设置为1,当a-是一个低质量的回答时,α被设置为:

整个模型都可以使用随机梯度下降(SGD)来求解。整个算法的伪代码如下所示:

▌实验

HSNL试用了nDCG、Precision和Accuracy三种指标来对算法进行评价,在每种指标下,效果都不错。

论文链接:

https://dl.acm.org/citation.cfm?id=3015831

https://www.aaai.org/ocs/index.php/AAAI/AAAI16/paper/download/11903/11573

原文发布于微信公众号 - 专知(Quan_Zhuanzhi)

原文发表时间:2018-03-23

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

存在比深度学习更好的技术吗?有人说脉冲神经网络和哥德尔机器

【新智元导读】 什么比深度学习更好?由此引出深度学习的三大局限性:缺乏解释性、缺乏迁移能力以及巨大的计算资源消耗。什么比深度学习更好?脉冲神经网络和哥德尔机器...

36560
来自专栏AI科技大本营的专栏

资源 | 普通程序员如何自学机器学习?这里有一份指南~

机器学习工程师自学指南! 本文将会介绍机器学习的方方面面,从简单的线性回归到最新的神经网络,你不仅仅能学会如何使用它们,并且还能从零进行构建。 以下内容以计算机...

36660
来自专栏AI科技大本营的专栏

课程 | 工程大咖带你入门深度学习+TensorFlow

《深度学习基础与TensorFlow实践》 AI100学院有幸邀请到《深度学习原理与TensorFlow实践》作者之一、百纳信息公司AI方向负责人王琛老师6月...

35150
来自专栏新智元

国家“千人”王中风教授:如何满足不同应用场景下深度神经网络模型算力和能效需求

作者:王中风 【新智元导读】 基于神经网络的深度学习算法已经在计算机视觉、自然语言处理等领域大放异彩。但是,诸如 VGG、ResNet 和 Xception 等...

45860
来自专栏新智元

【深度解密】量子机器学习的研究进展

作者是来自英国布里斯托大学的量子工程中心研究员,布里斯托大学在量子力学和量子计算方面有很强的建树,诺贝尔物理学奖获得者、量子力学的奠基者之一保罗·狄拉克,中国科...

777100
来自专栏PPV课数据科学社区

【学习】关于推荐系统中的特征工程

在多数数据和机器学习的blog里,特征工程 Feature Engineering 都很少被提到。做模型的或者搞Kaggle比赛的人认为这些搞featu...

54680
来自专栏PPV课数据科学社区

【推荐】开发者成功使用机器学习的十大诀窍

作者|Alexander Gray 编译|刘帝伟 转自|CSDN 在提供发现埋藏数据深层的模式的能力上,机器学习有着潜在的能力使得应用程序更加的强大并且更能响应...

24230
来自专栏ATYUN订阅号

每个机器学习项目必须经过的五个阶段

机器学习和预测分析在我们今天的生活中非常普遍。它几乎可以影响我们所做的一切,包括零售和批发定价,消费者习惯和行为,市场营销,娱乐,医药,物流,游戏,AI语音识别...

40150
来自专栏数据派THU

一文盘点深度学习13个常见问题(附详细解答&学习资源)

16720
来自专栏机器之心

观点 | 我们该如何学习机器学习中的数学

数学达到什么水平才可以开始机器学习?人们并不清楚,尤其是那些在校期间没有研究过数学或统计学的人。

7310

扫码关注云+社区

领取腾讯云代金券