【CQA论文笔记】基于异构社交网络学习的社区问答方法，同时建模问题、回答和回答者

WZEARW

发布于 2018-04-08 15:19:53

1.1K0

发布于 2018-04-08 15:19:53

文章被收录于专栏：专知

【导读】传统的社区的问答(CQA)仅对问题和答案的内容进行编码，为问题准确地匹配高质量的回答。这篇文章提出使用社区中用户的交互信息进行嵌入，借助了异构社交网络中大量的社交信息来缓解了CQA任务的稀疏性问题，辅助解决CQA任务。提出的框架协同地利用问题、回答和回答者之间的交互关系来学习回答的相对质量。另外，使用深度随机游走框架来充分利用异构社交网络中的信息，来提升问答匹配的效果。在大规模真实CQA数据上的实验表明，借助异构社交信息，提出的算法超过了当前最好的CQA算法。

【AAAI2016 论文】Community-Based Question Answering via Heterogeneous Social Network Learning

▌摘要

基于社区的问答(CQA)网站长期积累了海量的问题和基于众包的答案，如何有效地从高质量的答案中获取有价值的知识成为一个热点研究问题。如何为问题准确地匹配高质量的回答是CQA任务的一个主要挑战。许多传统的任务仅通过内容相似性来推荐答案，这些方法受到CQA数据稀疏性的影响。

在本文中，作者提出一种新奇的框架，它不仅对问题和答案的内容进行编码，并且对社区中用户的交互信息进行编码，来辅助解决CQA任务。框架协同地利用问题、回答和回答者之间的交互关系来学习回答的相对质量。另外，作者使用深度随机游走框架来充分利用异构社交网络中的信息，来提升问答匹配的效果。在大规模真实CQA数据上的实验表明，借助异构社交信息，提出的算法超过了当前最好的CQA算法。

▌贡献

这篇文章的贡献点如下：

1. 与传统的基于内容的方法不同，文章提出了一个新奇的框架HSNL，它借助了异构社交网络中大量的社交信息来缓解了CQA任务的稀疏性问题，还利用了不同答案的相对质量信息。

2. HSNL使用随机游走来利用异构社交网络中蕴含的信息。它可在大规模网络上并行执行，因为每次训练只依赖网络中的一小部分数据。

3. HSNL中使用了深度学习模型，它可以直接计算问题和回答的匹配度。同时，可以学到问题、回答和用户的特征，这些特征可以被用于其他许多的CQA任务，例如问题检索和专家发现。，

▌异构网络

下图展示了CQA中的社交异构网络。网络中有三种节点（问题、回答和回答者），网络包含了它们之间的关系信息。可以看出，问题和回答之间的连接比较稀疏（4个问题互相之间没有连接，且只有回答2和回答3 ）。HSNL有效地利用了网络中蕴含的丰富的交互信息，例如，对于同一个问题，不同用户给出的高质量回答和低质量回答之间的差异，以及用户之间的关注信息。这些丰富的交互信息对CQA任务很有用。

▌流程

文本内容特征学习

HSNL使用LSTM来对文本特征进行编码，由于问题和回答往往包含多个段落，每个段落包含一个或多个句子，作者将问题或回答切分为多个句子，用LSTM对每个句子进行embedding，最后用一个max-pooling层将多个句子的embeddings合并为一个embedding。

利用异构社交网络

HSNL的整体框架图下图所示。

首先，HSNL利用Random Walk采样大量的节点序列，如上图(b)所示。首先，HSNL利用Deep Walk为每个回答者预训练了一个低维表示。然后，HSNL在序列上使用滑动窗口进行扫描，对每个窗口内的问题、答案和回答者节点做了如下约束：

其中，+表示比-更相关的匹配，s是相似度计算函数：

前两个式子是标准的triplet loss，例如第2个式子的意思是“问题vi与回答q+的相似性要大于问题vi与回答q-的相似性”。这里使用的是类似SVM的Max-Margin Loss，在第二个公式中，用一个固定值m作为margin的大小，而在第一个公式中，margin的大小被表示为m*α，margin的大小会根据不同的情况改变，当a-是一个无关的回答时，α被设置为1，当a-是一个低质量的回答时，α被设置为：