Machine learning at Quora(下)

Recommendations

上述的个性化排名已经是推荐系统的一种形式了。例如,流行的Quora电子邮件摘要包括已选择并为您推荐的故事集合。 这是一个不同的learning-to-rank模型,针对不同的目标函数进行了优化。除了排名算法,我们还有其他个性化的建议,出现在产品的不同部分。例如,在不同的地方,您会看到您应该关注的人或主题的建议(见下文)。

Related Questions

另一个推荐来源是给用户与当前问题有些相关的问题。相关问题通过使用包括例如文本相似性,共同访问数据或其他共享特征(例如主题)的不同特征的另一机器学习模型来确定。还考虑了与问题的普及或质量相关的其他特征。 重要的是要注意,什么是一个好的“类似”的推荐,不仅是这个项目与源问题的相似,而且也是目标的“兴趣”。 事实上,对于任何“相关项目”机器学习模型来说,最棘手的问题之一是如何权衡相似性与其他相关性元素。

相关问题是一种当非注册用户在从外部搜索访问问题页面时创建其参与度特别有效的模型。这就是为什么现在这种推荐模型是非个性化的原因之一。

Duplicates

Duplicatequestions是上述相关问题情况的极端情况。 这是Quora的一个问题,因为我们要确保来自回答特定问题的用户的所有力量都是共享的,并且集中在正确的地方。 将具有问题并希望将其添加到站点的用户指向预先存在的答案也很重要。因此,大量的努力被用来去检测重复的问题,特别是在创建初期。

我们当前的解决方案是基于训练具有重复/非重复标签的二元分类器。 我们使用从文本向量空间模型到基于使用特征的不同类型的信号。

User Trust/Expertise Inference

在像Quora这样的应用中,重要的是要了解用户是如何值得信任的。事实上,我们不仅有兴趣以确定的方式回答一个问题,而且是关于一个给定的主题。用户可能在某些主题方面非常熟悉,但在其他主题方面却不那么丰富。在Quora,我们使用ML技术来推断用户专业知识。为了训练这些模型,我们有几个重要的特征。我们不仅知道用户在给定主题中写的答案,而且我们也知道用户在这些主题上收到的upvotes,downvotes或者views。我们还知道用户对给定主题有多少“endorsements”。Endorsements是来自其他用户的对某人专业的明确承认。另一个要记住的重要事情是,信任/专业知识通过网络传播,并且应该由算法考虑。例如,如果我从机器学习的专家那里收到一个upvote到机器学习的答案,这应该比从那个主题没有专业知识的随机用户多计数。endorsements和其他user-to-user特征也是如此。

Spam Detection and Moderation

像Quora这样的站点,为保持内容的高质量阈值而感到自豪,所以必须非常警惕通过引入垃圾邮件,恶意或者非常低质量的内容来尝试玩弄系统。有一个纯手工模型来审查内容的范围。你也许会想,解决问题的方法是使用ML模型来检测这些问题。在Quora,我们有几个模型可以检测与内容质量相关的不同问题。 这些分类器的输出在大多数情况下不直接用于对内容做出决定,而是用作将这些问题/答案反馈到审核队列中的方式,然后手动审查。

Content Creation Prediction

记住Quora的一个非常重要的事情是,我们正在优化系统的许多部分,不仅为读者创造引人入胜的体验,而且最大限度地提高质量和所需的内容。出于这个原因,我们有一个ML模型,预测用户写一个给定问题的答案的概率。 这允许我们的系统以不同的方式确定这些问题的优先级。其中之一是系统的自动A2A(Ask to Answer),通过通知将这些问题发送给潜在作者。上面解释的其他排序系统也会使用该预测概率。

Models

Quora已经尝试了许多不同的模型来解决上述不同的用例。 有些时候,我们使用开源的实现,但是许多其他实现,我们最终用了更高效或灵活的内部版本。我不会深入到哪里使用了什么模型的细节,但这里是一个在我们的系统的不同地方使用的模型列表:

  • Logistic Regression
  • Elastic Nets
  • Gradient Boosted Decision Trees
  • Random Forests
  • Neural Networks
  • LambdaMART
  • Matrix Factorization
  • Vector models and other NLP techniques
  • ...
  • Conclusion

如上所述,Quora以许多不同的方式使用了机器学习。虽然我们已经能够通过使用这些ML方法获得非常重要的收益,我们相信以后会有更多的收获,我们会继续投资新技术。 此外,在不久的将来,ML会有令人兴奋的新应用。 这些包括广告评级,机器翻译和NLP的其他应用,这些应用将直接用于我们即将添加的新产品功能。

原文发布于微信公众号 - 鸿的学习笔记(shujuxuexizhilu)

原文发表时间:2016-11-23

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能头条

Facebook如何运用机器学习进行亿级用户数据处理

28350
来自专栏BestSDK

谷歌推出“Federated Learning”,一种全新的机器学习模式

传统机器学习方法,需要把训练数据集中于某一台机器或是单个数据中心里。谷歌等云服务巨头还建设了规模庞大的云计算基础设施,来对数据进行处理。现在,为利用移动设备上的...

660100
来自专栏企鹅号快讯

机器学习必知的15大框架

机器学习工程师是开发产品和构建算法团队中的一部分,并确保其可靠、快速和成规模地工作。他们和数据科学家密切合作来了解理论知识和行业应用。数据专家和机器学习工程师的...

22780
来自专栏ATYUN订阅号

【实验】试试这个AI实验:把2D图像转换成3D

AiTechYun 编辑:nanan ? 2D图像转换为3D 今年1月,Fleisher和Shirin Anlen(该AI的开发人员)写了一个关于图像转换的AI...

39590
来自专栏机器之心

最适合中国开发者的深度学习框架:走向成熟的PaddlePaddle 1.0

自深度学习以分层逐步学习的奇思妙想崛起以来,深度学习框架就在不停地发展。在 AlexNet 还没有携带深度学习亮相 ImageNet 之前,由蒙特利尔大学 LI...

10530
来自专栏数值分析与有限元编程

高斯消去法解方程组及Python实现

Python 是一种高级计算机程序设计语言。对于初学者和完成普通任务, Python 语言是非常简单易用的。 对于方程组Ax=b,增广矩阵为[A b]。第一次消...

69370
来自专栏机器之心

观点 | TensorFlow sucks,有人吐槽TensorFlow晦涩难用

选自nicodjimenez 机器之心编译 参与:李泽南、刘晓坤 作为当今最流行的深度学习框架,TensorFlow 已经出现了两年之久。尽管其背后有着谷歌这样...

345100
来自专栏技术翻译

人工智能的10个最佳框架和库

人工智能已经存在了很长时间。然而,由于该领域的巨大改进,近年来它已成为流行语。人工智能曾经被称为总体书呆子和天才的领域,但由于各种图书馆和框架的发展,它已成为一...

1.2K20
来自专栏AI研习社

人脸识别哪家强?亚马逊、微软、谷歌等大公司技术对比分析

哪一个人脸识别 API 是最好的?让我们看看亚马逊的 Rekognition、谷歌云 Vision API、IBM 沃森 Visual Recognition ...

32530
来自专栏机器之心

重磅 | 谷歌发布TPU研究论文,神经网络专用处理器是怎样炼成的?

选自Google Cloud Platform 作者:Norm Jouppi 机器之心编译 在去年的谷歌 I/O 开发者大会上,谷歌宣布发布了一款新的定制化硬...

33690

扫码关注云+社区

领取腾讯云代金券