前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Machine learning at Quora(下)

Machine learning at Quora(下)

作者头像
哒呵呵
发布2018-08-06 17:36:41
6110
发布2018-08-06 17:36:41
举报
文章被收录于专栏:鸿的学习笔记鸿的学习笔记

Recommendations

上述的个性化排名已经是推荐系统的一种形式了。例如,流行的Quora电子邮件摘要包括已选择并为您推荐的故事集合。 这是一个不同的learning-to-rank模型,针对不同的目标函数进行了优化。除了排名算法,我们还有其他个性化的建议,出现在产品的不同部分。例如,在不同的地方,您会看到您应该关注的人或主题的建议(见下文)。

Related Questions

另一个推荐来源是给用户与当前问题有些相关的问题。相关问题通过使用包括例如文本相似性,共同访问数据或其他共享特征(例如主题)的不同特征的另一机器学习模型来确定。还考虑了与问题的普及或质量相关的其他特征。 重要的是要注意,什么是一个好的“类似”的推荐,不仅是这个项目与源问题的相似,而且也是目标的“兴趣”。 事实上,对于任何“相关项目”机器学习模型来说,最棘手的问题之一是如何权衡相似性与其他相关性元素。

相关问题是一种当非注册用户在从外部搜索访问问题页面时创建其参与度特别有效的模型。这就是为什么现在这种推荐模型是非个性化的原因之一。

Duplicates

Duplicatequestions是上述相关问题情况的极端情况。 这是Quora的一个问题,因为我们要确保来自回答特定问题的用户的所有力量都是共享的,并且集中在正确的地方。 将具有问题并希望将其添加到站点的用户指向预先存在的答案也很重要。因此,大量的努力被用来去检测重复的问题,特别是在创建初期。

我们当前的解决方案是基于训练具有重复/非重复标签的二元分类器。 我们使用从文本向量空间模型到基于使用特征的不同类型的信号。

User Trust/Expertise Inference

在像Quora这样的应用中,重要的是要了解用户是如何值得信任的。事实上,我们不仅有兴趣以确定的方式回答一个问题,而且是关于一个给定的主题。用户可能在某些主题方面非常熟悉,但在其他主题方面却不那么丰富。在Quora,我们使用ML技术来推断用户专业知识。为了训练这些模型,我们有几个重要的特征。我们不仅知道用户在给定主题中写的答案,而且我们也知道用户在这些主题上收到的upvotes,downvotes或者views。我们还知道用户对给定主题有多少“endorsements”。Endorsements是来自其他用户的对某人专业的明确承认。另一个要记住的重要事情是,信任/专业知识通过网络传播,并且应该由算法考虑。例如,如果我从机器学习的专家那里收到一个upvote到机器学习的答案,这应该比从那个主题没有专业知识的随机用户多计数。endorsements和其他user-to-user特征也是如此。

Spam Detection and Moderation

像Quora这样的站点,为保持内容的高质量阈值而感到自豪,所以必须非常警惕通过引入垃圾邮件,恶意或者非常低质量的内容来尝试玩弄系统。有一个纯手工模型来审查内容的范围。你也许会想,解决问题的方法是使用ML模型来检测这些问题。在Quora,我们有几个模型可以检测与内容质量相关的不同问题。 这些分类器的输出在大多数情况下不直接用于对内容做出决定,而是用作将这些问题/答案反馈到审核队列中的方式,然后手动审查。

Content Creation Prediction

记住Quora的一个非常重要的事情是,我们正在优化系统的许多部分,不仅为读者创造引人入胜的体验,而且最大限度地提高质量和所需的内容。出于这个原因,我们有一个ML模型,预测用户写一个给定问题的答案的概率。 这允许我们的系统以不同的方式确定这些问题的优先级。其中之一是系统的自动A2A(Ask to Answer),通过通知将这些问题发送给潜在作者。上面解释的其他排序系统也会使用该预测概率。

Models

Quora已经尝试了许多不同的模型来解决上述不同的用例。 有些时候,我们使用开源的实现,但是许多其他实现,我们最终用了更高效或灵活的内部版本。我不会深入到哪里使用了什么模型的细节,但这里是一个在我们的系统的不同地方使用的模型列表:

  • Logistic Regression
  • Elastic Nets
  • Gradient Boosted Decision Trees
  • Random Forests
  • Neural Networks
  • LambdaMART
  • Matrix Factorization
  • Vector models and other NLP techniques
  • ...
  • Conclusion

如上所述,Quora以许多不同的方式使用了机器学习。虽然我们已经能够通过使用这些ML方法获得非常重要的收益,我们相信以后会有更多的收获,我们会继续投资新技术。 此外,在不久的将来,ML会有令人兴奋的新应用。 这些包括广告评级,机器翻译和NLP的其他应用,这些应用将直接用于我们即将添加的新产品功能。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2016-11-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 鸿的学习笔记 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
机器翻译
机器翻译(Tencent Machine Translation,TMT)结合了神经机器翻译和统计机器翻译的优点,从大规模双语语料库自动学习翻译知识,实现从源语言文本到目标语言文本的自动翻译,目前可支持十余种语言的互译。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档