专栏首页企鹅号快讯搜索结果质量评估(上)

搜索结果质量评估(上)

【废话少说—文章思路】

1.引言

如果说以前的传统报刊、搜索引擎、门户网站等媒介解决的是信息不对称的矛盾,那么现在我们面临的矛盾是信息过载的问题。

无疑,解决信息不对称这项工作意义非常巨大,通过传统纸质媒介走向互联网PC端的搜索途径,是用户对于获取大量数据的需求驱动的结果。智能手机的发展再次刺激用户对于获取更多信息、更容易获得信息需求的升级,于是相较传统PC端搜索引擎的PGC产出信息的方式,更多的UGC开始萌芽,自媒体玩家开始入局,各个自媒体平台也乘上了UGC的爆发红利,其中微信公众平台、头条号、企鹅号、知乎、喜马拉雅、百家号、熊掌号等自媒体平台成为内容赢家。

然而,过去一年时间,中国网页数从1200亿元增加到2360亿元,增近1倍;中国出版物的数量达513亿!如此多的信息量,和我们相关的信息却寥寥无几。当供应大于需求时,新的矛盾就会出现——信息过载与用户获取的有用信息不对称的矛盾。所谓信息过载,并不是优质内容多到用户无法接受,而是垃圾信息过载,优质信息永远都是稀缺的。在这个人人都可以便捷地发微博、写博客、拍短视频,各路媒体为了博点击率而不惜标题党、甚至造假新闻的时代,垃圾信息充斥着网络,更可恶的是很多垃圾信息伪装成优质信息,以“毒鸡汤”来误人子弟。因此面对信息过载,用户在使用传统搜索引擎或者传统新闻推送客户端时,不愿付出精力分辨内容质量,体验很差。所以,对于今日头条的基于推荐算法驱动的内容分发平台,正是用户所需要的。正如头条的口号:你关注的才是头条。

基于机器学习的算法推荐虽然是智能的,但不包含价值观。因此,用户可能在选择内容时候,并不能真正的正确的选择优质的内容,即使用户在进行有目的的搜索操作时候,也并不能完全清楚自己的真实需求。所以难免以往的算法推荐过程回带来一定的“伪优质”内容。因此本文写作的目的是解析搜索结果质量评价中的算法逻辑并尝试提出指标的改进建议,希望能对搜索结果的质量评估工作有基本的认识,日后在实际工作中完善本研究,真正对算法优化有所贡献。

2. 研究背景

2.1机器学习

机器学习是一种研究计算机实现学习人类行为的技术,致力于在获得新的知识或者技能的同时建立和改善自己的知识体系,从而达到不断学习和完善自己功能的目的。机器学习要解决某一问题时候,会建立一个合理的模型,如线性回归模型,Logistic回归、贝叶斯模型等,然后为这个模型建立一个度量变量P,通过在每次任务中不断获取知识和积累经验,之后不断对P值进行优化,从而提高某个指标的最优性,或者某些指标的综合最优性。

2.2 推荐算法逻辑

用户的个性化推荐是指根据用户的喜好或者标签,推荐给用户他们可能熟悉的和关注的信息。用户面对大量的信息,会产生迷茫的感觉,如果不能很快找到自己的兴趣点,用户可能就会流失,因此个性化推荐的算法能够满足用户的千人千面。

在客户端,用户通过操作,如今日头条的注册界面选择用户关注的领域以及推荐板块的消息的右上角有“不感兴趣减少这类内容”的选项,可以对用户的喜好和关注点精准把控,通过用户的使用行为,分析用户的喜恶,从而不断优化个性推荐的内容,能够时适应用户的需求,通过不断地A/B测试,可以把内容的关注度作为评估内容质量的重要依据,从而反哺算法,优化推荐机制,将优质的内容不断推向更大的用户群体,这样既能够保证用户对优质内容产出者或者网站源的忠诚度,增加了下次访问的几率,又能够规避一部分低质量内容的风险。

因此,建立个性化推荐系统的作用相当于建立了和用户长期、友好、可信赖的关系,从而提高用户的回头率,达到内容甚至广告的精准投放的目的,做到有的放矢。

2.3数据标注

数据标注一般是指操作计算机等自动化工具,对大量文本、图片、语音、视频等数据进行归类、整理、编辑、纠错和批注等的工作。

基于上一节的了解,我们知道机器学习是服务于算法优化的一种技术,而机器学习可分为:有监督学习和无监督学习。无监督学习是被用来做探索性的实验,也叫无指导的学习,经过探索挖掘数据的价值。而在实际产品应用中,通常使用的是有监督学习,或者说半监督的学习,通过机器学习自我调优,最终达到有监督的机器学习目标,这就需要有标注的数据来作为先验经验。因此,数据标注的作用就是“教会机器”,即把“人话”转化为“机器语言”。所以在建立大量的训练集和测试集的时候,数据标注的作用就有非常大的意义,如果说机器学习超越了人在某方面的天赋,甚至可以教学人类,那么数据标注就是教会机器学习的关键一步。通过训练集的不断学习,算法优化,将测试集交给机器识别,如果达到满意的准确率,那么说明算法是满足要求的。

数据标注有许多类型,如分类、画框、注释、标记等等,而数据标注员,主要是对图片、文本、语音、视频数据进行标注,以图片标注为例,包括对图片进行预处理筛选、标签分类、对指定物体进行画框、对物体特定部位进行打点、标注图片中指定物体属性、对图片进行Caption释义等等。

3. 搜索质量评估

从头条主页顶部的输入框来看,搜素功能占据重要地位。头条的搜索结构如图(3.1)。搜索分类有:综合、视频、咨询、图集、用户、问答。综合可穿越到各个分栏目搜索质量包含两方面,包括搜索结果的排序、搜索内容的质量问题。

4.搜索排序

用户在使用头条搜索功能时候,有较大的目的性。因此选择排序时候要考虑用户搜索质量、搜索问题分类、时效性三个大类,每个类别有分类的指标,并做了解释,如下:

4.1搜索质量

(1)查全率:

本文来自企鹅号 - 交运百科媒体

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 机器学习新手必看10大算法

    选自TowardsDataScience 作者:James Le 机器之心编译 参与:程耀彤、路雪 本文介绍了机器学习新手需要了解的 10 大算法,包括线性回归...

    企鹅号小编
  • 机器学习中常见4种学习方法、13种算法和27张速查表!

    -免费加入AI技术专家社群>> 机器学习的算法很多。很多时候困惑人们都是,很多算法是一类算法,而有些算法又是从其他算法中延伸出来的。这里,我们从两个方面来给大家...

    企鹅号小编
  • 成为Java高手的25个学习要点

    . 很多人会问学java不知道该如何入手? 不知道学习的方向该怎么办? 有没有什么学习方法可以推荐? 想成为java高手,有没有一些可以衡量的标准呢? 本文就为...

    企鹅号小编
  • 机器学习| 第一周:单变量线性回归

    下棋程序:E :无数次下棋获得的经验;T :下棋;P :与新对手下棋时的胜率有所提升。

    机器视觉CV
  • Akka(1):Actor - 靠消息驱动的运算器

      Akka是由各种角色和功能的Actor组成的,工作的主要原理是把一项大的计算任务分割成小环节,再按各环节的要求构建相应功能的Actor,然后把各环节的运算托...

    用户1150956
  • 人工智能六十年技术简史

    作者:李理,环信人工智能研发中心vp,十多年自然语言处理和人工智能研发经验。主持研发过多款智能硬件的问答和对话系统,负责环信中文语义分析开放平台和环信智能机器人...

    AI科技大本营
  • DeepMind开源强化学习环境,灵活可配置,计算资源有限的小型实验室也能用

    想想DeepMind训练的通用棋类AI AlphaZero,碾压一票同类选手,但堆砌了实验室里5064个TPU的算力。谷歌财大气粗,但小实验室就无法复制了。

    量子位
  • MIT 80万亿次平方运算加密难题,被小哥用家用台式机自学破解

    这个名为 LCS35 的难题是由加密算法界元老、RSA 暗码系统发现者之一、MIT 教授 Ron Rivest 在 1999 年 4 月提出的。发起者们曾预测:...

    机器之心
  • 关于物化视图疑问(32天)

    --初始化操作, 创建两个用户一个,testo,一个test. 在testo上创建表,test上创建物化视图。 SQL> create user testo ...

    jeanron100
  • 微服务实战(三):落地微服务架构到直销系统(构建基于RabbitMq的消息总线)

    从前面文章可以看出,消息总线是EDA(事件驱动架构)与微服务架构的核心部件,没有消息总线,就无法很好的实现微服务之间的解耦与通讯。通常我们可以利用现有成熟的消息...

    用户1910585

扫码关注云+社区

领取腾讯云代金券