首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

如何识别“呵呵”的冷漠,知乎给出一个答案

财经决策第一号ENNweekly(«长按可复制)

文/《财经国家周刊》记者 冯春

2011年1月26日,知乎正式上线运营。时至今日,注册用户超过1.8亿、回答数量超1亿的知乎,已经成为全球最大的中文知识分享平台。

信息井喷,靠社区公约、人工维护、用户举报等建立起来的社区管理机制面临巨大的挑战。

更为重要的问题是,在拦截违法违规信息之后,如何塑造良好的平台环境:解决“擦边球”、“软暴力”或“软色情”一类虽不在违法违规范畴内但极大影响网络环境的不良信息。对于知乎这样用户素质较高的平台,改善环境包括减少“答非所问”和“辱骂”、“贴标签”等“不友善”内容,减少低质内容给用户的干扰。

在试运行后,知乎正在向外界介绍自己的应对之策:瓦力,一个可以识别“阴阳怪气”的算法机器人。

每个用户心中都有一个“呵呵”

在知乎运营总监孙达云看来,“阴阳怪气”是对知乎平台环境挑战非常大的内容。它主要表现为“不针对发言内容,而是批评对方的语气”,或是“提出反对意见,但不给或给出极少数论据支持”,这些评论都会大大伤害创作者和交流者的体验。但是,如何识别并应对“阴阳怪气”?

知乎运营总监 孙达云

比如现实中大家正认真讨论问题,突然出现一个人讽刺大家多管闲事,气氛马上就会尴尬甚至紧张起来。但“阴阳怪气”言论的判定非常依赖个人感受,每个人的情绪阈值不同,且同样的语料在不同讨论语境下也会引发不同情绪,这为机器算法识别带来了极大挑战。

而所谓“答非所问”,就是没有答到点子上甚至离题万里的回答,往往没有什么价值,有些甚至只有情绪。读者看到这类内容难以获得有效信息,浪费时间,就可能从平台流失。

另一类是无效评论,容易对作者造成较大的负面情绪。

而解决“阴阳怪气”的难点主要在于网络语言的复杂性,情感分析不同于普通文本分析。例如经典的“呵呵”,由于双方关系不同、说话的场景和时间不同,都会带来迥然不同的表意。即便是人工判定都存在标准化之难,算法模型的训练就更为艰辛。

知乎内容质量管理团队技术负责人 刘兆来

知乎内容质量管理团队技术负责人刘兆来解释说:“阴阳怪气”识别的难点存在于三个方面。

首先是语境,“你太牛了,在下佩服”放在“我数学考了100分”之下就是再正常不过的赞扬,跟在“我数学只考了20分”后面,就叫‘阴阳怪气’。

其次,反讽识别需要了解背景知识。比如体育与明星两个不同的领域就和其他领域有比较明显的差别,对中国男篮的讽刺“这个能很好地解释为什么中国球员不喜欢扣篮……”如果缺乏对背景的了解,甚至可能让人工识别出现失误。

第三方面是训练样本的获取。“‘阴阳怪气’评论仅占社区评论量千分之三左右,而机器学习算法的效果上限取决于训练数据的数量和质量,所以要耗费大量的人力和时间标注这些数据。”刘兆来说。

用户合力的技术选择

比尔·盖茨曾经说过:“语言理解是人工智能皇冠上的明珠。”这清晰地描述了语言理解的难度。

到今天,虽然深度学习等技术屡有突破,但受制于标注量、训练量等问题,如何更“聪明”地认知中文信息,仍然没有得到实质性的解决。

对于知乎来说,幸运的是它拥有一个高质量的中文语料库:大量优质的提问和回答,而用户对“阴阳怪气”内容的举报,可被认为是对相应文本语料的标注。有了这样标注数据,知乎就能够利用有监督的机器学习算法得到更好的语义表示,从而使对语言的理解达到一个更高的层次。

经过两年的尝试,针对“阴阳怪气”评论通常表达负面情感的特点,知乎构建了内容情感倾向性识别的算法模型和识别用户亲密度的模型,并通过训练不断迭代完善。此外,针对“阴阳怪气”评论的典型特征,知乎建立了文本识别模型不断标记训练样本。三大模型的结合,不仅摆脱单一算法模型的局限性,也让“瓦力”识别“阴阳怪气”的准确率在大多数时候超过了人工判断。

算法机器人的能力提升同样离不开用户的支持。比如有5万名用户参加的“有理由反对”测试——用户点击反对的时候,同时选择反对的理由——用户的每次选择都是“瓦力”学习的新机会。在这个测试的内测期间,知乎通过用户选择和“瓦力”结合一共梳理了超过两万条“答非所问”。

优化技术方案后,“瓦力”已能实现对“暗藏玄机夸奖”(忍不住关注答主了,你的答案很有水平!你博士快毕业了吧!)、“好为人师”(我觉得你挺惨,虽然长这么大了,还真应该回小学改造)、“强行反驳”(你开心就好、请开始你的表演)等用户最反感的几类“阴阳怪气”内容的识别。但现阶段仍存在一定数量的算法漏识别或误识别导致的“bad case”。

对于“bad case”,刘兆来表示这将是下阶段探索的方向,如:通过获取更有价值的样本,减少样本标注的时间和工作量以获取更多的训练数据;尝试在语义分析中加入词语的褒贬色彩、谐音语句及“阴阳怪气”的句式特征;更新算法和使用更加复杂的模型;针对如体育、明星等具有不同语言特征的领域分别建立模型等。

总监制:金风

监制:程瑛

责任编辑:王婷、杨萌

任何事宜请后台留言

喜欢的朋友请多多分享

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180716A07NH100?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券