专栏首页WeTest质量开放平台团队的专栏【干货】游戏口碑的风向标——短文本聚类和维度口碑分析技术分享

【干货】游戏口碑的风向标——短文本聚类和维度口碑分析技术分享

每一款游戏在策划、研发、运营阶段,都需要去倾听游戏玩家的各种声音。比如游戏运营人员经常需要观察游戏事件(如活动、新英雄、新版本)在玩家中的反响和口碑。WeTest舆情针对游戏领域,玩家在各个数据渠道、社交媒体上的评论进行分析,对玩家关于游戏的各个维度评论进行聚类,便于游戏运营人员快速准确的发现问题、评价活动的玩家口碑和事件分析等。

图1 玩家口碑示例,绿色代表正面口碑,红色代表负面口碑

在我们的口碑分析过程中,需要依赖大量的情感词库,但是展示给用户的时候,我们要把同类情感作为一个主题展示。传统的bag of words中,每个词只是向量空间的一个点,彼此间不具有相关性。为此我们采用了word embedding方式将词转化

图2 Word embedding词汇转化结果

游戏评论维度的挖掘:用户在论坛、社交媒体上的语料属于大规模短文本语料,具有稀疏性高、随意性强的特点。如果直接利用传统方法进行语料聚类来挖掘维度,效果很差。我们基于paragraph2vec算法,将待聚类语料和历史大量无标注语料统一进行训练,得到每条语料的句向量,然后选出其中待分类语料的句向量进行聚类。在待分类样本数较少时,该方法可以显著扩展语料的语义特征,使得聚类结果更加理想。

在此之前,尝试了很多方案对手头语料进行聚类,包括Kmeans,AP,DBScan等,但是由于短文本的特点,效果一直不理想(很多语义相似的词由于没有字面上的交集,无法聚集到一起),也尝试过用LDA抽取主题特征,但是能够表示的隐语义空间也很有限,并不适用于随意性特别强的不规范短文本。后来听过一次关于DeepLearning在NLP领域的应用,期间提到了一个影响业界的Word2Vec算法,才知道了有word embedding这种特征可以解决这一问题,并且计算效率完全可以接受。尝试以后发现效果非常好,进一步研究了扩展到句子级别的paragraph2vec,并且通过思考解决了paragraph2vec只能对目标集提取特征的限制(用参考级+目标集一起提取特征,但仅使用目标集的特征作为后续算法输入)

整体数据流程如下,其中最终的口碑分析是依赖维度+情感词库结合句法分析和规则库进行的,而维度库和情感词库的产生依赖于聚类+人工。这里聚类采用的即是上文提到的word2vec和paragraph2vec特征。

图3 word2vec和paragraph2vec特征整体数据流程

游戏风向标目前主要是游戏各个维度下用户正负口碑的罗列,这有利于游戏运营人员发现问题,了解活动、事件的各个方面的口碑。后续我们会进一步增加各个维度下口碑随着事件的变化趋势、本游戏与竞品在各个口碑下的对比、整个游戏行业里各个游戏的口碑整体评价排行等功能,帮助游戏团队各个环节的人员更好进行决策和分析。

本文分享自微信公众号 - 腾讯WeTest(TencentWeTest)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2015-11-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Android性能优化来龙去脉总结

    一款app除了要有令人惊叹的功能和令人发指交互之外,在性能上也应该追求丝滑的要求,这样才能更好地提高用户体验。

    WeTest质量开放平台团队
  • 移动平台 Unity3D 应用性能优化(下)

    下篇:一些关于移动平台上Unity3D的性能优化经验,供分享。

    WeTest质量开放平台团队
  • 手游MOBA之殇在网络——浅析手游网络损伤专项测试

    弱网络专项测试(客户端网络损伤专项测试)是腾讯游戏内部评审时,非常重要的一环,直接决定了产品是否能直接上线运营。针对最近非常火爆的MOBA类游戏,对客户端网络损...

    WeTest质量开放平台团队
  • python for循环

    当range执行完之后,代码执行else部分代码。如果遇到break,终止循环,不会走else代码

    py3study
  • 学习笔记-小甲鱼Python3学习第九讲

    >>> fruits = ['apple','橘子','banana','哈密瓜','pear']           #水果列表frutis

    py3study
  • 具体数学-第10课(素数和阶乘的有趣性质)

    是素数,这个数也不一定是素数,2017年年末美国一个电气工程师发现了人类历史上最大的梅森素数——

    godweiyang
  • Spark学习之基于MLlib的机器学习

    Spark学习之基于MLlib的机器学习 1. 机器学习算法尝试根据训练数据(training data)使得表示算法行为的数学目标最大化,并以此来进行预测或作...

    王小雷
  • Leetcode 994. 腐烂的橘子

    腐烂橘子的传播以一种类似广播扩散的形式进行。这里不妨以队列来模拟腐烂橘子的扩散过程,队列中存储新的被感染的橘子,则队列为空时表示扩散停止。此时若网格中仍有新鲜橘...

    zhipingChen
  • 音视频编解码问题:javaCV如何快速进行音频预处理和解复用编解码(基于javaCV-FFMPEG)

    版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 ...

    eguid
  • 写给前端工程师的色彩常识:色彩三属性及其在CSS中的应用

    大家好,本篇文章,笔者将给大家聊聊关于设计方面的一些常识,你也许会很奇怪的问,前端工程师有必要了解设计相关的常识吗?那我的答案就是十分有必要。因为我们这个工作岗...

    前端达人

扫码关注云+社区

领取腾讯云代金券