R语言聚类算法在新媒体中的场景应用

— 壹看板导读 —

DT时代,大数据、机器学习对各行各业的从业者并不陌生,机器学习应用场景比较集中在医疗、保险、金融等大数据量级领域。新媒体领域中,大数据可以为我们解决什么场景下的问题呢?本篇文章将给出如何利用聚类算法对新媒体文章内容价值做评估的解决方案,为今后文章内容采编做指导,用R语言实现自动和半自动化。

什么是聚类?“物以类聚,人以群分”

对事物进行分类是人们认识事物的出发点,也是人们认识世界的一种重要方法。聚类就是将数据分组成多个类别(cluster),使得同一个类别的对象之间具有较高的相似度,不同类别的对象相异。

新媒体文章价值评估就是对历史发布在新媒体的文章进行研究分类,数据量级越大效果越明显,针对每类的文章下定义标签,为今后文章的内容和采编方向做指导。

聚类图解

以微信公众号为例:文章内容评估所用到的媒体数据指标有哪些呢?

聚类指标需要根据业务结果来选择,对新媒体运营影响比较大的指标可以选入模型。

数据获取层面,从运营分析的角度来说,部分指标无法从公众号后台运营界面直接获得,这时需要借助第三方工具,比如智能分析工具壹看板,壹看板需要分析方授权其与微信公众号的appid端口链接,然后即可获得实时更新的数据。

数据已有的前提下,为什么要聚类分析?如何聚类分析?比如,微信公众号的头条和次头条位置会对文章价值评估带来巨大差异,需要同等曝光位置的文章放在一起聚类:头条和头条聚类,次头条和次头条单独聚类。详细指标及层级,见下图:

指标框架

注:该演示数据仅60条,且值都比较小,文章聚类效果会稍不明显,仅用于提供思路,做文章分析建议以1年以上历史数据分析。

数据结果展示

基于以上,针对新媒体文章的指标,可以将文章数据做解读并归结为3类:

第一类:粉丝增长一般,文章价值比较差,传播力度比较差,粉丝不活跃;

第二类:粉丝增长比较好,文章比较有价值,传播力度比较强,粉丝比较活跃;

第三类:粉丝取关人数多,文章价值一般,传播力度一般,粉丝不活跃;

接下来则需要运营人员针对每类文章进行单篇的具体分析:为什么好,又为什么差——找到这一类文章整体的特点,建立文章价值的评估,然后今后文章的采编和内容方向就很容易把控了。

R代码供参考

---------END----------

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180123A0KIG300?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码关注腾讯云开发者

领取腾讯云代金券