云合数据CEO李雪琳:如何用黑科技洞察影视行业?

关注影视播放的人对这个数据并不陌生,这是最近一部大剧的数据,第一个数字15亿,这是这部剧全网一天的前台点击量,前台点击量是大家在各个平台能够看到的点击量数字。

2017年3月29日,经过数月筹备,由品途商业评论主办的“跨界·革新”2017泛娱乐创新大会在北京四季酒店隆重召开。在四季酒店的现场,高朋满座,嘉宾云集,云合数据CEO李雪琳受品途商业评论在大会上作了主题演讲。

以下为讲演实录:

谢谢主持人,大家上午好!今天借这个机会跟大家用黑科技来分享一下我们对影视行业的洞察,希望能给大家带来一些有趣的东西。关注影视播放的人对这个数据并不陌生,这是最近一部大剧的数据,第一个数字15亿,这是这部剧全网一天的前台点击量,前台点击量是大家在各个平台能够看到的点击量数字。我们中国的人口是多少?一人点一次够不够?15亿。这部电视剧一周在全网最高点击量达80亿,平均每天10亿以上,在单平台一天播放破8亿。我们最大的视频平台日活有多少?这样一个视频平台的人均日活跃用户为这个剧要贡献3亿次点击可能还不太够,稍有常识的都会马上反应出来这数据有问题吧?这就是我们真真实实能够看到的数据。

黑科技多维度解读数据

今天我们就试图用黑科技来解读这些数据来到底有多少水分?接下来从三个角度来观察这个市场,连续剧网络播放市场现在有多大?增速到底是多少?更重要的是在评估市场增速的时候我们的评估标准到底是什么?

如果静态的来看市场规模,我们可以从两个角度来看,一个刚才热度传媒赵总已经提到了,我们有7亿多的网民,网络视频的使用率74.5%,用户侧大概5.5亿。从供给侧来谈,目前内地网络播放连续剧的数量一共有6400部,包括电视剧和网剧,截至目前所贡献的累计前台点击量有1.85万亿次。数学好的同学已经算出来了,平均每部贡献了不到3亿。实际上这个市场是一个头部内容通吃的市场,1.85万亿次点击的80%是被点击量最高的100部剧占领了。

再来动态的看一下这个市场的增速,我们观察日均的前台点击率,从去年的10月到今年的2月,全网内地连续剧的日均前台点击量从18.4亿次,疯狂增长到了30.7亿次,达67%的增长率。但是如果我们看上新剧集,无论从剧的数量,从集的数量和上线剧集的分钟数来看这两个月并没有什么变化。

另一个观察角度自然是用户,我们看到网络视频用户年度增长率,从2015年到2016年一年时间只增长了8%,这两个数字巨大的差别,真相到底在哪里?这样一个巨大的增速有多少是来自于用户的增长?用户使用行为的增强?有多少是水分?这里我们引入了有效播放的概念。

有效播放如何反应用户有效点击和观看时长

我们就看两条增长曲线,上面蓝色的曲线是前台点击量的月度增长,从2016年的10月到年底3个月时间,日均前台点击量增长了20%,同时有效播放增长了15%,还算基本同步。这里大家看到的这些剧名,分别是前台点击量在此月的前三名和有效播放在的前三名。2017年的头两个月,我们发现这两条增长曲线,出现了大幅度的背离,从去年10月观察,前台点击量日均增长了67%,而我们计算的有效播放也就是真实能够反映的市场播放,只增长了32%,基本上是前台点击量增速的一半。

这里我们就详细来聊聊我们为做有效播放?我们用大数据做垂直行业肯定要遵循大数据基本的技术规律,大数据行业最基本的规律是这几个V,海量(Volume)、时效(Velocity)、多元(Variety)、真实(Veracity)。我们的技术团队在这四个V上在做了非常成功的努力,也取得了一些成绩。每天海量的数据能达3个TB,同时对数据进行了实时的抓取,在数据的多元性方面,我们不但从视频网站拿到数据,从小说网站拿到数据,还覆盖了所有社交媒体,包括微博、微信、贴吧、豆瓣。但是我们做到第四步的时候,我们发现我们拿到的点击量数据很有问题,一部剧24小时的实际时播放量曲线是一条平直的直线,完全违背了人类的作息规律。

还有一种情况,一个剧一个平台在一个时间点的点击量一下涨几千万甚至上亿,这种现象并不是个例,如果我们作为大数据服务提供商,要为这个行业创造价值,必须要解决真实性的问题。只靠眼睛看虽能看出哪些剧注水,但是实际上是很难知道到底水有多大?这里我们引入了机器学习和人工智能的做法,我们大数据科学家开发了一套人工智能来识别刷量,计算有效播放的算法。

为了更容易的解释我们是怎么做的,这里要借用罗振宇今年跨年演讲讲到人工智能的一个例子,他讲到用机器或者用算法来识别图片中有没有猫的例子,人工智能的玩法是扔给机器大量有猫的图片,让机器自己去学,然后机器在自我教育之后,下一张图片如果有猫,猫在哪里机器就能认识。

我们也是一样的,我们扔给机器大量、实时、正常的,没有注水的各种视频的数据,包括点击量,包括来自视频网站的用户反馈,像点赞、评论、弹幕,包括来自社交媒体的数据。那么机器在吃够足够的数据之后,算法就被训练出来了,而且这个算法是随着时间更新的,所以用户行为的变化不会影响我们的算法,我们算法是能够跟上时间的发展。那么我们就能够计算出对于连续剧行业,这6400部剧每天的有效播放,能够知道这个市场每天的变化趋势,进而给这些部剧来排队, 每天发布有效播放的市场占有率排行榜。而我们发现在这张榜单上,连续剧的排名和按照前台点击量的排名经常长得非常非常不一样。

有效播放如何体现前台点击含金量?

那么有了有效播放这个武器,获得了这个标尺,我们就可以更深入的来观察这个市场现在到底是什么状态?这里我先要定义一个概念,前台点击含金量,拿我们计算出来的有效播放的数字除以大家能够观察到的前台点击量的数字,得出一个比值,这个比值越小,说明这个剧的前台点击含金量越低,水分越大。

那么我们就观察今年的1到2月这两个月的连续剧播放市场,我们取了两组剧进行对比观察,第一组是在1月和2月正在更新的这些剧,简单来说就是新剧,我们把它分成一组。另一组,我们选取了16年的11月1号之前已经完成更新的剧,也就是更新完结超过两个月的剧集,它们的前台点击含金量的差距大家会看到,接近3倍。很明显,相对于完结剧,整体来看,新剧在点击量注水上还是比较严重的。

我们再进一步观察,我们把1到2月这些更新的剧,一共有69部,把它再分成两组,我们把前台点击量的前10名分为一组,姑且叫它头部。剩下的59部成另一组,非头部。对比前台点击含金量,我们会发现虽然都是新剧,但是头部内容的含金量更低,所以有了有效播放这么一个标尺,我们来观察市场就很容易得出这三个结论:

第一,市场是在快速的增长,但是连续剧网络播放的增速远小于前台点击量反映出来的增速。

第二,剧集更新期间,点击量注水已经成为了普遍现象,这不是说天下乌鸦一般黑,整体来看注水情况很严重,我们甚至看到过前台点击量上百亿的大剧,含金量不到10%这种情况,当然也有水分不严重的剧。

第三,头部内容相对于非头部内容,在点击量注水上明显更严重。

这时候我们就有必要再回头看一下之前说的那部前台点击量破纪录的大剧,我们现在从有效播放的角度来观察,这部剧从上线到更新完结一共30天,因为我们知道每天连续剧市场有效播放一共是多少,所以能够计算这部剧在这30天内的市场占有率,它的市场占有率是多少呢?是20%以上,这意味着什么?用一种不太科学的方法估算,在这30天每5人次在网络上曾经看过电视剧或者网剧,其中就有一人看的是这部剧,这是一个非常优秀的数字。

如果把所有剧按照市场占有率排名的话,这部剧在这30天一直是第一名,而且它超第二名的市场占有率一倍以上,但是很遗憾它在更新期间的前台点击含金量只有29%。我不知道大家有没有跟我一样的疑问,这么一部真实播放数据非常优秀,在市场上绝对能排到第一的剧,为什么它的点击量仍然在注水?这样的一部剧即使它的前台点击量不注水也能够达到100亿,但是它为什么还要这样做?

这里又涉及到一个评估标准的问题,目前在视频的网络播放市场,除了视频网站报出来的前台点击量之外,并没有一个更好的评估标准,当我们把前台点击作为影视剧或者是视频网络播放的评估标准,或者是估值标准的时候,那做量的动机就出来的。这哪里是刷量?这明明刷的是估值嘛。你把你的前台点击量刷高一倍,意味着参与这部剧的所有因素,艺人、导演、公司、编剧在网络上创造了价值,被评估的时候就放大了一倍,当这个比例继续扩大,那么你的估值就脱离了价值的基本。

行业一直在说的所谓艺人的身价增长过快,制作成本上升过快,从网络播放的角度来讲,这种点击量的放大对它是不是有贡献?也值得我们思考。

前台点击作假,其实不像收视率,收视率从本质上来讲,它是有天花板的。有效播放首先它是第三方的,其次从算法的角度来说它对做量做数据是免疫的,有效播放为评估网络播放的真实价值提供了一个标准参考、一个更深刻,或者更精确的理解。

云合数据的数据、工具都是开放性的,在这个二维码公众号里面大家可以查到每一部剧每天的点击量与有效播放的情况。希望大家多和我们交流,谢谢大家!

本文为 品途商业评论( http://www.pintu360.com )作者:李雪琳创作,责编:孙鸣曦。欢迎转载,转载请注明作者姓名以及原文出处:http://www.pintu360.com/article/137599.html。不注明作者和出处品途商业评论有权追究其责任。本文仅代表作者观点,不代表品途商业评论观点。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181025A0837300?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券