我们说,数据是不会说谎的。
我们又说,数据是会说谎的。
我们发现,数据有时候说谎,有时候不说谎。
后来我们找到了一个可以自圆其说的说法:
数据不说谎,说谎的是不完整的数据。
但我们还是没弄明白应该如何去看待数据。
——佚名
起因,我们做了一个票房预测的Demo:
通过特征工程,数据筛选,模型优化,规则完善,我们的系统R2值达到了94.8%,好像和Google[2]比也差不多,一切看上去还不错,但是这样就够了吗?
首周票房预测效果
有一个很好的起点,但是这个Demo有什么用呢?仅仅是在电影上映前看一下娱乐一下,预测准了就是撞大运,预测不准才是正常情况。我们开始思考,前面的工作还只是学校实验室的做法,真正做一个工业上对拍电影有用的系统,那我们需要做什么事情?
仅仅是个开始。
深入—不仅仅是预测
2.1.票房预测
再一次回顾票房预测,我们先看看一部电影的票房是由哪些因素决定的:
我们看到影响票房最重要的几个因素:
票房影响因素分解图
另一方面,结合电影制作流程,票房预测在不同阶段可以拿到的信息有所不同,影响影片票房的因素很多,从影片的筹备制作到影片上映,影响的因素都有所不同,且每个因素对最终票房产生的影响也有着巨大的不同。
电影周期票房影响因子示意图
因此本次根据影片所处的阶段,进一步提供了三种预测模型:
票房预测时间-精度-价值关系
比如《洛克王国4》针对不同阶段,我们给出不同的预测结果:
要提升预测能力,特别是早期预测,需要做什么?
影响力计算
既然影响力的计算的重要,影响力计算主要遇到的问题有哪些呢?
我们抽象为三个问题:
关于语义消歧(Word Sense Disambiguation)在NLP领域是一个比较难的问题,下面是我们在实际工作中遇到的问题分类,每一个都不容易:
WSD业界主流的方法有命名实体识别(NER),还有基于词袋的文本分类模型,语义模型,基于词向量的WSE+WSD等等方法,这块儿有机会专门写一篇文章来介绍。
受众分析
从国外的Marvel的超级英雄系列电影的火爆,到国内《三体》《盗墓笔记》等作品,IP改编电影的风潮越来越盛行。这里很重要的原因:明星IP本身聚集大量的人气,有着大量的粉丝,如果营销得当,很容易把这部分粉丝转化为电影观众。
举一个例子,我们通过腾讯数据计算发现,《十万个冷笑话》大电影,有50%以上的观众都是这个IP动漫的粉丝。
所以受众分析主要集中在几个点:
下面我们给出IP受众分级一个例子:
IP受众分级
明星人物的刻画也是很重要的因素,下面是杨幂的形象关键词:
某个IP的受众画像:
舆情分析
随着网络舆论活跃度的上升,舆情分析基本已经成为一个标配,通过舆情分析,我们可以了解网络民意、提取热点话题,更可以了解一个产品、一个公司的网络形象和社会影响力、提高其公关应变能力和重大事件处理能力。
舆情分析主要分成几个任务:
舆情分析的具体这里不讨论,具体可以参考文章[4][5]。
舆情计算流程
下面是我们的舆情系统给出的《寻龙诀》的整体概况:
舆情系统示例
主要技术
上面说了这么多,要做好票房预测(尤其是早期票房预测),不仅仅是预测,需要的技术点,我们汇总一下:
基于上面的基础技术能力,我们还能做什么呢,目前想到的有:
合作—腾讯电影+
去年九月份,互娱推出了以优质IP(intellectual property,知识产权)为核心的影视业务平台“腾讯电影+”,这是继腾讯游戏、腾讯动漫、腾讯文学之后,互娱推出的第四个实体业务平台,标志着我司正式布局电影业务。
在这个大背景下,我们和互娱市场部数据营销中心成立了“腾讯影视大数据联合项目”,目标是对影视行业从IP评估,筹备制作,宣传发行,营销排片,公关舆情整个流程提供数据支持服务。
先期以腾讯的五个IP《洛克王国》《择天记》《QQ炫舞》《QQ飞车》《尸兄》为试点案例,为IP改编影视积累方法论,建立影视数据运营体系,
系统怎么做,解决什么问题,大家都没经验,只能摸石头过河。因此,借助互娱的资源,我们一起考察了业界影视数据营销的主要公司:美国传奇影业,伟德福思,华影和艾漫,我们发现大家的做法大同小异,各有特点:
我们要做一个影视数据系统,和竞品比较,主要的特点在哪里,我觉得有几个方面:
1.预测模型:建立电影制作整个周期的预测能力,做到业界领先。
2.基础数据:腾讯独有数据(中国互联网1/3的数据)+内搜专业的外网抓取能力。
3.用户模型:基于腾讯8亿用户的IP受众分析体系。
电影知影系统,还在路上。