前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >量化未知 ——谈电影票房预测【海量服务之道2.0】

量化未知 ——谈电影票房预测【海量服务之道2.0】

作者头像
腾讯大讲堂
发布2018-02-12 17:15:41
7060
发布2018-02-12 17:15:41
举报

我们说,数据是不会说谎的。

我们又说,数据是会说谎的。

我们发现,数据有时候说谎,有时候不说谎。

后来我们找到了一个可以自圆其说的说法:

数据不说谎,说谎的是不完整的数据。

但我们还是没弄明白应该如何去看待数据。

——佚名

起因,我们做了一个票房预测的Demo:

通过特征工程,数据筛选,模型优化,规则完善,我们的系统R2值达到了94.8%,好像和Google[2]比也差不多,一切看上去还不错,但是这样就够了吗?

首周票房预测效果

有一个很好的起点,但是这个Demo有什么用呢?仅仅是在电影上映前看一下娱乐一下,预测准了就是撞大运,预测不准才是正常情况。我们开始思考,前面的工作还只是学校实验室的做法,真正做一个工业上对拍电影有用的系统,那我们需要做什么事情?

仅仅是个开始。

深入—不仅仅是预测

2.1.票房预测

再一次回顾票房预测,我们先看看一部电影的票房是由哪些因素决定的:

我们看到影响票房最重要的几个因素:

  • 基本面: 电影的类型,导演,演员,预计的档期,如果是IP电影,还有IP本身的影响力,受众等等,这些因素在电影筹备阶段基本就确定下来。
  • 传播度:通过各种营销活动,在互联网产生的影响力,比如搜索/社交/媒体的影响力,当然对应明星导演,相关话题也包括进来,传播度一般在宣发阶段,并且随着电影上映日期的接近逐步变高。
  • 排片量:一般是上映前一周才会有排片,排片量的大小一般取决于电影传播度,竞品和档期,这个一般由院线经理根据经验决定,当然如果有足够的排片数据,通过数据驱动的方式生成最优排片,也是未来的一个方向。

票房影响因素分解图

另一方面,结合电影制作流程,票房预测在不同阶段可以拿到的信息有所不同,影响影片票房的因素很多,从影片的筹备制作到影片上映,影响的因素都有所不同,且每个因素对最终票房产生的影响也有着巨大的不同。

电影周期票房影响因子示意图

因此本次根据影片所处的阶段,进一步提供了三种预测模型:

票房预测时间-精度-价值关系

比如《洛克王国4》针对不同阶段,我们给出不同的预测结果:

要提升预测能力,特别是早期预测,需要做什么?

  • 预测能力:更看重早期预测能力,预测的区间和置信度,而不是精准度。
  • 传播度计算:比较准确的计算电影相关的传播数据
  • IP信息挖掘: IP受众人数(粉丝分级,潜在观影转化人数)
  • 口碑舆情:分析IP作品口碑,舆论导向,评估IP价值和营销活动效果。

影响力计算

既然影响力的计算的重要,影响力计算主要遇到的问题有哪些呢?

我们抽象为三个问题:

  • 识别:能从互联网的各个来源识别出谈论目标IP的数据,这个面临歧义的问题,比如一个典型的例子就是“文章”,很多时候说的并不是“文章”这个明星。
  • 评级:不同来源和性质的数据重要度不一样,比如社交网络中,一般认为转发>评论>点赞;搜索数据中,点击>搜索;媒体数据中,权威站点新闻>一般站点.
  • 倾向:影响力也不一定是越大越好,比如一个明星遇到违法犯罪的新闻,一定是非常大负的作用,但是娱乐圈常常炒作的一些绯闻,反而对传播度有很大的帮助,一些争议性人物往往能吸引到更多的眼球(范冰冰,你知道有多努力的郭敬明)。

关于语义消歧(Word Sense Disambiguation)在NLP领域是一个比较难的问题,下面是我们在实际工作中遇到的问题分类,每一个都不容易:

WSD业界主流的方法有命名实体识别(NER),还有基于词袋的文本分类模型,语义模型,基于词向量的WSE+WSD等等方法,这块儿有机会专门写一篇文章来介绍。

受众分析

从国外的Marvel的超级英雄系列电影的火爆,到国内《三体》《盗墓笔记》等作品,IP改编电影的风潮越来越盛行。这里很重要的原因:明星IP本身聚集大量的人气,有着大量的粉丝,如果营销得当,很容易把这部分粉丝转化为电影观众。

举一个例子,我们通过腾讯数据计算发现,《十万个冷笑话》大电影,有50%以上的观众都是这个IP动漫的粉丝。

所以受众分析主要集中在几个点:

  • IP受众分级(核心用户,潜在用户)。
  • 受众画像计算(基本信息,兴趣信息),用于帮助产品营销。
  • 明星计算(影响力,受众,形象)。

下面我们给出IP受众分级一个例子:

IP受众分级

明星人物的刻画也是很重要的因素,下面是杨幂的形象关键词:

某个IP的受众画像:

舆情分析

随着网络舆论活跃度的上升,舆情分析基本已经成为一个标配,通过舆情分析,我们可以了解网络民意、提取热点话题,更可以了解一个产品、一个公司的网络形象和社会影响力、提高其公关应变能力和重大事件处理能力。

舆情分析主要分成几个任务:

  • 情感分析:主要是正负面情绪倾向的计算
  • 舆情观点提取:舆论的主流观点提取,评论主体提取。

舆情分析的具体这里不讨论,具体可以参考文章[4][5]。

舆情计算流程

下面是我们的舆情系统给出的《寻龙诀》的整体概况:

舆情系统示例

主要技术

上面说了这么多,要做好票房预测(尤其是早期票房预测),不仅仅是预测,需要的技术点,我们汇总一下:

基于上面的基础技术能力,我们还能做什么呢,目前想到的有:

合作—腾讯电影+

去年九月份,互娱推出了以优质IP(intellectual property,知识产权)为核心的影视业务平台“腾讯电影+”,这是继腾讯游戏、腾讯动漫、腾讯文学之后,互娱推出的第四个实体业务平台,标志着我司正式布局电影业务。

在这个大背景下,我们和互娱市场部数据营销中心成立了“腾讯影视大数据联合项目”,目标是对影视行业从IP评估,筹备制作,宣传发行,营销排片,公关舆情整个流程提供数据支持服务。

先期以腾讯的五个IP《洛克王国》《择天记》《QQ炫舞》《QQ飞车》《尸兄》为试点案例,为IP改编影视积累方法论,建立影视数据运营体系,

系统怎么做,解决什么问题,大家都没经验,只能摸石头过河。因此,借助互娱的资源,我们一起考察了业界影视数据营销的主要公司:美国传奇影业,伟德福思,华影和艾漫,我们发现大家的做法大同小异,各有特点:

我们要做一个影视数据系统,和竞品比较,主要的特点在哪里,我觉得有几个方面:

1.预测模型:建立电影制作整个周期的预测能力,做到业界领先。

2.基础数据:腾讯独有数据(中国互联网1/3的数据)+内搜专业的外网抓取能力。

3.用户模型:基于腾讯8亿用户的IP受众分析体系。

电影知影系统,还在路上。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2016-01-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯大讲堂 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档