专栏首页腾讯大讲堂的专栏量化未知 ——谈电影票房预测【海量服务之道2.0】

量化未知 ——谈电影票房预测【海量服务之道2.0】

我们说,数据是不会说谎的。

我们又说,数据是会说谎的。

我们发现,数据有时候说谎,有时候不说谎。

后来我们找到了一个可以自圆其说的说法:

数据不说谎,说谎的是不完整的数据。

但我们还是没弄明白应该如何去看待数据。

——佚名

起因,我们做了一个票房预测的Demo:

通过特征工程,数据筛选,模型优化,规则完善,我们的系统R2值达到了94.8%,好像和Google[2]比也差不多,一切看上去还不错,但是这样就够了吗?

首周票房预测效果

有一个很好的起点,但是这个Demo有什么用呢?仅仅是在电影上映前看一下娱乐一下,预测准了就是撞大运,预测不准才是正常情况。我们开始思考,前面的工作还只是学校实验室的做法,真正做一个工业上对拍电影有用的系统,那我们需要做什么事情?

仅仅是个开始。

深入—不仅仅是预测

2.1.票房预测

再一次回顾票房预测,我们先看看一部电影的票房是由哪些因素决定的:

我们看到影响票房最重要的几个因素:

  • 基本面: 电影的类型,导演,演员,预计的档期,如果是IP电影,还有IP本身的影响力,受众等等,这些因素在电影筹备阶段基本就确定下来。
  • 传播度:通过各种营销活动,在互联网产生的影响力,比如搜索/社交/媒体的影响力,当然对应明星导演,相关话题也包括进来,传播度一般在宣发阶段,并且随着电影上映日期的接近逐步变高。
  • 排片量:一般是上映前一周才会有排片,排片量的大小一般取决于电影传播度,竞品和档期,这个一般由院线经理根据经验决定,当然如果有足够的排片数据,通过数据驱动的方式生成最优排片,也是未来的一个方向。

票房影响因素分解图

另一方面,结合电影制作流程,票房预测在不同阶段可以拿到的信息有所不同,影响影片票房的因素很多,从影片的筹备制作到影片上映,影响的因素都有所不同,且每个因素对最终票房产生的影响也有着巨大的不同。

电影周期票房影响因子示意图

因此本次根据影片所处的阶段,进一步提供了三种预测模型:

票房预测时间-精度-价值关系

比如《洛克王国4》针对不同阶段,我们给出不同的预测结果:

要提升预测能力,特别是早期预测,需要做什么?

  • 预测能力:更看重早期预测能力,预测的区间和置信度,而不是精准度。
  • 传播度计算:比较准确的计算电影相关的传播数据
  • IP信息挖掘: IP受众人数(粉丝分级,潜在观影转化人数)
  • 口碑舆情:分析IP作品口碑,舆论导向,评估IP价值和营销活动效果。

影响力计算

既然影响力的计算的重要,影响力计算主要遇到的问题有哪些呢?

我们抽象为三个问题:

  • 识别:能从互联网的各个来源识别出谈论目标IP的数据,这个面临歧义的问题,比如一个典型的例子就是“文章”,很多时候说的并不是“文章”这个明星。
  • 评级:不同来源和性质的数据重要度不一样,比如社交网络中,一般认为转发>评论>点赞;搜索数据中,点击>搜索;媒体数据中,权威站点新闻>一般站点.
  • 倾向:影响力也不一定是越大越好,比如一个明星遇到违法犯罪的新闻,一定是非常大负的作用,但是娱乐圈常常炒作的一些绯闻,反而对传播度有很大的帮助,一些争议性人物往往能吸引到更多的眼球(范冰冰,你知道有多努力的郭敬明)。

关于语义消歧(Word Sense Disambiguation)在NLP领域是一个比较难的问题,下面是我们在实际工作中遇到的问题分类,每一个都不容易:

WSD业界主流的方法有命名实体识别(NER),还有基于词袋的文本分类模型,语义模型,基于词向量的WSE+WSD等等方法,这块儿有机会专门写一篇文章来介绍。

受众分析

从国外的Marvel的超级英雄系列电影的火爆,到国内《三体》《盗墓笔记》等作品,IP改编电影的风潮越来越盛行。这里很重要的原因:明星IP本身聚集大量的人气,有着大量的粉丝,如果营销得当,很容易把这部分粉丝转化为电影观众。

举一个例子,我们通过腾讯数据计算发现,《十万个冷笑话》大电影,有50%以上的观众都是这个IP动漫的粉丝。

所以受众分析主要集中在几个点:

  • IP受众分级(核心用户,潜在用户)。
  • 受众画像计算(基本信息,兴趣信息),用于帮助产品营销。
  • 明星计算(影响力,受众,形象)。

下面我们给出IP受众分级一个例子:

IP受众分级

明星人物的刻画也是很重要的因素,下面是杨幂的形象关键词:

某个IP的受众画像:

舆情分析

随着网络舆论活跃度的上升,舆情分析基本已经成为一个标配,通过舆情分析,我们可以了解网络民意、提取热点话题,更可以了解一个产品、一个公司的网络形象和社会影响力、提高其公关应变能力和重大事件处理能力。

舆情分析主要分成几个任务:

  • 情感分析:主要是正负面情绪倾向的计算
  • 舆情观点提取:舆论的主流观点提取,评论主体提取。

舆情分析的具体这里不讨论,具体可以参考文章[4][5]。

舆情计算流程

下面是我们的舆情系统给出的《寻龙诀》的整体概况:

舆情系统示例

主要技术

上面说了这么多,要做好票房预测(尤其是早期票房预测),不仅仅是预测,需要的技术点,我们汇总一下:

基于上面的基础技术能力,我们还能做什么呢,目前想到的有:

合作—腾讯电影+

去年九月份,互娱推出了以优质IP(intellectual property,知识产权)为核心的影视业务平台“腾讯电影+”,这是继腾讯游戏、腾讯动漫、腾讯文学之后,互娱推出的第四个实体业务平台,标志着我司正式布局电影业务。

在这个大背景下,我们和互娱市场部数据营销中心成立了“腾讯影视大数据联合项目”,目标是对影视行业从IP评估,筹备制作,宣传发行,营销排片,公关舆情整个流程提供数据支持服务。

先期以腾讯的五个IP《洛克王国》《择天记》《QQ炫舞》《QQ飞车》《尸兄》为试点案例,为IP改编影视积累方法论,建立影视数据运营体系,

系统怎么做,解决什么问题,大家都没经验,只能摸石头过河。因此,借助互娱的资源,我们一起考察了业界影视数据营销的主要公司:美国传奇影业,伟德福思,华影和艾漫,我们发现大家的做法大同小异,各有特点:

我们要做一个影视数据系统,和竞品比较,主要的特点在哪里,我觉得有几个方面:

1.预测模型:建立电影制作整个周期的预测能力,做到业界领先。

2.基础数据:腾讯独有数据(中国互联网1/3的数据)+内搜专业的外网抓取能力。

3.用户模型:基于腾讯8亿用户的IP受众分析体系。

电影知影系统,还在路上。

本文分享自微信公众号 - 腾讯大讲堂(TX_DJT),作者:leonfu

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2016-01-14

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 腾讯设计师告诉你,如何从用户体验角度将文案与视觉融合

    关于作者 刘韬,腾讯CSIG\企业产品部\企业产品设计中心\企业产品设计一组 企业产品设计一组员工 导语I在设计网站的过程中,设计师们通常将精力投入在框架结构...

    腾讯大讲堂
  • 解码未来产品经理|2017中国产品经理大会现场报道

    9月23日,2017中国产品经理大会:解码未来产品经理在深圳宝立方国际博览中心如期举行。现场近百位志愿者,16位重量级大咖,与各位小伙伴一起,诠释产品创新动向,...

    腾讯大讲堂
  • 【专属福利】汇聚微信/亚马逊/饿了么等产品实战专家,2天深聊产品商业化实践干货!精彩内容抢先看!

    由人人都是产品经理、起点学院主办的2020产品经理大会5城巡回,上海站即将开幕! 下一站,12月26-27日 · 北京,点击「阅读原文」,获取大会资料包以及了...

    腾讯大讲堂
  • Vue[0x03] - Vue基础实践

    抓重点讲吧,最开始可追溯的版本号是0.6.0这个,但是正式对外发布的版本是在2014年1月24日发布的0.8.0。后面就是两个打头的里程碑,一个是1.x.x,一...

    丰臣正一
  • 舆情分析:大数据时代如何应对社会热点

    正确回应社会热点舆情、推动国家治理能力和治理体系的现代化,已成为社会各阶层的共识。本文以近年来几个舆情案例的得失为例,研究新媒体环境下舆情应对的规律。 近年热点...

    钱塘数据
  • ES6笔记(5)-- Generator生成器函数

    Generator的声明方式类似一般的函数声明,只是多了个*号,并且一般可以在函数内看到yield关键字

    书童小二
  • 算法(五)字典树算法快速查找单词前缀

    字典树,又称单词查找树,是一个典型的一对多的字符串匹配算法。“一”指的是一个模式串,“多”指的是多个模板串。字典树经常被用来统计、排序和保存大量的字符串。它利用...

    一只羊
  • [LeetCode] 82. Remove Duplicates from Sorted List II

    【原题】 Given a sorted linked list, delete all nodes that have duplicate numbers...

    用户1148830
  • 「 Android开发 」开启第一个App应用

    最近玩了下Android,但遇到了一些坑,浪费了很多的时间,在此记录一下,你若是遇到了就知道怎么解决了 PS:建议使用电脑网页打开,图片较多

    KEN DO EVERTHING
  • python pyqt5 QSpinBox 计数器

    import sys from PyQt5.QtCore import * from PyQt5.QtGui import * from PyQt5.Qt...

    用户5760343

扫码关注云+社区

领取腾讯云代金券