互联网电视运营商的大数据主要来自于哪两部分?

互联网电视运营商的大数据主要来自于两部分:一部分来自网络,这一类数据称为过程数据,如用户的开关机行为数据、位置移动数据、上网行为数据等。另一部分来自业务支撑系统,这一类数据称为业务数据,如用户的个人信息数据、电视收看数据、缴费数据、消费数据等。这些数据种类繁多,难以一一详述,本文仅以与用户行为相关的数据为例,来阐述如何进行数据采集与处理。

这些用户行为数据采用基于HBase的分布式数据库。HBase数据库属于Apache Hadoop体系,能进行大型数据的实时、随机读写访问。与以往的RDB(Relation Data Base)比较,HBase具有扩展灵活、支持大批量数据、低成本等优势。

数据采集。在运营分析体系中,每个互联网电视终端都对应了一个用户,该用户都有唯一的用户标识(UserID);用户从终端网络的接口来使用并访问各类业务服务,在终端系统上,用户的各种行为信息都会上传到系统平台(Open Api)中,系统平台处理完数据后再入库,然后为运营分析系统提供单个用户或批量用户的查询工作,如图2所示。

数据处理。HBase对MapReduce API进行了扩展,方便MapReduce任务读写HTable数据。MapReduce提供了一个编程模型,将磁盘读写问题进行抽象。MapReduce将数据抽象成并演变成为对一个数据集(key/value对组成的集合)的计算。这个计算是由Map和Reduce两部分所完成的,也就是将数据抽象成为Map和Reduce两个对外的接口。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181105A04K2300?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券