【独家科普】揭秘大数据的分析方法

大数据文摘原创文章

作者:Larry,“大数据文摘”主笔,数据行业从业者。

编注:“大数据文摘”的很多读者亲友,一些纯粹的大数据爱好者,甚至有一部分企业管理者经常在后台向我们建议,希望我们能把大数据的分析系统做一个简单的介绍,不要“只见案例,不见原理”。于是Larry就自告奋勇来为大家做一个科普,带领读者亲友们一探究竟,让我们来揭开大数据推荐系统神秘的面纱!

  说到大数据,神马根据数据进行精准营销啊,神马更了解你的客户啊,神马啤酒尿布超市推送商品预测怀孕亚马逊预测式发货等等,你谷歌百度搜狗有道一气,都是说推荐系统如何如何牛逼的,但是没人介绍推荐系统到底是啥样的。今天来八一八。过年了,干货全当送礼。

  先看看系统架构吧。大多推荐系统架构基本是这样的:

  架构图看了,那就分别细说一下。

先说数据底层。或者叫基础数据层。这一层基本是在做数据的整合和批量处理。数据整合主要是整合产品系统的用户行为、日志等数据和相关运营监控系统的数据。一般是以客户的id为主键或key,形成一个大宽表。之后通过算法的批量计算进行聚类,分类等操作。形成的数据结果反馈至中间计算层。

中间计算层通过基础数据层的结果进行实时的小批量计算,将结果推送到进线计算层。

进线计算层结合中间计算层的结果和用户的实时使用和反馈进行结合。实时给出结果。

  呵呵,是不是和看绕口令一样?那看下面的例子。

  你要听歌。打开一个app,app里面就会有“今日推荐”,这个基本上是中间计算层的数据。还有一个就是猜你喜欢。“猜你喜欢”基本上是进线计算层的数据。还有就是音乐类型啊,场景啊,这个基本上就是基础数据层的批处理跑出来的。

  上面的内容权作科普。基本上告诉了大家推荐系统的架构是怎样的。

下面来点真正的干货!

1.推荐系统依赖全量数据。以一个音乐app产品为例。用的人多,反馈越多,可用作分析的用户数据就越多。数据越多,那些原本的数据挖掘算法,就会基于你的这个app训练得更好。或者说更适合于你自己的产品。所以说,你要想做一个好的app,花钱做推广吧。

2.算法很重要,但是需要逐步完善。算法是一个工具,工具用的好需要好的工匠。工程师作为工匠要快速的进行算法的完善,以便能够符合app的长期运营战略。以音乐app产品为例,短期的算法改进可能会让你有大量的用户,但是由于多种因素变化,某个或某些算法可能存在“半衰期”--就是说基于这个算法,你改进了很多次,但是计算结果用户都不喜欢。这个其实就是需要一个长期的稳健的规划。如何设计和改进你的算法策略和算法计划很关键。

3.了解你的产品。不管你的推荐系统是应用的电商网站,还是用于音乐app,还是其他。了解你的产品本身很重要。例如音乐类app产品,在应用中,用户对音乐场景的选择粘度要远高于对音乐类型的选择粘度--“忧伤时候必须听的歌”,“失恋必听30首”这样的歌单的点击会高于“R&B最牛100首”,“史上重金属经典50首”这样的歌单。这种情况下其实算法是帮不了你的,只能通过你对产品的感情了。

原文发布于微信公众号 - 大数据文摘(BigDataDigest)

原文发表时间:2014-01-25

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

研究了数千个在线课程,我整理了一份数据科学入门课清单

1.2K10
来自专栏Keegan小钢

小钢的架构思考:什么是架构

最近在思考架构方面一些最基本的问题,比如什么是架构?如何评价一个架构的好坏?是否有一些通用的基本原则指引架构设计?在面向对象设计方面,有单一职责、里氏替换、依赖...

1393
来自专栏智能算法

Google为何能在机器学习领域始终居霸主地位?

这不是武侠世界——她已经做到了。26岁的Holgate得到了第二条跆拳道黑带。这次是算法的黑带。Holgate花费数个星期沉浸于一个程序中,这次比肉搏更...

3749
来自专栏XIEJUN

未来十种AI人工智能技术

AI人工智能说(或写)出正确的单词并且是连贯的顺序来传达一个明确且清晰的意思,而且还能很容易被听众(或读者)理解,对于一台以完全不同于人脑的方式处理信息的AI人...

1340
来自专栏数说工作室

【数说·大数据圈】当我们谈论“细分”(segmentation)的时候我们在谈论什么

我们经常听到一些创业者说,“我做的这个产品主要面向XX客户”,有人服务于高净值人群、有人专门面向女性客户群,也有人专注于老年市场......,不同的客户群之间存...

4724
来自专栏华章科技

大数据入门,你需要懂这四个常识

大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观的呈现大数据特点,同时能够非常...

883
来自专栏后端技术探索

破解YouTube、Facebook推荐系统背后的那些算法

我之前翻译过一篇文章《破解 YouTube 的视频推荐算法》,得到了很多人的好评,在各个算法、大数据公号上纷纷转载。最初看到这篇文章是@fengyoung 在F...

4515
来自专栏华章科技

如何用大数据实现用户价值的最大化

首先,我们为什么要去做用户分析?面临繁琐的数据之中,需要做什么分析?怎么去提取数据?在建立用户画像模型的过程中,区分用户特征的关键点是什么?应该从哪些方面去寻找...

863
来自专栏达摩兵的技术空间

面试之你该为老板选什么样的人

本来的话,是觉得自己不够资历写这样的文章,不过总有一个过程嘛,自己也曾经作为技术面试官面试过一部分人,有一些自己的观点,可能会给还在面试或者面试官一些有益的启示...

741
来自专栏凌帅的阅读思考与实践

如何成长成我们想要的样子(下)

上一篇我们分析了阻碍坚持学习的硬件方面问题,大脑算力不够。下面我们继续分析软件方面。软件方面,就是学习方法不对。

664

扫码关注云+社区

领取腾讯云代金券