梦想与前行——一名数据人的自白

前段时间看微博话题讨论有些迷茫,有些已经被同行确认无疑的观点竟被反复强调,比如”数据挖掘/分析要懂业务”、”产品是数据价值变现的一条有效渠道”,观点没错,但听多了的感觉就好比一些健康养生专家在阐述吃饭对于健康的重要性,有些会质疑自己的认识,难道别人一直都不是在吃饭?还是说难道自己一直是个另类?任何观点与认识都是来自个体的经历,经历是前因,观点是后果,后果不重要,了解前因才是关键,只有知道前因,才能更好的对观点进行学习、转化与吸收。因此就有了这篇文章的动因,分享一下个人的数据从业历程,有些主观,但不失真实,抛砖引玉,期待交流。

一、不懂商业,技术就仅仅只是技术

正如微博名“@数据挖掘_PHP”所示,在没进入数据行业之前,我是一名标准的PHPer,在一家公关公司从事营销传播的技术支持工作。有一次项目是网站建设,在进行类目规划时,发现竟然还有数据监测和咨询公司,不明觉厉,数据监测?咨询?西服领带?空中飞人?哇~高端大气上档次!从那以后开始对数据公司的关注,一个月后进入到一家舆情咨询公司A,开始了数据之旅。需要提及的是,在公关公司我的认识是,不懂商业,技术就仅仅只是技术。商业是什么?商业是别人有某种愿意付费交换的需求,如果只停留在后端,你永远聆听不到这种需求,再大的金矿此刻也只是一朵浮云。有一个深刻的经历,当时为了丰富网站,需要采集百度内容,不停的拼接模拟关键词结果url,无意发现可以更改搜索框的下拉联想,然后就没有然后了,仅是知道这么个事而已,后来在与客户闲聊的过程中得知,他们一直在付费寻找这种操作方式,通过改变下拉联想来增大品牌曝光(变相广告)或者减小品牌曝光(危机处理)。从这个例子来看,技术的高深与价值的大小不是正比关系,需求是技术转变为价值的催化剂,试想下如果没有听到这个需求,这个信息可能就驻留在我的脑海,直至遗忘,当然,在技术人眼里,这件事确实没啥可傲娇的技术难度。作为一名程序员,为了所谓的性能、封装、代码洁癖,在技术海洋里深钻,或许可以成为一代大牛,同时也会被大公司绑架,毕竟不是所有IT公司都有大流量并发的,这种带有上吊性色彩的自我感动使得码农一边在拼命各种学习,然后一边在呐喊”难道我的未来就是coding么”,不,我不要这样!

二、不懂包装,数据就仅仅只是数据

在A公司主要负责舆情数据的采集工作,通过关键词的定制汇集各大网站的信息进行汇总、统计,进而提供给分析师撰写报告。说的直白点,通过网络上的公开信息,进行搜集、整理、二次包装出新的内容阅读物并进行售卖,一套商业流程结束。也就是说,在舆情产品的生产体系里,原材料是免费的,产品是付费的,如何提高筹码就是中间的搜集、整理环节, 于是便学会了商业包装、学会了产品设计、知道了方法论。

· 商业包装:从源数据到售卖产品,中间还有很多步骤,如何让报告更充实,显得对得起它的标价,商务流程、外观美化、话语话术起码得专业;

· 产品设计:数据是公开的,用户是感性的。不同的用户群有不同的认知与使用习惯,得像市场小贩一样,看人给菜,原料就那么点数,需要变出不同的组合维度,以供飨享;

· 方法论:不是随随便便在搜索引擎上搜到几篇企业的负面信息就得提醒企业去做危机预警的,预警的多了就不叫预警,一定得有方法、有科学依据,同时还得给出具体的危机公关建议;

就这样,按照码农的自我画像,一天不coding,蛋蛋碎到疼,时间长了,就有些不安,同时自认为对舆情的商业了解比较深刻,1、舆情监测只能告诉你有病,无法做到我有药2、如果体检能挣1份钱,治疗能挣6份钱,国人更喜欢有病求医,常态体检是达官贵人(上市公司)的宠物,体检与治疗不能一起抓,否则公正性受质疑3、舆情监测不是技术派的玩物,商业环节是主要瓶颈。随后去了一家第三方互联网数据服务公司B,负责网站分析产品的开发和设计。

三、不懂执行,策略就仅仅只是策略

网站数据不同于舆情数据,在原材料获取上有一定的竞争优势,通过在各大媒体网站上的js布码,收集到用户的网站浏览数据,从而进行网站分析产品、营销策略、流量认证、网站优化、广告效果等业务产品输出,在这里,编码能力得到进一步提高,以前是用php进行web开发,这里是用php+shell+awk进行日志文件的统计计算,数据更大了,对性能要求也更高了,更重要的是我的知识体系里又多了一个分支-------网站数据,由于性格上的某些缘故,同时还被安排了产品经理和售前的工作任务,直接对接客户了解需求、设计指标、规划产品。其中,个人最有成就感的是负责某网站的音视频评估项目,指标不多,有效播放次数(播放时间超过3分钟的为一次有效播放)、播放时长、独立IP数、独立用户数和来源,时间维度分为刻、时、日、周、月,考核对象为节目、栏目和分发渠道,网站下分多个栏目,每个栏目有自制内容节目,这些内容节目在网站上有直播、点播和视频播放三种分发渠道,在手机APP上也有分发渠道,该项目就是通过收集这些节目在分发渠道上的用户行为反馈数据,来给网站考核栏目组、各栏目组考核节目组使用。这里有几个难点:

1. 播放时间超过3分钟的为一次有效播放,因此需要改写收码js,在播放状态时每一分钟回传一次心跳数据,用来判断播放时间是否超过3分钟;

2. 数据可以累加,大范围=小范围之和,某栏目的某月有效播放次数等于该月该栏目下的所有节目在各分发渠道的有效播放次数之和;

3. 临界值处理,如果某个有效播放跨时间临界值了,9:58-10:02,播放时长4分钟,算做一次有效播放,但在时报里,9点时段的播放时长为两分钟,10点时段的播放时长也为两分钟,各自都不计为有效播放次数;

4. 移动终端的回传码定制;

毕竟考核涉及到利益,因此在指标计算以及数据的公平性上要求更加严格,数据上的多1少1,影响的是客户对数据公正上的存疑,容不得半点马虎,每月最头疼的事就是检查各种维度的交叉对比,看看是否一致,是这个项目教会了我对数据的敬畏。

类似的项目做多了,困扰也来了,按理说数据产品是要跟客户做价值交换的,客户购买炒股软件是想要挣钱的、购买网站分析产品是想提高(购买)转化的,但是逻辑不通,如果真能达到目的那数据公司还卖产品做什么?直接做电商就是喽,包括最近一些线下交流,不少同行也同样为此困惑,自己辛勤付出的分析报告到底能为公司/客户带来多少的价值收益?内心自我认可,可现实无法评估,只能继续重复。我的感受:数据分析是指将隐没在数据中的信息,进行集中、清洗、提炼并发现策略的过程,产出是策略,策略是否有效,需要检验,在给出策略的同时给出执行建议过程,并协商好按照这样的执行过程最后达到什么状态则意为策略有效,有了这样的生产和检验流程,数据究竟是不是马后炮也就显而易见了,不懂执行,策略就仅仅只是策略。这里需要提及的是,也许有人会问,如果分析人员比执行人员更懂执行了还需要分析人员干嘛?我这里有个比较扫兴的看法:数据分析本非难事,实质是思维逻辑方法,理想的情况下是应当被融入到产品、运营、开发、财务、老总等一系列职业角色之内,只是因为数据收集、整理比较费时费力,那就招一个人负责数据收集和整理吧,边缘与博弈,于是就发展到现在这样一个尴尬的局面。

四、不懂人文,机器就仅仅只是机器

现在,我在一家微博数据创业公司,拿网站数据、舆情数据和微博数据做下对比,如果说舆情数据侧重信息,网站数据侧重用户(行为),微博数据则是信息与用户的统一体,更重要的是,这里的分析维度偏重社科人文,举个例子,网站数据是以用户的浏览行为来定义cookie的兴趣,微博数据则是以用户的关注对象、微博内容、互动行为来定义兴趣,微博用户关注了什么人,看到了什么内容,因此发了一条怎样的感慨,被他的小伙伴们进行互动影响又变成了怎样的认识,他关注的人为何发布这样的信息?是否也经历了这样的影响过程?。。。。。这,绝不是简单的线性思考方式,更多了一些复杂人性的味道,不懂人文,机器就仅仅只是机器,社交网络还有很多答案没有解决,包括分析维度和产品模式,也这是因为此,凭添了许多探索与乐趣。

五、总结

回顾一下,我的数据从业历程是从舆情咨询公司切入,那里有稍微学术点的指标体系和方法论;然后在数据服务公司提升,那里有落地的技术实现方法;最后在微博数据创业公司回炉,将之前的知识体系进行应用和整合。一直靠近商业交易环节,所以更能深刻体会业务和产品对于数据变现的重要性。大数据变化的只是数据的存储和技术处理环节,对于商业,最终比拼的还是产品创新和商务运营能力,如何让数据实打实的产生价值,简单粗暴回馈商业,愿与各位一同探索,迎接数据行业真正的春天。

就在快收尾的时候,看到Q群有人分享了这样 一句话,“人生是一场艰难的考试,很多人没考好是因为他们一直在抄别人的答案,却没注意到每个人的卷子都不一样...”,本文的目的就是展开我的考卷,也期待您的考卷!

原文发布于微信公众号 - 大数据挖掘DT数据分析(datadw)

原文发表时间:2014-08-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏孟永辉

调整来临,网络大电影或将不只是网络大电影

2635
来自专栏大数据文摘

业界 | 谷歌发布AI七原则,不开发伤人武器,但没说不介入战争

993
来自专栏新智元

【金融客服AI新玩法】语言学运用、LSTM+DSSM算法、多模态情感交互

编辑:张乾 【新智元导读】目前,金融业智能客服创业公司大量涌现,一方面说明行业整体技术壁垒较低,另一方面,也说明智能客服的在金融领域的应用商业场景还有巨大的开发...

2735
来自专栏孟永辉

拼多多危机:一次充满赞美与诋毁的新生

自从拼多多上市以来,有关它的消息一刻都没有中断。拼多多将这场危机定义为市场竞争者的有意抹黑,并且已经报警。但是,是否真的是一场危机还需要时间进行考量。如果真的的...

1393
来自专栏新智元

北大 AI 公开课第2讲实录-雷鸣&余凯漫谈嵌入式AI(超级完整版)

【新智元导读】“北大 AI 公开课”系统第二讲《嵌入式人工智能:从边缘开始的革命》于周二晚上结束,北大人工智能创新中心主任,百度创始七剑客之一雷鸣和前 IDL ...

3476
来自专栏AI科技评论

业界 | AI在谷歌,如何「不作恶」

AI 科技评论按:今年 3 月,谷歌与美国国防部在 Project Maven 上合作的消息泄露。由于 Project Maven 的目标是用于无人机的视频检...

1094
来自专栏PPV课数据科学社区

“数据分析师”这个职业有多热?

根据“谷歌趋势”,在2011年的时候,“大数据”还很少被用作搜索词,但是从2012年开始到现在,你几乎能听到各行各业的人都在谈论“大数据”。这是一个增长非常迅速...

2755
来自专栏灯塔大数据

亚马逊阿里 搭建数据化运营系统秘籍

随着互联网时代的发展,企业发现过去他们所做的粗狂式运营已经不能有效的提升效率和增加企业用户了,所以,一些企业开始找寻新的运营方式,比如逐渐转变为CPM(每千人...

3336
来自专栏腾讯研究院的专栏

信任、公正与责任:IEEE人工智能合伦理设计指南解读

蔡雄山  腾讯研究院法律研究中心副主任、首席研究员   曹建峰  腾讯研究院法律研究中心研究员   巴洁如  腾讯研究院法律研究中心高级研究员   ...

18310
来自专栏BestSDK

7个设计准则,让你的服务体验有质的改变

一.产品还是服务? PRODUCT OR SERVICE ? 当制造商生产了一款产品,是最终向用户兜售这款产品还是一项服务?比如是卖一辆车,还是一种不同的...

2644

扫描关注云+社区