1
一个典型的数据产品流程
数据采集,数据产品的第一步就是数据采集,也是整个数据产品的根基
数据传输,指的是数据以何种方式流入到存储介质,比如日志是通过logstash还是filebeat采集到kafka的,前端的操作记录是通过http请求发送的
数据建模/存储,指的是对数据清洗、加工并存储的过程
数据统计/分析/挖掘,产生数据价值的流程,也是数据处理的重点
数据可视化,其实不要觉得这个词多高大上了,用 excel 展示数据也是可视化,用 ppt 展示数据也叫做可视化
2
数据采集是根基
数据采集有下面几个方面的要求
(1)完备性
(2)多维度
(3)及时性
(4)准确性
所谓完备性,就像如果只有订单的业务数据,而没有用户下单之前的操作数据,那就没法去优化页面。往往用户的操作行为是最有价值的数据。
多维性,就是前面讲的,维度要多,维度越多,才有可能满足后续复杂的分析需求
比如,前端的维度,需要客户端的浏览器信息,操作系统,ip解析出来的省份和城市,渠道
用户,需要用户的基本属性,性别,年龄,职业,收入状况等
商品,需要商品的基本属性
及时性,比如,某次新增一个 H5 页面,那么就需要及时的知道,这次效果怎么样,而不是等到一个礼拜之后,才能看到
准确性,这也是非常重要的,根基没法做到准确,上层的数据也根本没法做下去
3
数据采集的对象
(1)前端操作
JavaScript,IOS,Android 产生的按钮点击,下拉框选择等用户操作行为日志
(2)后端日志
Nginx、UI、Server
像浏览、检索、购买、支付,一般后台都会有相应的业务日志
(3)业务数据
数据库,CRM
会提供物流、进货、客服等关系型数据库数据