01数据产品经理从零到一:数据产品能力模型构建

笔者正在由电商产品经理转型数据产品经理,为了提升自己学习的效率,尝试以这种输出驱动输入的模式,将自己学习的思路和学习内容分享给大家,也希望可以与其他数据产品经理多多交流。

本文尝试凭借笔者的理解构建一套数据产品经理能力模型,作为自己未来学习的方向。本文共分四个部分,第一部分,从招聘市场需求入手,看市场上的招聘高级数据产品经理都需要掌握哪些硬实力;第二部分,结合一些数据产品经理的分享,梳理数据产品经理的朋友圈,因为沟通者一定程度决定了需要掌握多少“共通语言”;第三部分,构建数据产品经理能力模型,第四部分,详解一些数据产品常常接触的概念和系统。

一、从招聘要求看能力要求

笔者在拉勾网和猎聘网上搜索数据产品经理和高级数据产品经理,将岗位职责汇总整理,招聘方对于数据产品经理的需求如下所示:

1、熟练使用MySQL,SQL、Hive等语言; 2、熟悉数据生产加工流程; 3、对主流大数据产品、BI产品; 4、对数据仓库技术及理论有基本的了解,并对其发展趋势有深入了解; 5、了解数据分析,数据建模和数据挖掘技术及理论; 6、能很好地掌握产品思路、技术方案、商务策略等,驱动各角色解决问题 ,具有良好的商业洞察与判断,很强的逻辑思维能力、产品策划、品牌包装与宣传能力,对数据和业务敏感,有一定技术背景优先考虑。

从上面的企业招聘需求可以看出,数据产品经理除了需要具备一些普通产品经理基础能力外,对数据分析,商业智能,数据挖掘等技能有着非常高的专业门槛。虽然数据产品经理也细分出应用方向,大数挖掘方向,数据分析方向,但为了更加有效的共同,还是有必要补全知识结构。数据产品经理多是数据分析师和数据开发通过内部转岗完成的,笔者属于电商产品转应用方向数据产品,在发挥业务理解优势的同时,需要快速补全数据分析相关知识,便于与对接同事高效协作。

二、数据产品经理的朋友圈

曾经分析过AI产品经理模型,也是从产品经理的朋友圈说起,因为产品经理很多时候承担着协调推进角色,也承担了部分”翻译官“的觉,将业务需求转化成不同的语言表达,找老板要资源,请开发写代码,叙述清楚页面设计要求,这个时候就需要产品掌握不同分科中的一些”黑话“,让对方感觉你是自己人,数据产品经理也是同样的,我们来看看数据产品经理的朋友圈,也有助于进一步理解数据产品能力模型。

源于《阿里巴巴数据产品经理工作(总结篇)》

数据产品经理本质是互联网产品经理的一个细分领域,其产品的用户是公司内部,外部客户等,其目标是通过数据分析和挖掘,辅助其发现问题,提高决策准确性,而为了完成这类产品,我们不单要与传统的开发,交互,设计,用研,客户,测试同学打交道,还需要与数据分析师,数据科学家,AI工程师,数据仓库管理员等同学沟通,为了可以保证沟通中的效率,我们需要清楚沟通时可能会涉及到哪些专业名词,技术实现边界,行业发展情况,竞品实现逻辑,笔者将尝试在后续文章中梳理总结。

三、能力模型构建

数据产品经理是产品经理岗位的一个细分领域,其能力模型可以理解为一般产品经理能力模型+专业能力补充模型。下图是腾讯产品经理能力模型体系,清晰界定了不同等级产品经理19个能力侧重方向,整体来看学习能力,执行力,沟通能力,市场/用户调研与分析是最核心能力。

以上19个基础能力模型中,数据产品经理在技术知识模块和市场分析能力/前瞻性需要了解/熟悉/掌握如下知识和技能:

1、计算机语言层面:熟练使用MySQL,SQL、Hive等语言; 2、熟悉数据生产加工流程:数据采集,数据预处理,数据存储,数据分析,数据挖掘,数据可视化,数据服务产品化; 3、需要了解的各类技术理论及发展趋势 了解主流大数据产品及分布式大数据技术,如Hadoop(HDFS和MapReduce),Hive等; 了解主流大数据编程语言,如python、R、mongodb等、 了解主流BI产品,如Tableau、saiku、kylin、BDP、growingIO、神策等、 了解数据仓库技术及理论,并对其发展趋势有深入了解; 了解数据分析,数据建模和数据挖掘技术及理论;

四、数据产品经理经常面对的基础概念

1、可能接触到的英文缩写

数据仓库 Data Warehouse

数据集市 Data Mart

数据挖掘 Data Mining

DBMS:Database Management System数据库管理系统

DBA: Database Administrator数据库管理员

RDBMS:Relational Database Management System关系数据库管理系统

OLAP:(On-Line Analytical Processing)联机分析处理。OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。

OLTP:(On-Line Transaction Processing)联机事务处理。OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。

BI: Business Intelligence 商业智能

KDD:knowledge discovery in databases 数据库知识发现

2、数据分析,数据建模和数据挖掘的定义和区别

数据分析:Analysis of data is a process of inspecting, cleansing, transforming, and modeling data with the goal of discovering useful information, suggesting conclusions, and supporting decision-making.[源于wikipedia]可以看出,数据分析强调使用统计学方法,发现有用信息,支持决策,构造建设性结论。

数据挖掘:Data mining is the computational process of discovering patterns in large data sets involving methods at the intersection of artificial intelligence, machine learning, statistics, and database systems. It is an interdisciplinary subfield of computer science. The overall goal of the data mining process is to extract information from a data set and transform it into an understandable structure for further use.[源于wikipedia]数据挖掘与大数据关联性更加密切,利用人工智能,机器学习,统计学等知识,对于大型数据集进行分析,发现规律,预测未来,辅助决策。

数据建模:Data modeling is a process used to define and analyze data requirements needed to support the business processes within the scope of corresponding information systems in organizations. Therefore, the process of data modeling involves professional data modelers working closely with business stakeholders, as well as potential users of the information system.[源于wikipedia]数据建模是对现实世界各类数据的抽象组织,确定数据库需管辖的范围、数据的组织形式等直至转化成现实的数据库。 建模过程中的主要活动包括:确定数据及其相关过程;定义数据;确保数据的完整性;定义操作过程;选择数据存储技术。数据建模大致分为三个阶段,概念建模阶段,逻辑建模阶段和物理建模阶段。其中概念建模和逻辑建模阶段与数据库厂商毫无关系,换言之,与MySQL,SQL Server,Oracle没有关系。

数据分析和数据挖掘的关系:从数据量级来看,一般情况下,数据分析的数据量可能并不大,而数据挖掘的数据量极大。从建模条件来看,数据分析是从一个假设出发,需要自行建立方程或模型来与假设吻合,而数据挖掘不需要假设,可以自动建立方程。从分析对象来看,数据分析往往是针对数字化的数据,而数据挖掘能够采用不同类型的数据。从结果来看,数据分析对结果进行解释,呈现出有效信息,数据挖掘的结果不容易解释,对信息进行价值评估,着眼于预测未来,并提出决策性建议。数据挖掘与数据分析两者紧密相连,具有循环递归的关系。推荐阅读《数据分析、数据挖掘、数据统计、OLAP 之间的差异是什么?》

3、数据库,数据仓库和数据集市的定义和区别

数据库:数据库是指长期存储在计算机内有组织的、可共享的数据集合。数据库中的数据按一定的数据模型组织、描述和存储,具有较小的冗余度、较高的数据独立性和易扩展性,并可为各种用户共享。数据库理论的研究主要集中于关系的规范化理论、关系数据理论等。近年来,随着人工智能与数据库理论的结合及并行计算机的发展,数据库逻辑演绎和知识推理、并行算法等理论研究,以及演绎数据库系统、知识库系统和数据仓库的研制都已成为新的研究方向。

数据仓库:数据仓库(Data Warehouse) 是一个面向主题的(SubjectOri2ented) 、集成的( Integrate ) 、相对稳定的(Non -Volatile ) 、反映历史变化( TimeVariant) 的数据集合用于支持管理决策。首先,数据仓库用于支持决策,面向分析型数据处理,其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。

数据集市:为最大限度地实现灵活性,集成的数据仓库的数据应该存储在标准RDBMS(关系数据库管理系统Relational Database Management System) 中,并经过规范的数据库设计,以及为了提高性能而增加一些小结性信息和不规范设计。这种类型的数据仓库设计被称为原子数据仓库。原子数据仓库的子集,又称为数据集市。

数据库和数据仓库的区别:数据库是面向事务的设计,数据仓库是面向主题设计的。数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。从时间属性来看,数据库保存信息的时候,并不强调一定有时间信息。数据仓库则不同,出于决策的需要,数据仓库中的数据都要标明时间属性。

数据集市和数据仓库的区别:建议阅读文章《数据仓库和数据集市的区别》

4、商务智能与大数据的概念及发展概况

BI(Business Intelligence)即商务智能,它是一套完整的解决方案,用来将企业中现有的数据进行有效的整合,快速准确地提供报表并提出决策依据,帮助企业做出明智的业务经营决策。

商业智能的概念最早在1996年提出。当时将商业智能定义为一类由数据仓库(或数据集市)、查询报表、数据分析、数据挖掘、数据备份和恢复等部分组成的、以帮助企业决策为目的技术及其应用。而这些数据可能来自企业的CRM、SCM等业务系统。

主流商业智能产品:Tableau、saiku、kylin、BDP、growingIO、神策、阿里数加等。笔者正在阅读阿里巴巴的 《大数据之路》,后续将结合阿里数加产品整理阅读心得。

大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。大数据包括结构化、半结构化和非结构化数据,非结构化数据越来越成为数据的主要部分。

大数据的发展趋势:数据资源化,大数据与云计算深度结合,科学理论的突破,数据科学和数据联盟的成立,数据泄露泛滥,数据管理成为核心竞争力,数据质量是BI成功的关键,数据生态系统复合化程度加强。

5、数据处理流程

需求分析,数据采集,数据预处理,数据分析,数据挖掘,数据可视化,数据服务产品化(模板化)。

数据产品需求分析:向业务部门进行调研,了解业务需要解决的问题,将业务问题映射成数据分析工作和任务,同时结合平台已有能力,确定数据分析或挖掘方案。

数据采集:第一步需要定义数据源选择,DBA可以基于数据分析需要,找到相关数据,建立一张数据宽表,将数据仓库的数据引入到这张宽表当中,基于一定的逻辑关系进行汇总计算。这张宽表作为数据分析的基础,然后再依据数据分析需要衍生出一些不同的表单,为数据分析提供干净全面的数据源;

数据预处理:需要完成数据类型选择,缺失值处理和异常值检测和处理,实现数据标准化;

数据分析:详见下文,常见数据分析分析方法应用场景和概念;

数据挖掘:详见下文,结合机器学习的数据挖掘概述;

数据可视化:详见下文;

数据服务产品化:将结合阿里巴巴产品做细致分析。

后续笔者将梳理数据产品设计结构,从数据驱动产品设计,数据分析常用方法,数据分析工具的使用等,感兴趣的朋友可以添加关注。

原文发布于微信公众号 - 言之有术(yanzhiyoushu)

原文发表时间:2018-06-11

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据和云计算技术

运营商常见大数据业务

3.1 运营商常见的大数据业务 第1章介绍了运营商拥有的数据资产,运营商拥有从底层的设备和网络数据到上层的用户行为数据。有了这些数据,运营商大数据便可以衍生出...

447100
来自专栏日志易的专栏

运维未来的发展方向是智能运维(AIops)

近年来运维技术飞速发展,运维团队大多建设好了各种系统:虚拟化、容器化、持续集成等等。但是如何有效的利用这些系统最终实现站点的高可用、高性能和高可扩展?随着智能化...

93320
来自专栏互联网开发者交流社区

总结个人职场常用管理方式

瀑布式开发用行业术语来解释就是,在软件定项的时候个开发阶段的准备:需求分析,组件定义,概要设计,详细设计,编码规范,冒烟测试,PRE/PRD测试等。

9520
来自专栏靠谱PM

如何做需求分析

如上图理想中的男朋友和现实中的男朋友,因为有差距,所以就有了类似于“如何让男人宠爱一生”之类的书、情感专栏等产品产生。

17510
来自专栏大数据挖掘DT机器学习

【思考】实施数据挖掘项目考虑的问题

谈到数据挖掘应从以下三方面加以考虑:一是用数据挖掘解决什么样的商业问题,二是为进行数据挖掘所做的数据准备,三是数据挖掘的各种分析算法。 ...

36150
来自专栏灯塔大数据

产品经理究竟应该关注什么数据 由产品特点和生命周期决定

产品这群人啊,真的是三句话不离老本行,之前和部门的产品Mentor一起吃饭的时候,他问了我这么一个问题:“如果你是饿了么的产品经理,那你日常工作的时候应该关注一...

32260
来自专栏DevOps时代的专栏

从作坊到工厂 — 传统企业 DevOps 改造历程

? 作者介绍: 洪烨 资深DBA、数据中心架构师,培训讲师,Oracle YEP成员,拥有DB2 V9 Advanced Administrator、Orac...

415100
来自专栏大数据文摘

你应该了解的数据分析入门知识

19660
来自专栏云计算D1net

云计算离超级云计算还有多远?

单就一个行业而言,一直以来我们对于云计算所带来好处的认识可能显得过于狭窄了。如果云计算是一次真正的革命性变革,那么它就必须能够支持生产和用户体验的模式,而这些都...

47460
来自专栏量子位

报名 | NVIDIA线下交流会:手把手教你搭建TensorFlow & Caffe深度学习服务器

16820

扫码关注云+社区

领取腾讯云代金券