数据理解
1、了解数据采集的意义在于真正了解数据的原始面貌,包括数据产生的时间、条件、格式、内容、长度、限制条件等。同时,对数据采集逻辑的认识增加了数据分析师对数据的理解程度,尤其是数据中的异常变化。很大程度上可以避免"垃圾数据进导致垃圾数据出"的问题。
例子:当用户在离线状态下使用APP时,数据因无法联网而不能发出,导致正常时间内的数据统计分析延迟。直到该设备下次联网时,数据才能被发出并归入当时的时间,就产生了不同时间看相同历史时间的数据时会有出入
在数据存储阶段,数据分析师需要了解数据存储内部的工作机制和流程,最核心的因素是在原始数据基础上经过哪些加工处理,最后得到了怎样的数据。由于数据在存储阶段是不断地进行动态变化和迭代更新的,其及时性、完整性、有效性、一致性、准确性很多时候因软硬件、内外部环境问题无法得到保证,这些都会导致后期数据的应用问题。
数据提取是将数据取出的过程。数据提取的核心环节是从哪取?何时取?如何取?
数据提取阶段,首先要求数据分析师具备数据提取能力。常用的Select From 语句是SQL查询和提取的必备技能,但即使是简单的提取数据工作也有不同的层次。
1、第一层是从单张数据库中按条件提取数据的能力 2、第二层是掌握跨库表提取数据的能力,不同的join有不同的用法; 3、第三层是优化SQL语句,通过优化嵌套,筛选的逻辑层次和遍历次数等,减少浪费个人时间和消耗系统资源。
数据分析师必须具备理解业务需求的能力,比如业务需要“销售额”这个字段,相关字段至少有产品销售额和产品订单金额,其中的差别在于是否含优惠券、运费等折扣和费用。订单金额包含了应用优惠券等因素,计算逻辑是在产品销售额(产品单价*数量)的基础上增加运费,再减去优惠券、促销折扣后的价格,该价格是用户应该支付的金额。
数据挖掘是面向海量数据时进行数据价值提炼的关键,以下是算法选择的基本原则:
需要掌握的与数据挖掘相关的能力: 一是数据挖掘、统计学、数学基本原理和常识; 二是熟练使用一门数据挖掘工具,Clementine、SAS或R都是可选项,如果是程序员出身也可以选择编程实现; 三是需要了解常用的数据挖掘算法,以及每种算法的应用场景和优劣差异点。
相对于数据挖掘,数据分析更多地偏向于业务应用和解读,在经数据挖掘算法得出结论后,如何解释算法在结果、可信度、显著程度等方面对于业务的实际意义?如何将挖掘结果反馈到业务操作过程中以便业务理解和实施是关键。
数据展现即数据可视化的部分,也就是数据分析师如何把数据观点展示给业务的过程。
数据应用是数据具有落地价值的具体体现,这个过程需要数据分析师具有数据沟通能力,业务推动能力和项目工作能力。
对与网站数据分析师的具体要求如下:
数据分析师的5点建议 1、数据是有立场的,立场决定解读 (数据对于业务来讲既是KPI的衡量标杆,又是业务的行动指南。有立场的数据直接影响数据解读,影响着业务的行动趋势。) 2、数据质量永远是数据分析立项后首先要考虑的 (数据质量验证: 1、理解数据来源、数据统计和收集逻辑,以及数据入库处理逻辑; 2、理解数据在数据仓库中存放的细节,包括字段类型、小数点位数、取值范围、规则约束等; 3、明确数据的取数逻辑,尤其是在过程中是否对数据有转换或者重新定义; 4、第一时间对数据做数据审查,包括数据有效性验证、取值范围、空值和异常值验证,确定其是否与原始数据原则一致等。) 5、业务应用能力和工具应用能力都重要,不要迷信算法和模型 (很多数据分析师会过度关注算法和模型在数据分析过程中的作用。但其实在面向业务类的实际工作中,业务要的不是多少种算法或模型,而是要面对业务问题的解决方案。) 6、业务需求是数据分析的起点,但之前需要培养业务的数据意识 业务需求是数据分析的起点,很多时候数据分析师在“等”业务方提出需求,然后通过数据支撑业务方更好地开展工作。但实际情况却是业务方不需要数据,这种现象既可能是传统习惯造成的,也可能是公司文化影响的,甚至可能是个人因素导致的。
数据分析师不能要求业务方必须懂数据、理解数据,但是需要告诉业务方数据能解决什么问题、带来哪些改进与提升,如何帮助他们解决实际问题等数据价值告知业务,如何能用数据证明其提升价值会更有说服力。这样业务方才会相信数据的有效性、真实性、准确性。
本文分享自 Python爬虫数据分析挖掘 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!