前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >数据分析流,12步阐述注意事项!

数据分析流,12步阐述注意事项!

作者头像
博文视点Broadview
发布2023-04-04 10:17:02
2550
发布2023-04-04 10:17:02
举报
文章被收录于专栏:博文视点Broadview

👆点击“博文视点Broadview”,获取更多书讯

数据分析流可以视作数据分析师的实践指南,也可以是模型关系管理的建设方案。

下面将按照12 个步骤来简要阐述数据分析流中的注意事项,将体系化的建模思路和非系统化的经验指导融为一体,从而多维度描述数据分析流和建模过程。

01

数据源

对于初级分析师而言,数据源的重要性远不及中高级分析师,大多数场景面对的数据源都来自SQL 抽取和问卷,以简单的结构化数据为主;对于中高级的分析师而言,需要掌握批次数据、流数据甚至是分布式的高性能处理,还需要掌握如何协同发挥大数据与小数据的综合价值。

02

数据源与需求

数据源与需求包括痛点和量化。

数据分析初期可以踩着业务痛点走,但后期还是需要自己的分析框架,因为业务问题会将数据分析引向一个无章法的框架中,即点与点无法连接。

因此,建议将痛点问题作为切入点,切入点的背后是数据分析架构。

一个没有建模框架指导的数据分析如同没有芯片的手机,可以使用但没有“灵魂”,所以在模型框架下契合业务的上下文,并辅以专家知识的规则自洽,就已是“上上策”。

03

因变量y量化

如果已经搭建了数据分析框架,那么可以将具体的痛点问题转化为数据分析问题,这就是所谓的量化,对应着方程式中的指标y。量化方式有多种,如分类与连续、显变量与潜变量等。

值得一提的是,这部分的量化标准通常以行业标准为主,以对潜变量概念的结构量化技术为辅。行业量化标准可以参阅银行的滚动率分析、账龄分析、电商客户流失的生命周期分析等。

04

产品设计与自变量

在建模过程中,特征筛选极其重要,特征筛选的优劣直接限定了模型的天花板。产品设计代表一种机理模型,是特征筛选的一部分,也是一种业务规范。

特征筛选的常见步骤:经验选择→相关筛选→特征整合→模型选择→特征压缩→工具变量。

05

数据描述与数据管理

数据描述是分析师了解数据的切入点,具体内容包括数据的分布、异常、拐点等统计信息。

其中,尽管对分布的要求出自统计学,但机器学习同样也会借助分布信息对模型进行参数调整和模型假设修正,并在此基础上寻求业务的合理解释,执行数据清理等常务性工作。

06

数据预分析

数据预分析或特征工程在机器学习领域中的建模、数据管理、数据治理方面非常重要,它的重要性俨然已超越建模本身,数据预分析的对象包括缺失值、异常值、特征筛选、特征变换、共线性、特征编码。

此处将数据预分析分为轻量级算法和重量级算法。

以缺失值为例,如果选择中位数填补缺失值,不涉及模型,那么可以视为轻量级(单变量)。

而使用随机森林填补缺失值,涉及模型(多变量),可以视为重量级。区分轻、重量级的标准是模型元素、运算量、准确度、工程量。

07

建模

建模犹如烹饪,为了做一道好菜,选、切、洗、配等环节花费的时间已远远超过炒菜本身。

随着数据分析场景的变化,建模过程需要的时间也不尽相同。

一般来说,统计学的小数据自带优秀的数据治理,因此可以将更多的精力花在模型本身上。但机器学习领域的大数据恰恰与此相反,机器学习更强调特征工程的辅助作用,并不是因为特征工程很重要,而是不得已而为之,因为数据质量很差会花费大量精力。

数据分析场景不但影响模型的运算时间,随着时间的推移,也使得模型不断进化,从模型1.0过渡到模型4.0,以应对完全不同的数据分析场景,感兴趣的读者可以进一步阅读《统计分析:从小数据到大数据》。

(1)模型1.0:人工阶段。

(2)模型2.0:小数据阶段。

(3)模型3.0:大数据之结构化数据阶段。

(4)模型4.0:大数据之非结构化数据阶段。

(5)模型5.0:大数据之结构与半结构化数据的融合阶段。

08

修正

统计学模型和机器学习模型的维度都可以称为高维。

据此检查模型假设将十分复杂,但因为残差是单维的,所以模型残差可以用于判断模型优劣,这也是修正模型最重要的判断依据。

机器学习拥有丰富的超参数,可以通过超参数的组合设计优化和改善模型。

(1)残差:假设是否成立。

(2)修正:超参数和特征工程。

09

模型评估

统计学模型的评估往往以静态的统计指标为主,如R2 ,机器学习模型则以动态评估为主。

例如,构建模型后,优先通过静态指标判断模型是否高于随机性,并在此基础上进行业务解释。

如果以上两种方式都能够顺利通过,那么后期的交叉验证和多期滚动都属于动态评估。

(1)静态指标:判断模型是否高于随机性,强调准确度;

(2)伪动态指标:交叉验证和多期滚动用于判断模型的稳定性;

(3)未知数据评估:平衡准确度和稳定性。

10

模型应用

归因与预测是模型应用的两大主要方向。

归因问题需要区分监督和非监督两类概念,监督模式对应于主次归因、规则归因、复杂归因、个案归因,而非监督模式是模糊归因。在监督模式中,如果自变量可以转变为具有监督的角色,那么可以产生复杂归因模式。

根据时间性质的不同将预测问题分为四种类型——内延、外推、延时、实时。其中,内延、外推、延时预测对模型性能没有要求,但实时预测需要高性能的支持。

(1)归因:强调对数据原有规律的学习。

(2)预测:强调对近期未来的预测。

11

模型部署

模型部署是模型训练完成后实现应用的重要环节。

其中,线下部署是最常用的方式,将训练后的模型直接应用于实践场景——归因或预测,对时间和运算没有要求。线上部署往往需要与外部系统协作,以web 呈现的形式展示数据自动化。批次部署和流部署对运算性能和分布式架构有特别严格的要求。

(1)下线部署是传统的模型部署方式。

(2)线上部署采用web 呈现,往往伴有报表系统和可视化系统。

(3)批次部署是实时性、无间断(间隔宽)的流运算。

(4)流部署是实时性、无间断(间隔窄)的流运算。

12

输出

在早期统计学领域,如果模型伴有通俗易懂的可视化输出,那么该模型往往在实际应用中的频率较高,这种现象同样也体现在机器学习中。大多数模型的输出都过于专业,将专业转化为非专业载体主要采用可视化和报表两种方式。

(1)可视化:可视化图形的种类繁多,而一种软件不可能穷尽所有图形。但Python 的生态环境提供了100 多种可视化库,用于各种场景的图形制作,几乎可以实现任意种类的图形①。作者推荐使用Pyecharts、Seaborn、Plotly 三款软件包。

(2)报表:报表系统不是Python 的强项,但是足以应对常规性工作。需要注意的是,“报表系统+可视化”也是报表的一部分,作者更喜欢使用pandas 实现这些功能。

由此可见,数据分析流以模型逻辑为主线,辅以业务逻辑的解释。

数据分析流中的每个节点都对应着不同的方法,如轻量级和重量级方法。

如何使用这些方法及在何种场景下使用这些方法需要了解模型失效周期管理。

本文选自《Python机器学习技术:模型关系管理》一书,欢迎阅读此书了解更多相关内容。

专享五折优惠,快快扫码抢购吧!

每日抽奖赠书

奖品《绝非偶然》

代码语言:javascript
复制
发布:刘恩惠
审核:陈歆懿 

如果喜欢本文欢迎 在看丨留言丨分享至朋友圈 三连<  PAST · 往期回顾  >
全面升级:网工Python的最佳实践

点击阅读原文,查看本书详情!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-03-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 博文视点Broadview 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
腾讯云 BI
腾讯云 BI(Business Intelligence,BI)提供从数据源接入、数据建模到数据可视化分析全流程的BI能力,帮助经营者快速获取决策数据依据。系统采用敏捷自助式设计,使用者仅需通过简单拖拽即可完成原本复杂的报表开发过程,并支持报表的分享、推送等企业协作场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档