首页
学习
活动
专区
圈层
工具
发布

工业数据分析的本质

以下文章来源于蝈蝈创新随笔,作者郭朝晖

最近的一点思考,记下来备忘。

工业数据分析过程的本质或许可以表述为:通过发现相关关系,确认因果关系;在可能的情况下确定函数关系。

1、因果关系本质上都是通过相关关系来确认的。这是个哲学层面的观点。

2、从事工业大数据分析时,常规的统计分析假设一般不成立。不成立的原因,往往可以归结为干扰。分析问题的过程,本质上是与识别和去除干扰的过程。

3、分析过程的困难,本质上往往可以归结为数据缺失等各种原因导致的数据质量问题。所以,解决数据分析困难的根本做法是提高数据质量。

4、相关关系未必容易发现。具有因果关系的变量之间,相关系数可能很小甚至接近0。相关关系往往体现为间接关系。

5、有因果关系而相关关系小,往往可以归结为非线性关系或干扰。所以,发现相关关系本质就是识别非线性和干扰。

6、相关关系强,并不意味着有因果关系。从相关中确认因果,关键是识别干扰导致的假象。

7、数据质量不理想时,仅通过数据未必能够发现相关或确定因果关系。

8、发现相关关系、确认因果关系,可能需要用到数据之外的知识;或者需要提供特殊的手段获取新的数据。确认因果关系,往往需要多个角度的认证。包括采用数据分析之外的手段(如实验验证、机理分析)。换句话说,数据分析过程的手段不局限于数据分析。

9、因果关系和相关关系分析,尽量以“最小颗粒度”概念为基础。也就是说,尽量把包含多个不同内涵的概念拆开。比如,分析导致故障原因时,“故障”可能有很多种。分析问题时应该按照可细分的故障进行分类。再如,N对强度有影响时,要把N分成固溶N、TIN两种类型。

10、分析过程是不断提出猜测和验证的过程。专业知识的帮助包括:猜测可能的相关性;猜测确定因果性的路径;给出“补足数据或证据”的建议。

11、如果跳过发现相关关系、确定因果关系直接建立函数,函数关系往往不稳定,在工业中个可能不实用。

12、函数关系的建立未必都是利用因果关系。也可能会利用相关关系稳定的相关关系。相关关系可以用来建立预测函数。但函数用于控制时,控制手段和控制目标之间,必须有因果关系。

13、长期看,数据分析的难易决定于数据条件。数据分析过程可以提示人们需要什么样的数据条件。

14、认识数据分析的本质,是为了提高数据分析过程的效率、成功率和经济性、减少分析过程的无效劳动。终极目标是促进智能分析、减少人类的参与。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/ObdSexR2NMaYXiRfLm6XMAuw0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。
领券