我在信号/图像分析方面有经验,而且是数据科学方面的新手,最近我遇到了一个相对简单的数据集: 100到200个条目,大约10-20个数值变量(在0-1或百分比范围内),目前只使用一个变量来进行排序,还有5-10个分类变量,每个变量都没有多少选项。一个范畴变量大约需要2到4个不同的值。
首先,我想了解这些数据中的潜在结构。我浏览了协议的顺序分类数据分析,一些人建议我投资于TDA (拓扑数据分析)。但我不知道从哪里开始。
您是否有关于这些真实数据的指导方针和最佳实践,以逐步解决上述问题,从可视化到真正的处理/推理?
发布于 2015-10-25 00:10:49
通过审查NIST工程统计手册的EDA剖面,您可以得到探索性数据分析(EDA)步骤的相当好的近似。此外,您还可以在Data上找到我的相关答案的有用部分。
与EDA相关的方法过于多样,不可能在一个单一的答案中讨论。我只想说几种方法。如果您有兴趣将分类应用于您的数据集,您可能会发现我的另一个答案中提到的信息很有帮助。为了检测数据集中的结构,可以尝试应用主成分分析(PCA)。另一方面,如果您对探索数据中的潜在结构感兴趣,请考虑使用探索性因素分析(全民教育)。
https://datascience.stackexchange.com/questions/8586
复制相似问题