我有一系列数据集,它们由大约100个变量和一个相应的响应变量组成。我经常面临一个问题,就是试图将响应变量中的差异归因于大约100个变量。
我的问题是,通常很难比较两个或更多的数据集,并将响应变量归因于100个左右的变量,因为变量数量很大。
面对这样的问题,人们会做些什么?做这种工作的常见分析是什么?如果这个解决方案能向有非技术背景的人解释,那就更好了。
发布于 2021-01-06 14:35:07
一种选择是计算数据集之间的距离度量。
选择一个距离度量取决于数据的属性。如果数据是二进制的,则Hamming距离可以工作。如果数据是集合的,则Jaccard距离可以工作。其他数据类型需要其他的距离度量。
发布于 2021-01-06 15:36:08
我要走两条路:
https://datascience.stackexchange.com/questions/13878
复制相似问题