首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何定量比较两个或多个复杂数据集

如何定量比较两个或多个复杂数据集
EN

Data Science用户
提问于 2016-09-06 15:24:00
回答 2查看 457关注 0票数 2

我有一系列数据集,它们由大约100个变量和一个相应的响应变量组成。我经常面临一个问题,就是试图将响应变量中的差异归因于大约100个变量。

我的问题是,通常很难比较两个或更多的数据集,并将响应变量归因于100个左右的变量,因为变量数量很大。

面对这样的问题,人们会做些什么?做这种工作的常见分析是什么?如果这个解决方案能向有非技术背景的人解释,那就更好了。

EN

回答 2

Data Science用户

发布于 2021-01-06 14:35:07

一种选择是计算数据集之间的距离度量

选择一个距离度量取决于数据的属性。如果数据是二进制的,则Hamming距离可以工作。如果数据是集合的,则Jaccard距离可以工作。其他数据类型需要其他的距离度量。

票数 0
EN

Data Science用户

发布于 2021-01-06 15:36:08

我要走两条路:

  1. 合并/连接所有数据集,并执行某种降维操作(例如,TSNE、PCA)。这可以帮助您可视化哪些数据集彼此相似。
  2. 你的作品似乎属于归因方法的类别,或者最近被称为“可解释的人工智能”。该字段试图找到每个特性/变量对目标变量的相对贡献。看看这本电子书,特别是第5章..有些方法可以计算变量属性,即使无法访问模型预测函数(即将特征映射到响应变量的函数)。
票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/13878

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档