我刚开始机器学习。我有以下情况:
我有五个人每个人都带着一个加速度计。该传感器以0到255的比例测量运动/加速度,0没有运动,255是最大运动(间隔5分钟)。有些人携带的传感器更敏感,有些则不那么敏感。因此,一些个人的传感器将提供更高的价值,而一些个人的传感器将提供较低的值,为相同的运动。
使用分类算法(即判别分析),我想训练一个模型,它可以根据运动数据识别不同类型的行为。因此,我观察个体,并使用他们观察到的行为作为反应变量,运动数据作为解释变量。我想要创建一个奇异的模型,它可以根据个人的运动数据来识别未来个人的行为。我的问题是:在传感器都有不同的“敏感性”的情况下,如何使培训数据正常化才能创建这样一个全球模型?我要如何规范未来穿戴者的数据,用模型成功地对他们的行为进行分类呢?
我所能想到的唯一方法是计算出所有5个训练个体的全球均值和全球标准差,并试图拟合训练个体的数据以适应全球分布。但我不确定我会怎么做。
谢谢你好心!
发布于 2022-05-04 04:27:02
这是一个棘手的、常见的问题。根本的问题是,培训和生产(部署)数据之间可能存在偏见。这段视频 (在19分钟)描述了一个案例,一个人工智能X光系统在实验室工作很好,但由于这个问题而在真正的医院失败。
回到你的问题上,没有确切的方法可以预先判断什么是最好的/std(加上野生的其他意外变量);您最好的选择是使用您拥有的任何东西,并使用更多的数据不断地收集和更新您的模型。
https://datascience.stackexchange.com/questions/110545
复制相似问题