首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >我关于ML模型的方法正确吗?

我关于ML模型的方法正确吗?
EN

Data Science用户
提问于 2021-10-24 08:05:43
回答 1查看 97关注 0票数 2

首先,我是这里的新手,这是我在这个平台上的第一个问题,所以如果有错误的话,我很抱歉。

在我的论文研究中,我试图通过查看商业航空参数来识别某架飞机的非正常油耗。为此,我使用两个单独的数据库;一个是实际飞行数据(QAR数据),另一个是高保真模拟(作战飞行计划)。我的策略是用模拟(OFP)来训练前馈ML模型(我使用Pytorch),并用QAR数据对它们进行测试。下面是在一定ML条件下的最佳模型结果。

上面的意思是,经过训练的模型可以预测实际飞行的燃油燃烧,而在%99.3的飞行中,误差小于%5。同样,error<%3 -> %93.4 %,error<%2 -> %78.9 %航班.

这就是我困惑的开始。

比方说,0.7%的航班消耗了%5 %的燃料,甚至更多。我怎么能确定这不是由训练错误引起的呢?如果我用OFP参数测试模型,并逐次查看模型的错误飞行,并识别有训练错误的飞行(即%5或多或少的燃料燃烧),并将它们排除在第一个非正常的识别过程之外,这会有效吗?在我看来,这个想法是行不通的,因为训练数据集将与测试数据集相同,并且模型将过度匹配。

你认为上述方法正确吗?还有其他的选择,我可以坚持以克服训练错误吗?或者,我是否应该接受这些训练错误,因为在这种情况下对它们没有什么可做的?

EN

回答 1

Data Science用户

回答已采纳

发布于 2021-10-24 15:39:20

免责声明:请记住,我不是这类申请的专家。

我怎么能确定这不是由训练错误引起的呢?

您可以确定,因为评估过程是有效的。在任何ML过程中,错误都是预期的,重要的是正确地估计预期的错误级别(性能评估)。

据我所知,您当前的方法是正确的,因为您的评估设置似乎有效:测试集是由实际飞行数据组成的。只要评估是可靠的,模型的训练方式就无关紧要。事实上,该模型甚至可以是一个简单的启发式方法,没有任何培训数据:它可能不会执行得很好,但从方法学的角度来看,重要的是对性能进行了适当的估计。

我不能百分之百确定我是否遵循了你为清理培训数据而考虑做的过程。重要的是,它不应该依赖您用作测试集的实际飞行数据,因为这会导致数据泄漏。只要没有,您可以以任何方式对数据集进行预处理。但是,请注意,如果您计划为培训数据尝试许多不同的选项并对其中的每个选项进行评估,那么您应该使用与最终测试集不同的验证集(此过程类似于参数优化)。

顺便说一句,您可以考虑在培训过程中使用实际飞行数据的一小部分作为验证集(我假设您目前使用的是一些模拟数据,对吗?)同样,如果您这样做,请确保使用一个完全独立的子集作为测试集。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/103440

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档