我有一个地理统计数据集,我一直在建立线性回归模型,但当我绘制数据时,我注意到部分数据显示了一个绝对直线趋势,也就是说,它很可能不是真实世界的数据,但它是反算的。
所有的数据都是熊猫的数据,我想我需要找到数据集的子集,它显示出一个完美的线性关系,但我不太确定如何处理它。

发布于 2019-11-17 08:14:50
尝试拟合几个线性回归模型,对于来自数据集的极少量观测(例如,n或n+1随机选择的点,其中n是维数)。如果有足够的完全线性对齐点和足够的模型,很可能其中的一个模型将由仅从后演算中提取的点构建。
然后将模型预测与实际数据进行比较。对于在大量测试用例上表现良好的模型(即正确地预测m点,误差为\epsilon或更小),这些观测值可能已经计算出来。
您必须根据对问题的了解/通过调整来定义m和\epsilon。
如果我建议的话,您可以将这些观察结果保存在您的数据集中,但是在最后的模型培训中给它们一个较低的权重。
https://datascience.stackexchange.com/questions/63279
复制相似问题