因此,我有一个具有类的气象站的CSV文件(类1是最可靠的数据,类3是最差的)。然后我就有了从最近的气象站到每个县的距离。我正在尝试消除可能具有不可靠数据的站-县关系,即(远离县的3级站)。
我正在努力想出一种非常通用的方法来做到这一点。
我尝试将权重分配给类别,即(类别1= 1,类别2= .5,类别3= .1),然后乘以距离,但这就带来了距离较近的问题,因为较低的类别给出了不可靠的读数。
如果任何人对此有任何想法或建议,将不胜感激!
发布于 2020-04-15 10:38:00
如果希望较高的权重具有较高的重要性,并且希望较长的距离与较低的权重相关联,则应使用距离的递减函数作为权重,而不是您所指示的递增函数。
在物理学中,有相当一部分的量与平方距离的倒数成反比,所以我建议你使用它作为权重:除以距离的平方,而不是乘以距离。
递减可靠性等级的递减权重是很好的。
当然,实际的缩放和加权函数的选择可以进一步研究。例如:除以距离的立方体,使用不同的值来加权类,等等对你的问题会更好吗?这是我们在没有进一步信息的情况下不能轻易调查的事情。
发布于 2020-04-15 10:48:29
我不认为你想在这里使用权重。除非你有一个适用于所有站点的可靠的可靠统计数据,否则仅仅根据类别分配任意权重听起来并不合理。
使用一种更简单的方法如何?将县与气象站之间的距离分为三类:
(请注意,这些距离很可能不适合您的数据集。您将不得不尝试使用它们来获得适当的东西。)
然后,有一个x类距离的矩阵,并丢弃任何有意义的组合。可能是Medium x Class 3不好,但远x Class 2还可以。
https://stackoverflow.com/questions/61220291
复制相似问题