首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何对数据进行加权?

如何对数据进行加权?
EN

Stack Overflow用户
提问于 2020-04-15 10:23:30
回答 2查看 28关注 0票数 0

因此,我有一个具有类的气象站的CSV文件(类1是最可靠的数据,类3是最差的)。然后我就有了从最近的气象站到每个县的距离。我正在尝试消除可能具有不可靠数据的站-县关系,即(远离县的3级站)。

我正在努力想出一种非常通用的方法来做到这一点。

我尝试将权重分配给类别,即(类别1= 1,类别2= .5,类别3= .1),然后乘以距离,但这就带来了距离较近的问题,因为较低的类别给出了不可靠的读数。

如果任何人对此有任何想法或建议,将不胜感激!

EN

回答 2

Stack Overflow用户

发布于 2020-04-15 10:38:00

如果希望较高的权重具有较高的重要性,并且希望较长的距离与较低的权重相关联,则应使用距离的递减函数作为权重,而不是您所指示的递增函数。

在物理学中,有相当一部分的量与平方距离的倒数成反比,所以我建议你使用它作为权重:除以距离的平方,而不是乘以距离。

递减可靠性等级的递减权重是很好的。

当然,实际的缩放和加权函数的选择可以进一步研究。例如:除以距离的立方体,使用不同的值来加权类,等等对你的问题会更好吗?这是我们在没有进一步信息的情况下不能轻易调查的事情。

票数 1
EN

Stack Overflow用户

发布于 2020-04-15 10:48:29

我不认为你想在这里使用权重。除非你有一个适用于所有站点的可靠的可靠统计数据,否则仅仅根据类别分配任意权重听起来并不合理。

使用一种更简单的方法如何?将县与气象站之间的距离分为三类:

  • 近,比方说< 50 - 80 km
  • 中距离,比方说50 - 100英里
  • 远,比方说> 100 -

(请注意,这些距离很可能不适合您的数据集。您将不得不尝试使用它们来获得适当的东西。)

然后,有一个x类距离的矩阵,并丢弃任何有意义的组合。可能是Medium x Class 3不好,但远x Class 2还可以。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/61220291

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档