我有一个数据集n x m,其中有n个观察值,每个观察值由m个属性的m个值组成。每个观察值也有分配给它的观察结果。M很大,对我的任务来说太大了。我正在尝试找到m个属性中最好且最小的子集,它仍然很好地代表了整个数据集,这样我就可以只使用这些属性来教授神经网络。
我想用遗传算法来解决这个问题。问题在于适合度函数。它应该告诉我们生成的模型(属性子集)仍然能够很好地反映原始数据。我不知道如何根据整个集合来评估特定的属性
对于一个闪亮的应用程序,它将呈现传单地图,我使用的是“犯罪”数据集,在'ggmap‘包中找到的。有两个输入正在尝试实现。一个是“进攻”,另一个是“月”变量。这些变量是可用的,从闪亮的下降。下面是一个用于提取数据的代码构造。 data <- hustonCrime
if (input$offenseFilter !