我对机器学习非常陌生。我正在尝试在包含近50个特性的数据上应用ML。有些特性的范围从0到1000000,有些特性的范围从0到100,甚至更少。现在,当我使用MinMaxScaler for range (0,1)来进行功能缩放时,我认为具有大范围的特性可以缩小到非常小的值,这可能会影响我给出很好的预测。
我想知道是否有一些有效的方法来进行缩放,以便所有的特性都能适当地缩放。
我也试过标准的定标器,但准确性没有提高。另外,我还可以对某些特性使用不同的缩放函数,对于其余的功能可以使用另一种。
提前感谢!
我有一个很大的数据集(大约400 so ),它由张量数据(shape is (600, 600, 10))组成,我想在将这个数据集输入到一个神经网络之前对它进行规范化,但是这个数据集不适合我的记忆,所以我想知道均值和标准差的增量更新。
公式是这里,但我不知道如何在张量情况下调整它们,因为我不是每个新的迭代步骤只有一个值,而是一个整体张量,而且我不能取这个新张量的平均值,因为平均值并不是整个数据集的平均值。
我的mysql表包含字段,比如大学。
它可以有以下字段,例如-
IIT
I.I.T.
Indian Institute Of Tech.
Indian Institute Of Technology
I-I-T
现在,当用户搜索IIT时,我想搜索并显示所有这些选项,而不仅仅是IIT。
那么更好的方法是什么呢?将数据库中的最后4个选项替换为IIT或在搜索中,我们了解到IIT也与其他选项相匹配。
有多受欢迎的网站实现了这个代码??
感谢您的帮助。
(我正在使用mysql、sphinxsearch、php……但欢迎提供任何逻辑!!)
我试图在Python中用随机梯度下降作为求解器来实现岭回归的解决方案。我的SGD代码如下:
def fit(self, X, Y):
# Convert to data frame in case X is numpy matrix
X = pd.DataFrame(X)
# Define a function to calculate the error given a weight vector beta and a training example xi, yi
# Prepend a column of 1s to the data for the
我建立了一个时间序列预测的LSTM模型。结果不差,平均归一化误差为7%。然而,这种归一化偏差显示了一个明显的模式:预测值越接近于预测值,偏差就越高,如下图所示:
📷
注1:为了清晰起见,在图中缩放了True和Pred值
注2:偏差不是常数,未归一化的偏差(或偏差)显示相同的模式。
模式:
* 1 LSTM layer with 256 hidden units and no peep-holes
* Dropout in LSTM with keep_prob = 0.8
* One Dense Layer after the LSTM with 128 units with relu act