我开始学习机器学习。现在我试着和tensorflow一起玩。
我经常看到这样的例子:
pred = tf.add(tf.mul(X, W), b)我还在一个简单的numpy实现中看到了这样一条线。为什么总是使用x*W+b而不是W*x+b?如果矩阵以这种方式相乘,是否有优势?我认为这是可能的(如果X、W和b被转置),但我看不到优势。在学校的数学课上,我们总是只使用Wx+b。
非常感谢
发布于 2016-11-16 21:38:00
这就是原因:
要正确地乘这两种方法并在正确的特性中使用正确的权重,必须使用X*w+b:
如果你把w*x乘以a(1xd)*( no ),它就没有意义了。
发布于 2016-11-24 08:46:32
我也对此感到困惑。我想这可能是一个维度的问题。对于n*m维矩阵W和n维向量x,使用x_W+b可以很容易地看作是将n维特征映射为m维特征,也就是说,您可以很容易地将W看作n维-> m维操作,其中W_x+b (x现在必须是m维向量)变成了m维-> n维操作,在我看来,这看起来不太舒服。:D
https://stackoverflow.com/questions/40642732
复制相似问题