对于机器学习的理解,我相信很多人还无法做到简单、易懂的将其思想描述出来,比如这里提到的一个基本概念:数据的维度,以及算法应用中为何升维和降维。
对于初学者来说,这些都是难以理解的,在前期可能只能套用固有的模型和算法进行机械化的“炼丹”,这时就会导致即使得出不错的结果,但仍不知其所以然。
维度的诅咒
全都与孤独有关
In a nutshell, the curse of dimensionality is all about loneliness.
我们可以通过下面这个小案例来理解下若将范式类的内容进行具象化、可视化并阐述,会对理解算法提供多大的帮助。
维度越多,数据越稀疏
一维空间
想象一下,你坐在一个大教室里,周围被好友们包围着。
二维空间
为了给你更加舒适的空间,我们添加一个维度,在这个空间中,你和你的朋友更加分散。
三维空间
我们继续增加维度,突然之间,您不再被朋友所包围,你感到有点寂寞。
四维空间
当我们添加了时间的维度,你与朋友难得碰到一次,于是,你在社交上与外界保持了足够的距离。
如果你有足够多的数据,增加维度便有利于区分开数据。
但反过来思考下,维度的不断增多,对数据量的要求也会迅速增长,进而让我们不得不去寻找其他办法来辅助解决问题。
……