大数据是当前一个热点问题,这里说的“大数据”词代表的是数据多、不够精确、数据混杂、自然产生。大数据给机器学习带来的问题不仅是因为数据量大而使计算产生困难,还因为更大的困难和挑战是数据在不同的服务器上获取的,这些分布在不同服务器上的数据之间存在某些联系,但是基本上不能满足同分布的假设,而我们也不可能把所有数据集中起来进行处理和学习。传统的机器学习理论和算法,要求数据是独立同分布的,当这个条件不能满足时,学习模型和学习算法就发挥不了作用。
大数据除了给机器学习带来计算上的困难和挑战外,也带来了新的机遇。第一,在某些应用条件下,高维空间中的局部数据变得稠密了。在大数据时代,当样本数量很大的时候,在样本空间的某些区域会出现稠密现象,这些稠密数据给分类器设计提供了丰富的信息。因此,在这些局部稠密区域,分类器的性能有可能接近理论上的极限性能。第二,大数据使得样本空间原来“空旷”的区域出现了样本,原来“稀疏”的区域变得不再稀疏,这在很大程度上为提高分类器性能提供了数据基础。
领取专属 10元无门槛券
私享最新 技术干货