我有一个可以容纳主机内存的大型数据集。然而,当我使用tf.keras训练模型时,它会产生GPU内存不足的问题.然后查看tf.data.Dataset,并希望使用其batch()方法对训练数据集进行批处理,以便它能够在GPU中执行model.fitBATCH_SIZE)BATCH_SIZE in dataset.from_te
我对sklearn.cluster.MiniBatchKMeans感兴趣,因为它是一种使用大型数据集的方法。而有关的文档指出:
更新k表示对单个小批X的估计。因此,据我所知,fit()将数据集分解为它训练的数据块(我猜batch_size of MiniBatchKMeans()的论点指的是这个),而partial_fit()使用传递给它的所有数据来更新中心术语"update“似乎有点模棱