使用我自己的数据集在Keras中创建自定义数据生成器

在Keras中创建自定义数据生成器可以帮助你高效地处理大型数据集，尤其是在内存有限的情况下。以下是关于自定义数据生成器的基础概念、优势、类型、应用场景以及如何解决问题的详细解答。

基础概念

自定义数据生成器是一个Python生成器，它可以在训练过程中按需生成数据批次。Keras提供了Sequence类，你可以继承这个类来创建自定义数据生成器。

优势

内存效率：对于大型数据集，一次性加载所有数据到内存是不现实的。自定义数据生成器可以按需加载数据，节省内存。
实时数据增强：可以在生成器中进行实时数据增强，增加模型的泛化能力。
灵活性：可以根据具体需求定制数据加载和预处理的逻辑。

类型

自定义数据生成器通常分为两类：

简单生成器：直接在训练循环中使用Python生成器。
继承Sequence类：创建一个类继承自keras.utils.Sequence，这样可以更好地与Keras集成，并且可以利用多线程加速数据加载。

应用场景

图像分类：处理大量图像数据时。
时间序列预测：按时间窗口生成数据批次。
语音识别：处理长音频文件时。

示例代码

以下是一个简单的自定义数据生成器的示例，继承自keras.utils.Sequence：

import numpy as np
from keras.utils import Sequence

class CustomDataGenerator(Sequence):
    def __init__(self, list_IDs, labels, batch_size=32, dim=(32, 32, 32), n_channels=1, n_classes=10, shuffle=True):
        self.list_IDs = list_IDs
        self.labels = labels
        self.batch_size = batch_size
        self.dim = dim
        self.n_channels = n_channels
        self.n_classes = n_classes
        self.shuffle = shuffle
        self.on_epoch_end()

    def __len__(self):
        return int(np.floor(len(self.list_IDs) / self.batch_size))

    def __getitem__(self, index):
        indexes = self.indexes[index*self.batch_size:(index+1)*self.batch_size]
        list_IDs_temp = [self.list_IDs[k] for k in indexes]
        X, y = self.__data_generation(list_IDs_temp)
        return X, y

    def on_epoch_end(self):
        self.indexes = np.arange(len(self.list_IDs))
        if self.shuffle == True:
            np.random.shuffle(self.indexes)

    def __data_generation(self, list_IDs_temp):
        X = np.empty((self.batch_size, *self.dim, self.n_channels))
        y = np.empty((self.batch_size), dtype=int)
        for i, ID in enumerate(list_IDs_temp):
            # Load data from your dataset
            X[i,] = self.load_data(ID)
            y[i] = self.labels[ID]
        return X, keras.utils.to_categorical(y, num_classes=self.n_classes)

    def load_data(self, ID):
        # Implement your data loading logic here
        # For example, loading an image from a file
        return np.load('data/' + str(ID) + '.npy')

# Example usage
list_IDs = np.arange(1000)
labels = np.random.randint(0, 10, size=1000)
data_gen = CustomDataGenerator(list_IDs, labels, batch_size=32)

# Use this generator in your model.fit()
model.fit(data_gen, epochs=10)