DataGenerator(Sequence) -如何检查batch_x和batch_y.shape？

在深度学习中，DataGenerator通常用于生成训练数据，特别是在处理大型数据集时，它可以有效地按需生成数据批次，而不是一次性加载整个数据集到内存中。Sequence是Keras提供的一个基类，用于创建自定义的数据生成器。

基础概念

DataGenerator: 一个用于生成数据的类，通常继承自Keras的Sequence类。
Sequence: Keras中的一个抽象基类，用于创建可以按批次生成数据的对象。
batch_x: 表示当前批次的输入数据。
batch_y: 表示当前批次的标签数据。

如何检查`batch_x`和`batch_y.shape`

在自定义的DataGenerator类中，可以通过重写__getitem__方法来控制每个批次的数据生成。在这个方法中，你可以访问并检查batch_x和batch_y的形状。

以下是一个简单的例子：

from tensorflow.keras.utils import Sequence
import numpy as np

class MyDataGenerator(Sequence):
    def __init__(self, x_set, y_set, batch_size):
        self.x, self.y = x_set, y_set
        self.batch_size = batch_size

    def __len__(self):
        return int(np.ceil(len(self.x) / float(self.batch_size)))

    def __getitem__(self, idx):
        batch_x = self.x[idx * self.batch_size:(idx + 1) * self.batch_size]
        batch_y = self.y[idx * self.batch_size:(idx + 1) * self.batch_size]

        # 检查batch_x和batch_y的形状
        print(f"Batch {idx} - Input shape: {batch_x.shape}, Label shape: {batch_y.shape}")

        return batch_x, batch_y

# 示例使用
x_train = np.random.rand(1000, 32, 32, 3)  # 假设的输入数据
y_train = np.random.randint(0, 2, (1000, 1))  # 假设的标签数据
batch_size = 32

data_gen = MyDataGenerator(x_train, y_train, batch_size)

# 迭代生成器以查看输出形状
for batch_x, batch_y in data_gen:
    pass  # 这里只是为了展示如何检查形状，实际使用时会在这里进行模型训练