100个输出),但是,它是100,因为我已经填充了数据,所以在现实中,在每个批处理元素中,只有第一个(例如,10、20或30个实际逻辑)是有用的,所以当我计算损失时,我要制作一个掩码,以便将与填充数据对应的日志设置为我知道如何使用我在网上找到的以下代码,在每个批处理元素中找到多少个日志是“有用的”: used =
我有一个输入张量I,形状为:input_ids:[B x T],与形状[B x T x D] (B: Batch size, T: Sequence Length, D: Dimension)对应的嵌入矩阵输入ids是词汇表ids,嵌入矩阵包含到相应的嵌入。
从嵌入矩阵中选择具有特定ids的元素(例如,103)。使用tf.where和tf.gather_nd很容易做到这一点,但我不知道如何将结果组织成一批大小为[B x N x D]