和边际对数损失,则必须指定证据块的掩码。...索引应在[-1, 0, ..., config.vocab_size]中(参见input_ids文档字符串)索引设置为-1的令牌将被忽略(屏蔽),损失仅计算具有标签在[0, ..., config.vocab_size...轴向位置编码将 Xi,j 分解为两个矩阵:Xi,j1,其中 i∈[1,…,d1],j∈[1,…,ns1]
和 Xi,j2,其中 i∈[1,…,d2],且 j∈[1,…,ns2]
因此,以下成立:...(ns1, ns2),其乘积必须等于config.max_embedding_size,在训练期间必须等于input_ids的序列长度。...RemBERT 模型在顶部具有一个用于提取问答任务的跨度分类头(在隐藏状态输出的线性层上计算span start logits和span end logits)。