对于例子 ["我 1", "今天 2", "很 3","开心 4","5","因为 6","我 7","中 8","了 9",彩票 10"],如果编号顺序是从左到右的话,对应的输入-输出对为 (...我们只要对["我1", "今天2", "很3", “开心4”, “5”, “因为6”, “我7”, “中8”, “了9”, “彩票10”] 这句话做一次表征计算,便可以得到许多输入输出对的语境表征...解决这个问题的方法是将位置作为词表征的一部分一并输入模型。Transformer 采用的是简单粗暴的加法:"我 1" 和「我 7」的表征分别为
?...对于本文开头的例子,我们构建的 (输入→输出) 对为 (["我1", "今天2", "很3", “MASK4”,“5”,“因为6”,“我7”,“中8”,“了9”,“彩票10”]→ 开心)。...对于一句话["我1", "今天2", "很3", “开心4”, “5”, “因为6”, “我7”, “中8”, “了9”, “彩票10”],我们得到的输入输出样本为(["我"] → "今天"),