中特征图大小分别缩小为1/4,1/8,1/16,1/32。...W-MSA就是无重叠的窗口self_attention计算,而cyclic shift就如下图,对窗口进行一个shift。本来2*2的窗口个数,不等比切分为3*3个窗口。...pad到4的倍数
(2)通用卷积kernel=4,stride=4,将image映射为无重叠的4*4的patchs:(96,64,64)
(3)如果需要norm,再进行一次layerNorm
(4)(3,256,256...设定window_size=7,以stage1为例输入特征图大小为(64,64)。...这些不为0位置含义可以理解为和相对位置不为上图中划分的同一个区域。