RoBERTa相较于BERT最大的改进有三点:
其实到2020年了,很多论文早已不再使用NSP任务,但是RoBERTa算是比较早的一批质疑NSP任务的模型。RoBERTa实验了4种方法:
其实之前我看到过一个说法(源自Chinese-BERT-wwm):降低batch size会显著降低实验效果
RoBERTa论文作者也做过相关实验,采用大的Batch Size有助于提高性能
其中,bsz是Batch Size;steps是训练步数(为了保证bsz*steps近似相同,所以大bsz必定对应小steps);lr是学习率;ppl是困惑度,越小越好;最后两项是不同任务的准确率