我想要创建序列分类bert模型。模型输入为2句。但是,我想用大上下文数据对模型进行微调,该数据由多个句子组成(标记的数量可能超过512)。如果训练数据的大小和实际输入数据的大小不同,可以吗?
谢谢
发布于 2022-03-25 08:15:42
这里有一个限制因素,那就是位置嵌入。
在BERT中,位置嵌入是可训练的(不是正弦的),最多支持512个位置。要超过这样的序列长度,您需要扩展位置嵌入表,并在微调期间训练额外的条目。然而,这可能会导致性能下降。所以,技术上是可能的,但可能不太好。
一种选择是只保留序列的第一个(或最后)512个令牌作为BERT的输入,并查看所得到的性能是否适合您的目的。
作为另一种选择,您可以使用预培训的长上下文变压器,如LongFormer。
https://datascience.stackexchange.com/questions/109344
复制相似问题