我已经使用tensorflow设计了一个转换器模型。该模型的目标是生成一个文本序列,理想情况下是一个问题,然后是一个给定输入句子的答案。<~>A man is walking past a brick wall由于某些原因,即使在将模型训练到100个时期之后,我也没有得到想要的输出。我非常确定网络正在从训练中学习,考虑到输出的构建方式,这是非常有希望的,但这里的主要问题是问题答案是由不在源句中的单词组成的。
有没有办法指示
我下载了基于bert的预训练模型。我编辑config.json (从512到256) "max_position_embeddings": 256, 然后我想使用bert模型, from transformers import BertForSequenceClassification但是它会引发一个错误 Error(s) in loading state_dict for BertForSequenceClassification:
si