当我想使用huggingface的预训练模型进行多语言实验时,参数decoder_start_token_id和forced_bos_token_id的含义让我感到困惑。= MBart50TokenizerFast.from_pretrained("facebook/mbart-large-50-many-to-many-mmt")
# translate HindiUseful for multilingual models like :doc:`<em
我正在尝试使用mBART进行多语种翻译(大约30种语言),但我在使用它时面临一个问题,因为我目前正在使用兰吉德识别语言,然后加载mBART并根据已识别的语言代码翻译所有单词。但是mBART对语言代码使用这种奇怪的格式,例如:hi_IN -> Hindi而Langid以这种格式输出它们:
af, am,an, ar, as, az, be, bg