首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >多语种多源语料库训练模型的组合

多语种多源语料库训练模型的组合
EN

Data Science用户
提问于 2021-10-19 09:47:40
回答 1查看 37关注 0票数 1

请考虑以下培训材料:

  • dataset1:由法语实例组成
  • dataset2: dataset1 +阿拉伯实例
  • test_dataset (对于这两种场景):由法语实例组成

(这两种语言都使用了相同的注释准则)。

在分析了初步实验装置的结果后,我们选择了BERT作为基线系统。

考虑到所涉及的不同语言,我们试验了能够处理这些语言的不同模型: FlauBERT和CamemBERT (法语)、AraBERT (阿拉伯语)以及伯特多语种。一般来说,对于这两种语言,BERT多语种所得到的结果都低于语言特定模型所得到的结果。

从理论上讲,是否有可能将多个模型合并成一个模型,有效地将迄今学到的所有数据结合起来?例如,结合CamemBERT只训练dataset2的法语部分和AraBERT只训练阿拉伯部分?

EN

回答 1

Data Science用户

发布于 2021-10-19 20:15:50

一个工程解决方案是:创建一个语言检测器,将输入提供给检测器,根据语言类型分类,将输入发送到适当的模型,即如果输入是法语,则直接将输入输入到CamemBERT。输出将与CamemBERT乘以语言检测器的精度一样精确。

但如果你问的是,模型的权重是否可以被操纵,这样我们就可以得到一个新的完全统一的模型,它还处于研究阶段。

票数 2
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/103279

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档