我想要对齐源和目标句子在多语种的翻译设置。
从概念上讲,我想对一个示例性英语源句和一个德语目标句做以下几点:
0 1 2 3 4 5 6 7
i saw the man walking on the street
ich sah den mann auf der straẞe gehen
字级对齐为: 0-0 1-1、2-2、3-3、4-7、5-4、6-5、7-6
或在源句和目标句之间长度不同的情况下:
0 1 2 3 4 5 6 7 8 9
it is a different way of saying the same thing
es ist eine andere art , dasselbe zu sagen
字级对齐应类似于: 0-0 1-1、2-2、3-3、4-4、5-5、6-7、8-6、8-6、9-6。
实现这一目标的最佳方法是什么?谢谢你的建议!
发布于 2022-09-15 08:27:14
根据您的效率要求,您可以使用各种工具。有一个非常古老和非常快的工具叫做FastAlign。首先需要对并行数据进行培训,而且似乎没有预先训练过的模型。
基于预先训练的多语言变压器的一个非常精确的工具是SimAlign。它是没有监督和工作的,立即超过100种语言,然而,它是相当的计算要求。
使用一个名为AwesomeAlign的工具可以获得更好的结果。它基于SimAlign,但它允许使用并行数据进行进一步的培训。
https://stackoverflow.com/questions/73475246
复制相似问题