我正在尝试训练一个NMT模式,它的源端是来自社交媒体的亚洲语言的罗马文本,而目标端则是英语。请注意,由于罗马文本不是亚洲本土的,人们在互联网上打字的浪漫化是非常个人化的,因此有点嘈杂,但对于母语为母语的人来说却很容易理解。
以下是以不同方式编写印地语句子的一个例子:
Vaise bhi仅仅是paas jo bhi sab kuch dey diyaa bhaai
韦斯比先生帕斯·乔比h,梅内·阿普科
因此,我认为子字标记器在这里可能没有多大帮助(对于源端),并且对不同的噪声变化也没有很强的鲁棒性。(请注意,目标端可以是子字标记器。)
对于源端,一般建议使用什么模型和令牌器,并在这种情况下工作?