来源:机器学习AI算法工程本文约1700字,建议阅读5分钟任务是中医药领域的问题生成挑战,而问题生成属于NLG中重要的一种应用。
篇章文本长度在100以下的数据较少,长度区间400-500的数据占比较大。
问题文本长度主要集中在5-20这个区间,长度40以上的数据较少。
答案文本长度主要集中在1-100区间,长度200以上的数据较少。
UniLM也是一个多层Transformer网络,跟bert类似,但是UniLM能够同时完成三种预训练目标,如上述表格所示,几乎囊括了上述模型的几种预训练方式,而且新增了sequence-to-sequence训练方式,所以其在NLU和NLG任务上都有很好的表现。UniLM模型基于mask词的语境来完成对mask词的预测,也是完形填空任务。对于不同的训练目标,其语境是不同的。
1.单向训练语言模型,mask词的语境就是其单侧的words,左边或者右边。
2.双向训练语言模型,mask词的语境就是左右两侧的words。
3.Seq-to-Seq语言模型,左边的seq我们称sourcesequence,右边的seq我们称为target sequence,我们要预测的就是target sequence,所以其语境就是所有的source sequence和其左侧已经预测出来的target sequence。
优势:
1.三种不同的训练目标,网络参数共享。
2.正是因为网络参数共享,使得模型避免了过拟合于某单一的语言模型,使得学习出来的模型更加general,更具普适性。
3.因为采用了Seq-to-Seq语言模型,使得其在能够完成NLU任务的同时,也能够完成NLG任务,例如:抽象文摘,问答生成。
编辑:于腾凯