向AI转型的程序员都关注了这个号👇👇👇
机器学习AI算法工程 公众号:datayx
任务是中医药领域的问题生成挑战,而问题生成属于NLG中重要的一种应用。
“篇章+答案→问题”
这样的流程。篇章文本长度在100以下的数据较少,长度区间400-500的数据占比较大。
问题文本长度主要集中在5-20这个区间,长度40以上的数据较少。
答案文本长度主要集中在1-100区间,长度200以上的数据较少。
全部 代码 ,PPT ,数据集 获取方式:
关注微信公众号 datayx 然后回复 文本生成 即可获取。
UniLM也是一个多层Transformer网络,跟bert类似,但是UniLM能够同时完成三种预训练目标,如上述表格所示,几乎囊括了上述模型的几种预训练方式,而且新增了sequence-to-sequence训练方式,所以其在NLU和NLG任务上都有很好的表现。UniLM模型基于mask词的语境来完成对mask词的预测,也是完形填空任务。对于不同的训练目标,其语境是不同的。
1.单向训练语言模型,mask词的语境就是其单侧的words,左边或者右边。
2.双向训练语言模型,mask词的语境就是左右两侧的words。
3.Seq-to-Seq语言模型,左边的seq我们称sourcesequence,右边的seq我们称为target sequence,我们要预测的就是target sequence,所以其语境就是所有的source sequence和其左侧已经预测出来的target sequence。
优势:
1.三种不同的训练目标,网络参数共享。
2.正是因为网络参数共享,使得模型避免了过拟合于某单一的语言模型,使得学习出来的模型更加general,更具普适性。
3.因为采用了Seq-to-Seq语言模型,使得其在能够完成NLU任务的同时,也能够完成NLG任务,例如:抽象文摘,问答生成。
机器学习算法AI大数据技术
搜索公众号添加: datanlp
长按图片,识别二维码
阅读过本文的人还看了以下文章:
基于40万表格数据集TableBank,用MaskRCNN做表格检测
《深度学习入门:基于Python的理论与实现》高清中文PDF+源码
2019最新《PyTorch自然语言处理》英、中文版PDF+源码
《21个项目玩转深度学习:基于TensorFlow的实践详解》完整版PDF+附书代码
PyTorch深度学习快速实战入门《pytorch-handbook》
【下载】豆瓣评分8.1,《机器学习实战:基于Scikit-Learn和TensorFlow》
李沐大神开源《动手学深度学习》,加州伯克利深度学习(2019春)教材
【Keras】完整实现‘交通标志’分类、‘票据’分类两个项目,让你掌握深度学习图像分类
如何利用全新的决策树集成级联结构gcForest做特征工程并打分?
Machine Learning Yearning 中文翻译稿
斯坦福CS230官方指南:CNN、RNN及使用技巧速查(打印收藏)
中科院Kaggle全球文本匹配竞赛华人第1名团队-深度学习与特征工程
不断更新资源
深度学习、机器学习、数据分析、python
搜索公众号添加: datayx