前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Google开源了可加速文本生成的AI模型LaserTagger

Google开源了可加速文本生成的AI模型LaserTagger

作者头像
AiTechYun
发布2020-02-21 07:40:36
7960
发布2020-02-21 07:40:36
举报
文章被收录于专栏:ATYUN订阅号ATYUN订阅号
由序列到序列的AI模型由Google于2014年推出,旨在将输入(通常是文本)与输出进行映射,其中输入和输出的长度可能会有所不同。它们被用于文本生成任务,包括摘要,语法错误纠正和句子融合,并且最近的体系结构突破使它们比以前更能发挥作用。但是它们并不完善,因为它们需要大量的训练数据才能达到可接受的性能水平,而且它们通常逐字生成输出(这会使它们固有地变慢)。

这就是Google研究人员开发LaserTagger的原因,LaserTagger是一种开放源代码的文本编辑模型,该模型可以预测将源文本转换为目标文本的一系列编辑操作。他们表示LaserTagger以一种不易出错的方式处理文本生成,并且更易于训练和执行。

LaserTagger的发布是Google在自然语言处理和理解领域迈出的重要一步。本周,他们完成了Meena的总结,Meena是一个具有26亿个参数的神经网络,可以处理多圈对话。

LaserTagger的工作原理是:对于许多文本生成任务,输入和输出之间经常存在重叠。例如,在检测和纠正语法错误或融合多个句子时,大多数输入文本可以保持不变,只需修改一小部分单词。然后,LaserTagger会产生一系列的编辑操作,而不是实际的单词,例如keep(将单词复制到输出,delete 删除单词,以及keep-addxdelete-addx在标记前添加短语X,并可以选择删除已标记的字)。

添加的短语来自受限制的词汇表,该词汇表已经过优化,可以最大程度地减少词汇量,并增加训练示例的数量。添加到目标文本的唯一必要单词仅来自词汇表,从而避免了模型添加任意单词并减轻了模糊的问题(即,产生输入文本不支持的输出)。而且LaserTagger可以高精度地并行预测编辑操作,与顺序执行预测的模型相比,可以实现端到端的加速。

对多个文本生成任务进行了评估,LaserTagger在使用大量训练示例的基准模型上表现出“相当强大”的性能,并且速度比之前快了100倍。即使仅使用几百或几千个培训示例进行培训,它也会产生“合理”的结果,可以手动编辑或整理。

该团队写道:“ LaserTagger的优势在大规模应用时变得更加明显,例如,通过减少响应的长度并减少重复性,改进了某些服务中语音应答的格式。高推理速度使该模型可以插入现有技术堆栈中,而不会在用户端增加任何明显的延迟,而改进的数据效率可以收集多种语言的训练数据,从而使来自不同语言背景的用户受益。”

GitHub链接:

https://github.com/google-research/lasertagger

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-02-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 ATYUN订阅号 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档