发布于 2020-08-13 16:54:07
GPT-2不适用于字符级别,而适用于子词级别。在中训练的文本片段的最大长度为1024个子词。
它使用基于byte-pair-encoding的词汇表。在这样的编码下,频繁出现的单词保持不变,不频繁出现的单词被分成几个单元,最终下降到字节级。实际上,分割看起来像这样(69个字符,17个子词):
Hello , ▁Stack Over flow ! ▁This ▁is ▁an ▁example ▁how _a ▁string ▁gets ▁segment ed .
在训练时,提示和答案之间没有区别,因此唯一的限制是提示和答案的总长度不能超过1024个子词。从理论上讲,您可以在此基础上继续生成,但历史模型考虑的时间永远不会更长。
top_k
的选择只会影响内存需求。长查询也需要更多内存,但这可能不是主要限制
https://stackoverflow.com/questions/63380543
复制相似问题