首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >多序列的Roberta标记化

多序列的Roberta标记化
EN

Stack Overflow用户
提问于 2020-04-28 01:54:15
回答 1查看 468关注 0票数 1

huggingface-transformers中的Roberta Tokenizer将罗伯塔的标记化方法描述为:

代码语言:javascript
运行
复制
- single sequence: ``<s> X </s>``
- pair of sequences: ``<s> A </s></s> B </s>``

我很好奇为什么多个序列的标记化不是<s> A </s><s> B </s>

在上面的基础上,如果我要手动编码两个以上的序列,我应该将它们编码为<s> A </s></s> B </s></s> C </s>还是<s> A </s><s> B </s><s> C </s>

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-04-28 16:07:03

与许多其他问题一样,这个问题最好的答案可能是“因为它已经以这种方式进行了预训练”。

transformer系列中的模型的主要好处是对它们进行了大量的预训练。除非你愿意复制几周/几个月的预训练阶段,否则我认为最好接受这个特性。

与此相关,这也意味着您建议的一次输入两个以上句子的方法可能不起作用,请参阅this相关问题;由于RoBERTa没有接受超过两个句子的输入,因此如果没有非常大的预训练数据集,它可能无法工作。

我认为对于更多特定于实现的细节,你可能也应该去huggingface问题跟踪器本身,这听起来像是一个很有前途的功能,其他人可能有兴趣为自己工作/使用。但请记住,令牌限制保持不变,512个令牌对于三个或更多句子来说并不多...

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/61465223

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档