wordpiece - 腾讯云开发者社区

、、、、

在选择BPE和WordPiece标记化之间的一般权衡是什么？什么时候一个比另一个更可取？这两者在模型性能上有什么不同吗？我正在寻找一个通用的整体答案，并用具体的例子加以支持。谢谢!

浏览 0提问于2020-06-02得票数 4

1回答

中国人需要文字吗？

、

我想用中国的伯特模型。在tokenization.py中，我喜欢汉字函数( WordpieceTokenizer function，)，但我认为它不需要在汉语中使用单词，因为汉语的拟态单位是字符。

浏览 4提问于2019-12-19得票数 0

回答已采纳

1回答

对于BPE或WordPiece，可能有多种方法来编码一个单词。例如，假设(为简单起见)令牌词汇表包含所有字母以及合并的符号("to“、"ke”、"en")。本教程https://blog.floydhub.com/tokenization-nlp/中也提到了这种不明确的编码然而，在hugginface教程中提到"BPE和WordPiece……以特定的顺序制定规则在使用BPE/WordPiece时，这些规则到底是如何存储和应用的，例如，在上面

浏览 17提问于2020-08-05得票数 0

1回答

如何使用BertTokenizer加载Tokenizer模型？

、、

我使用Tokenizer训练Tokenizer并保存模型，如下所示 tokenizer = Tokenizer(BPE())tokenizer.decoder = ByteLevelDecoder() tokenizer.train(files=["/content/drive/MyDrive/Work/NLP

浏览 93提问于2021-09-06得票数 1

1回答

我可以用标记化输入文件和高棉语的自定义词汇表文件从头开始对BERT模型进行预培训吗？

、、、

我想知道是否可以使用我自己的标记/分段文档(还有我自己的词汇表文件)作为create_pretraining_data.py脚本的输入文件(git源：)。Original:វា មាន មក ជាមួយ នូវ我也想知道我应该用什么方法来验证我的模型。任何帮

浏览 2提问于2019-11-27得票数 2

1回答

词片标记化与传统柠檬化？

、、

我注意到伯特使用WordPiece标记化(例如，"play“->”play“+ "##ing")。我想知道WordPiece标记化比标准令牌化+柠檬化有什么好处。我知道WordPiece在词汇方面有帮助，但是还有什么其他的吗？

浏览 0提问于2019-07-16得票数 7

回答已采纳

2回答

WordPiece标记化如何帮助有效地处理NLP中的稀有单词问题？

、

我已经看到，NLP模型(如 )利用WordPiece进行令牌化。在playing中，我们将像play和##ing.这样的令牌拆分为有人提到，它涵盖更广泛的范围外词汇(OOV)的词汇.请有人帮我解释一下WordPiece标记化是如何实现的，它是如何有效地处理稀有/OOV

浏览 0提问于2019-03-27得票数 52

回答已采纳

1回答

机器翻译变压器输出-“未知”令牌？

、

stackoverflow.com/questions/69595863/machine-translation-transformer-output-unknown-tokens这就是我如何标记我的数据，我使用德语到英语翻译任务。

浏览 0提问于2021-11-02得票数 1

回答已采纳

2回答

很难理解Roberta模型中使用的令牌器

、、、

’有'Ġ24'，'GB'，'Ġof'，'ĠVR'，'AM‘Bert模型使用WordPiece在WordPiece词汇表中没有出现的任何单词都会被贪婪地分解成子单词。例如

浏览 4提问于2020-04-10得票数 13

回答已采纳

1回答

transformers AutoTokenizer.tokenize引入额外的角色

、、

我正在使用HuggingFace转换器AutoTokenizer来标记化小段文本。但是，这种标记化在单词中间拆分不正确，并且在标记中引入了#字符。我尝试了几种不同的模型，结果都是一样的。下面是一段文本和从它创建的标记的示例。 CTO at TLR Communications Pty Ltd ['[CLS]', 'CT', '##O', 'at', 'T', '##LR', 'Communications', 'P', '##ty', 'L

浏览 53提问于2021-11-10得票数 2

回答已采纳

2回答

伯特的TokenEmbeddings是如何创建的？

、、

在中，有一个关于WordPiece嵌入的段落。我们使用WordPiece嵌入(Wu等人，2016)和一个30,000个令牌词汇表。每个序列的第一个令牌总是一个特殊的分类令牌(CLS)。据我所知，WordPiece将单词拆分成像#I #、#游泳#ing这样的词块，但它不会生成嵌入。但是，我在论文和其他来源中没有发现任何东西，这些令牌嵌入是如何生成的。他们在实际的训练前接受过预训练吗？

浏览 0提问于2019-09-16得票数 9

回答已采纳

3回答