腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(55)
视频
沙龙
1
回答
BPE vs
WordPiece
标记化-何时使用/哪种?
、
、
、
、
在选择BPE和
WordPiece
标记化之间的一般权衡是什么?什么时候一个比另一个更可取?这两者在模型性能上有什么不同吗?我正在寻找一个通用的整体答案,并用具体的例子加以支持。谢谢!
浏览 0
提问于2020-06-02
得票数 4
1
回答
中国人需要文字吗?
、
我想用中国的伯特模型。在tokenization.py中,我喜欢汉字函数( WordpieceTokenizer function,),但我认为它不需要在汉语中使用单词,因为汉语的拟态单位是字符。
浏览 4
提问于2019-12-19
得票数 0
回答已采纳
1
回答
BPE多种方式对单词进行编码
、
、
、
、
对于BPE或
WordPiece
,可能有多种方法来编码一个单词。例如,假设(为简单起见)令牌词汇表包含所有字母以及合并的符号("to“、"ke”、"en")。本教程https://blog.floydhub.com/tokenization-nlp/中也提到了这种不明确的编码 然而,在hugginface教程中提到"BPE和
WordPiece
……以特定的顺序制定规则在使用BPE/
WordPiece
时,这些规则到底是如何存储和应用的,例如,在上面
浏览 17
提问于2020-08-05
得票数 0
1
回答
如何使用BertTokenizer加载Tokenizer模型?
、
、
我使用Tokenizer训练Tokenizer并保存模型,如下所示 tokenizer = Tokenizer(BPE())tokenizer.decoder = ByteLevelDecoder() tokenizer.train(files=["/content/drive/MyDrive/Work/NLP
浏览 93
提问于2021-09-06
得票数 1
1
回答
我可以用标记化输入文件和高棉语的自定义词汇表文件从头开始对BERT模型进行预培训吗?
、
、
、
我想知道是否可以使用我自己的标记/分段文档(还有我自己的词汇表文件)作为create_pretraining_data.py脚本的输入文件(git源:)。Original:វា មាន មក ជាមួយ នូវ我也想知道我应该用什么方法来验证我的模型。 任何帮
浏览 2
提问于2019-11-27
得票数 2
1
回答
词片标记化与传统柠檬化?
、
、
我注意到伯特使用
WordPiece
标记化(例如,"play“->”play“+ "##ing")。我想知道
WordPiece
标记化比标准令牌化+柠檬化有什么好处。我知道
WordPiece
在词汇方面有帮助,但是还有什么其他的吗?
浏览 0
提问于2019-07-16
得票数 7
回答已采纳
2
回答
WordPiece
标记化如何帮助有效地处理NLP中的稀有单词问题?
、
我已经看到,NLP模型(如 )利用
WordPiece
进行令牌化。在playing中,我们将像play和##ing.这样的令牌拆分为有人提到,它涵盖更广泛的范围外词汇(OOV)的词汇.请有人帮我解释一下
WordPiece
标记化是如何实现的,它是如何有效地处理稀有/OOV
浏览 0
提问于2019-03-27
得票数 52
回答已采纳
1
回答
机器翻译变压器输出-“未知”令牌?
、
stackoverflow.com/questions/69595863/machine-translation-transformer-output-unknown-tokens这就是我如何标记我的数据,我使用德语到英语翻译任务。
浏览 0
提问于2021-11-02
得票数 1
回答已采纳
2
回答
很难理解Roberta模型中使用的令牌器
、
、
、
’有'Ġ24','GB','Ġof','ĠVR','AM‘Bert模型使用
WordPiece
在
WordPiece
词汇表中没有出现的任何单词都会被贪婪地分解成子单词。例如
浏览 4
提问于2020-04-10
得票数 13
回答已采纳
1
回答
transformers AutoTokenizer.tokenize引入额外的角色
、
、
我正在使用HuggingFace转换器AutoTokenizer来标记化小段文本。但是,这种标记化在单词中间拆分不正确,并且在标记中引入了#字符。我尝试了几种不同的模型,结果都是一样的。 下面是一段文本和从它创建的标记的示例。 CTO at TLR Communications Pty Ltd ['[CLS]', 'CT', '##O', 'at', 'T', '##LR', 'Communications', 'P', '##ty', 'L
浏览 53
提问于2021-11-10
得票数 2
回答已采纳
2
回答
伯特的TokenEmbeddings是如何创建的?
、
、
在中,有一个关于
WordPiece
嵌入的段落。 我们使用
WordPiece
嵌入(Wu等人,2016)和一个30,000个令牌词汇表。每个序列的第一个令牌总是一个特殊的分类令牌(CLS)。据我所知,
WordPiece
将单词拆分成像#I #、#游泳#ing这样的词块,但它不会生成嵌入。但是,我在论文和其他来源中没有发现任何东西,这些令牌嵌入是如何生成的。他们在实际的训练前接受过预训练吗?
浏览 0
提问于2019-09-16
得票数 9
回答已采纳
3
回答
BPE和
WordPiece
令牌-什么时候使用/哪个?
、
、
、
、
选择BPE和
WordPiece
令牌有什么一般的权衡呢?什么时候一个比另一个更好?两者在模型性能上有什么不同吗?我正在寻找一个总的答案,并以具体的例子作为后盾。
浏览 0
提问于2020-06-02
得票数 8
1
回答
bert_vocab.bert_vocab_from_dataset太久了
、
、
Arguments for `text.BertTokenizer` # Arguments for `
wordpiece
_vocab.
wordpiece
_tokenizer_learner_lib.learn
浏览 15
提问于2022-01-20
得票数 0
1
回答
伯特微调附加功能
、
我想使用Bert来执行nlp任务。但我也有更多的功能,我想包括在内。是否有方法使用预先培训的伯特模型,并包括额外的功能?
浏览 0
提问于2019-03-05
得票数 9
回答已采纳
1
回答
在NLP (文档相似)中,什么是短文本和长文本?
、
什么是NLP中的短文和长文? 我正在处理一个包含10到600个单词的文档的数据集,我在问自己是否应该以不同的方式对待它们。另外,我还没有找到在NLP中显式定义短文本和长文本的源。我任务的目标是找到类似的文件。
浏览 0
提问于2020-11-10
得票数 1
回答已采纳
1
回答
在安装了标记器之后,我在conda环境中找不到bert base uncased
、
Exception: Error while initializing
WordPiece
浏览 25
提问于2020-04-17
得票数 0
1
回答
伯特是否只对蒙面的代币进行预训练?
我对伯特预科训练中蒙面语言模型的细节有点困惑。该模型是仅为预训练的目的预测蒙面标记,还是对所有标记进行预测?
浏览 0
提问于2020-07-06
得票数 -1
回答已采纳
1
回答
伯特使用
WordPiece
,RoBERTa使用BPE
、
、
、
、
在最初的伯特文件“A.2预培训程序”一节中,提到: LM掩蔽是在
WordPiece
标记化后进行的,平均掩蔽率为15%,对部分词段不作特殊考虑。
浏览 0
提问于2020-12-11
得票数 0
回答已采纳
1
回答
bert_en_uncased_preprocess是如何制作的?比如通过训练神经网络或者手动编码?
、
、
据我所知,它完成了所有那些
WordPiece
标记化工作,因此它应该包含一些编码,而不仅仅是培训。
浏览 4
提问于2021-06-04
得票数 1
1
回答
单词大小必须精确计算bert_config.json中的vocab_size吗?
、
、
我看到了别人的BERT模型,其中vocab.txt的大小是22110,但在bert_config.json中,<code>D0</code>参数的值是21128。
浏览 83
提问于2021-06-15
得票数 2
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
MT-BERT在文本检索任务中的实践
Google工程师:谷歌翻译在几个月内效果明显提升的秘诀
1GB文本标记只需20秒!抱抱脸团队发布最新NLP工具
[大模型学习]tokenizer——将文本处理为token
Google发布24个小型BERT模型,直接通过MLM损失进行预训练
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
云直播
活动推荐
运营活动
广告
关闭
领券