腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(5344)
视频
沙龙
1
回答
如
何在
Tensorflow
中
为
BERT
标记
器
指定
输入
序列
长度
?
、
、
、
、
我遵循这个example来使用
BERT
进行情感分类。tf.keras.layers.Input(shape=(), dtype=tf.string) "https://tfhub.dev/
tensorflow
hub.KerasLayer( "https://tfhub.dev/
tensorflow
/
bert
_en_uncased_L-12_H-768_A-1
浏览 34
提问于2021-08-26
得票数 0
1
回答
如
何在
HuggingFace变压
器
库
中
获取预训练的
BERT
模型的中间层输出?
、
、
、
、
(我正在学习关于
BERT
word嵌入的 author教程,在本教程
中
,作者访问了
BERT
模型的中间层。)我想要的是使用HuggingFace的Transformers库访问
TensorFlow
2
中
BERT
模型的单个
输入
令牌的最后4层。因为每个层输出一个
长度
为
768的向量,所以最后4个层的形状
为
4*768=3072 (对于每个令牌)。 如
何在
TF/keras/TF2
中</
浏览 8
提问于2020-04-27
得票数 7
回答已采纳
1
回答
快速和慢速
标记
器
产生不同的结果
、
、
、
、
具体地说,当我运行填充掩码管道时,分配给填充掩码的单词的概率对于快速和慢速记号赋予
器
是不同的。此外,尽管快速
标记
器
的预测保持不变,而与
输入
的句子数量和
长度
无关,但对于慢速
标记
器
则不是如此。='
bert
-base-cased', \ s1 =
浏览 27
提问于2020-04-12
得票数 3
7
回答
为什么译码
器
不是伯特架构的一部分?
、
、
、
我看不出伯特是如
何在
不使用解码
器
的情况下做出预测的,这是之前所有模型的一部分,包括变压
器
和标准RNN。如
何在
不使用解码
器
的情况下在
BERT
体系结构中进行输出预测?怎么才能完全消除解码
器
呢?换句话说,我可以用什么解码
器
和伯特一起生成输出文本?如果
BERT
只编码,我可以使用什么库/工具从嵌入解码?
浏览 0
提问于2019-12-21
得票数 22
回答已采纳
1
回答
面向初学者的
BERT
文本分类任务
、
、
、
有人可以简单地列出
为
CS新手构建
BERT
文本分类
器
所涉及的任务吗?我的方法包括获取一个段落
长度
的人道主义援助活动描述列表(在CSV文件
中
具有相应的标题和扇区代码),并使用单独的扇区代码列表及其句子长描述构建一个能够将扇区代码分配给描述的分类
器
。对于训练、测试和评估,我将把我的分类
器
生成的代码与CSV文件
中
的代码进行比较。有什么关于高级任务/步骤的想法,以帮助我制定项目任务核对表?我启动了一个谷歌CoLab笔记本,制作了两个CSV文
浏览 15
提问于2021-11-12
得票数 0
1
回答
使用encode_plus方法时令牌索引
序列
长度
错误
、
、
、
在尝试使用Transformers库中提供的encode_plus方法
为
BERT
编码问答对时,我遇到了一个奇怪的错误。 我使用的是来自this Kaggle competition的数据。我的目标是将以下编码作为
BERT
的
输入
: CLS question_title question_body SEP应答SEP 但是,当我尝试使用 tokenizer = transformers.BertTokenizer.from_pretrained("
bert
-base-uncased") 并且
浏览 115
提问于2020-04-20
得票数 7
1
回答
不同
序列
长度
批次的多头自关注输出尺寸
、
我有一个关于变压
器
自我注意层的问题。在处理小批
中
不同
长度
的
序列
时,我们使用pad
序列
,使批处理
中
的所有
序列
都具有相同的
长度
。假设数据集中的大多数
序列
都是<500个元素长,但是有一些非常长的
序列
可以是1000s的元素长。如果我想在不截断的情况下处理那些非常长的
序列
,那么即使
输入
批次不包含任何长
序列
,多头自我关注层的大小也必须根据最长的
序列
量身
浏览 0
提问于2022-09-08
得票数 0
回答已采纳
1
回答
使用
BERT
或LSTM模型在大型文档
中
实现语义相似度的最佳方法
、
、
但是,
BERT
对长文档有一个问题。它支持的
序列
长度
只有512,但我所有的简历都有1000多个单词。我真的被困在这里了。像截断文档这样的方法并不适合这个目的。 有没有其他模型可以做到这一点?
浏览 9
提问于2020-12-02
得票数 0
1
回答
bidirectional_dynamic_rnn
中
的跳过值
、
、
、
我希望在整个文档上使用
BERT
-嵌入来实现NER。一个文档由几个句子组成,每个句子都由
标记
组成,并有可变的
长度
。现在,我用
BERT
为
每个句子创建单词嵌入,并为每个句子创建pad。但我如
何在
微调环境下做到这一点呢?我的
输入
有以下形状:文档、句子、
标记
然后,我想将伯特的输出放入一个带有形状文档、句子*
标记
的bidir
浏览 0
提问于2019-03-31
得票数 0
3
回答
使用
tensorflow
进行
序列
标记
:同步
序列
输入
和输出
我想使用
Tensorflow
进行
序列
标记
,也就是词性
标记
的一部分。我尝试使用这里概述的相同的模型: (它概述了一个将英语翻译成法语的模型)。由于在标注
中
,
输入
序列
和输出
序列
具有完全相同的
长度
,所以我配置了桶,使
输入
序列
和输出
序列
具有相同的
长度
,并试图在ConLL 2000上使用该模型学习POS标签。然而,解码
器
似乎有时输出一个短于
输入</
浏览 8
提问于2015-11-16
得票数 4
2
回答
用于命名实体识别的PyTorch Huggingface NLP
、
、
、
、
tokenized_texts], maxlen=MAX_LEN, dtype="long", truncating="post", padding="post") 完整的代码在这个中可用。为了避免这个错误,我将上面的语句修改为下面的语句,获取
浏览 0
提问于2019-02-25
得票数 5
1
回答
需要关于RNN模型格式化字符串的建议
、
、
、
、
问题是: 系统只会接收或删除单个单词。 另外,我想知道在我的系统
中
,节点的权重是否都是0和1(因为它只能接受或删除单个单词),或者是中间值,比如保留单词的概率。概述这一进程 转换我所有的字符串(或单词?)变成一维数
浏览 2
提问于2017-07-17
得票数 0
回答已采纳
1
回答
使用像
BERT
这样的预训练模型进行文档分类
、
、
、
我有一堆带有文本的文档,我想
标记
文档是否属于体育、食品、政治等。我可以使用
BERT
(对于单词>500的文档)来实现这一点吗?或者是否有其他模型可以有效地完成这项任务?
浏览 7
提问于2021-02-10
得票数 1
9
回答
如何使用
Bert
进行长文本分类?
、
、
我们知道
BERT
有一个
标记
的最大
长度
限制= 512,那么如果一篇文章的
长度
远远大于512,比如文本中有10000个
标记
,如何使用
BERT
?
浏览 3
提问于2019-10-31
得票数 47
2
回答
去除
Bert
中用于文本分类的SEP
标记
、
给定一个情感分类数据集,我想对
Bert
进行微调。 正如你所知道的,
BERT
创造了预测下一个句子的方法,给定当前句子。无论如何,对于文本分类,我在一些在线示例(参见
BERT
in Keras with
Tensorflow
hub)中注意到的是,他们添加了[CLS]
标记
,然后添加句子,最后添加另一个[SEP]
标记
。在其他研究工作(例如Enriching Pre-trained Language Model with Entity Information for Relation Class
浏览 190
提问于2020-01-13
得票数 6
1
回答
对于
序列
分类来说,对大上下文的
bert
进行微调可以吗?
、
我想要创建
序列
分类
bert
模型。模型
输入
为
2句。但是,我想用大上下文数据对模型进行微调,该数据由多个句子组成(
标记
的数量可能超过512)。如果训练数据的大小和实际
输入
数据的大小不同,可以吗? 谢谢
浏览 0
提问于2022-03-25
得票数 1
1
回答
解释了伯特的产出
、
、
、
、
伯特编码
器
输出的关键是default、encoder_outputs、pooled_output和sequence_output 据我所知,encoder_outputs是每个编码
器
的输出,pooled_output
浏览 3
提问于2021-11-04
得票数 2
回答已采纳
1
回答
如
何在
tf数据集上应用文本矢量化后创建滑动窗口?
、
、
、
、
我正在使用
TensorFlow
的TextLineDataset读取一个大型文本文件。我希望将数据集
标记
化,并创建一个滑动窗口,并将
标记
化文本分为两部分--
输入
和标签。然后,我想要创建一个
指定
长度
的
序列
,预先填充0。我想遍历文本,并使用除了最后一个作为
输入
和最后一个作为标签。因此,我的目标是首先将文本
标记
为如下所示:ipsum: 2,sit: 4,...然后创建一个
浏览 6
提问于2022-03-30
得票数 2
回答已采纳
1
回答
BERT
和GPT2的主要区别是什么?
、
我读了很多文章,人们都说
BERT
对NLU有好处,而GPT对NLG有好处。但它们在结构上的关键区别在于是否在自我注意中添加了掩膜,并以不同的方式训练了模型。从下面的代码
中
,如果我理解正确的话,我们可以自由选择是否添加注意掩码。 那么我能否得出这样的结论:“
BERT
的预训练参数对NLU有好处”,“GPT2的预训练参数对NLG有好处”?
浏览 8
提问于2021-03-29
得票数 0
2
回答
注意力对自动编码
器
有意义吗?
、
、
、
、
在自动编码
器
的背景下,我在努力思考注意力的概念。我相信我理解注意seq2seq翻译的用法--经过训练后,我们可以同时使用编码
器
和解码
器
来创建语言翻译(例如)。由于我们在生产中还在使用译码
器
,所以我们可以利用注意机制。 但是,如果自动编码
器
的主要目标是生成
输入
向量的潜在压缩表示,该怎么办?我说的是一些情况,在培训之后,我们基本上可以处理模型的解码
器
部分。例如,如果我在没有注意的情况下使用LSTM,那么“经典”方法就是使用最后一个隐藏状态作为上下文向量--它应该表示
浏览 6
提问于2019-09-28
得票数 17
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
GitHub超3万星:Transformer 3发布,BERT被一分为二
如何基于 TensorFlow 2.0 用十行代码实现性能最佳的 NLP 模型?
使用PaddleFluid和TensorFlow训练序列标注模型
为什么 XLNet 能够在 20 多项任务中胜过 BERT?
Transformers回顾:从BERT到GPT4
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券