腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
pandas
数据
框
列
的
BERT
字
嵌入
python
、
pandas
、
nlp
、
bert-language-model
我正在做一个使用Tamil Universal Dependency dataset
的
NLP项目。我已经将
数据
预处理成一个
数据
框
,其中
的
列
是令牌及其依赖标记。我想使用mBERT模型执行单词
嵌入
。由于
数据
集是一个预先训练
的
模型,因此它已经被标记化,如附加
的
数据
框
所示。我不确定如何继续,因为当令牌被转换为令牌id时,令牌器错误地标记了令牌id。b #List of tokens <em
浏览 15
提问于2021-10-31
得票数 0
2
回答
我们能否只使用
BERT
进行词
嵌入
,然后使用SVM/RNN进行意图分类?
nlp
、
rnn
、
svm
、
word-embeddings
、
bert
根据本文,"用于意图分类
的
系统包含以下内容
的
两个组件:
字
嵌入
和分类器。“本文还对
BERT
+SVM和Word2Vec+SVM进行了评估。我试图做
的
相反,比较两个不同
的
分类器(RNN和SVM)使用伯特
的
字
嵌入
。我只想用
BERT
将单词映射到向量中,并将结果输入到分类器(
浏览 0
提问于2020-08-04
得票数 4
1
回答
使用
BERT
通过word
嵌入
生成类似的单词或同义词
python
、
nlp
、
gensim
、
word2vec
、
bert-language-model
由于我们都知道
BERT
模型用于
字
嵌入
的
能力,它可能比word2vec和其他任何模型都要好。 我希望在
BERT
单词
嵌入
上创建一个模型,以生成同义词或类似的单词。就像我们在Gensim Word2Vec做
的
一样。我想要创建
的
方法,Gensim model.most_similar()到伯特
字
嵌入
。我对它进行了大量
的
研究,似乎可以做到这一点,但问题是,它只是以数字
的
形式显示
嵌入<
浏览 2
提问于2021-07-14
得票数 3
1
回答
如何在Python中使用ML进行文本分类?
python
、
machine-learning
、
text-classification
我有两
列
大约25k行长
的
数据
。第一
列
包含损益表行项目的列表,是从OCR创建
的
,因此其中存在许多错误。例如,可能有20行项目用于“收入”,但它们可能显示为“我来”、“收入”或“.Incom”等等。第二
列
包含已手工编码
的
分类列表,以便对行项进行分类。例如,“杂项费”、“申请费”、“保险费”都会被列为“其他收入”。我想用我现有的
数据
集来训练一个模型,预测“我
的
收入”应该放在“收入”类别中,“基本费用”应该放在“其他收入”类别,等等。我对ML
浏览 3
提问于2022-08-31
得票数 -2
1
回答
我们能用句子转换器
嵌入
没有标签
的
句子吗?
nlp
、
word-embeddings
、
bert
我试着用这个项目:为了
嵌入
非英语句子,语言不是人类语言,而是机器语言(x86)。但问题是,我找不到一个简单
的
例子,它展示了如何在没有任何标签或句子相似性值
的
情况下使用自定义
数据
集
嵌入
句子。基本上,我有一组句子列表,没有句子
的
标签,也没有它们
的
相似值,我想把它们
嵌入
到向量中,以一种尽可能最好
的
方式保持
浏览 0
提问于2020-08-25
得票数 1
回答已采纳
1
回答
使用与
BERT
兼容
的
静态
嵌入
nlp
、
sentiment-analysis
、
bert-language-model
、
word-embedding
我有一个话语
数据
集和相应
的
情感标签。我想使用情感标签
的
嵌入
作为
BERT
的
额外输入(为了简化事情,您可以说我希望初始化我
的
BERT
模型中
的
一些令牌
的
嵌入
)。有6-7个独特
的
标签。我计划使用像GloVe这样
的
静态
嵌入
来将标签映射到
嵌入
,但这将与
BERT
不兼容,后者期望输入
嵌入
大小为768。如何生成
浏览 3
提问于2022-03-22
得票数 0
1
回答
使用
BERT
嵌入
语料库(以及保存语音)而不使用预先训练
的
BERT
embedding
、
corpus
、
pre-trained-model
和word2vec / GloVe一样,我希望将我
的
领域特定语料库(大约1000万
字
)
嵌入
BERT
从头开始。通过这些
嵌入
,我可以将它们用于句子相似(已经使用了SBERT)。但我不想使用任何预训练模型/
数据
(用于分类/下一句预测
的
精细调优模型)。有什么办法可以做到吗?谢谢。
浏览 1
提问于2019-12-17
得票数 0
回答已采纳
1
回答
获取句子中每个标记
的
Bert
嵌入
python
、
pandas
、
machine-learning
、
nlp
、
data-science
我有一个python格式
的
dataframe,其中有一
列
文本
数据
。我需要运行一个循环,在该循环中,我将获取该文本
列
中
的
每一行,并为该特定行中
的
每个标记获取
bert
嵌入
。然后,我需要附加这些向量
嵌入
,并出于某种目的尝试它。例如“我
的
名字是奥巴马”为' My‘获取768向量
嵌入
为' name’获得768向量
嵌入
为' is‘为’奥巴马‘获得768向量
浏览 1
提问于2021-03-02
得票数 0
1
回答
伯特变压器KeyError: 3
python
、
bert-language-model
、
huggingface-transformers
、
keyerror
、
transformer-model
该模型
的
目标是对假新闻进行分类。所使用
的
功能如下: def
bert
_encode(data,maximum_lenattention_masks
浏览 2
提问于2021-05-14
得票数 3
1
回答
ValueError:层重形状(30522,768)与提供
的
重量形状()不兼容
keras
、
huggingface-transformers
、
bert-language-model
、
transformer-model
、
language-model
我使用
BERT
获得了
字
嵌入
,并需要在Keras模型中将其作为
嵌入
层提供,而我得到
的
错误是 ValueError: Layer weight shape (30522, 768) not compatible
浏览 13
提问于2022-01-11
得票数 0
回答已采纳
1
回答
具有256个隐藏
嵌入
的
BERT
python
、
tensorflow
、
pytorch
、
bert-language-model
我正在尝试使用
BERT
从不同
的
数据
集中获取词
嵌入
,用于我
的
NLP任务。我使用了具有768个单词
嵌入
的
“
bert
_base_uncased”,但它内存不足。256个单词
嵌入
的
版本已经发布了吗?或者有没有办法压缩这768个隐藏
的
嵌入
文件?谢谢!
浏览 9
提问于2020-03-17
得票数 0
1
回答
无位置
嵌入
的
伯特
huggingface-transformers
、
bert-language-model
、
word-embedding
我试图在HuggingFace中构建一个管道,它不会使用
BERT
中
的
位置
嵌入
,以便研究特定用例
的
嵌入
作用。我已经查看了文档和代码,但是我还没有找到实现这样一个模型
的
方法。我是否需要修改伯特
的
源代码,还是有一个配置我可以摆弄?
浏览 6
提问于2022-10-10
得票数 0
回答已采纳
1
回答
Python中
的
数据
框
python
我正在尝试用Python下载苹果
的
股票价格。然而,我注意到
数据
并不在
数据
框
中。当我在我
的
Spyder IDE中查看它时,它变得混乱了。如何将其转换为
数据
帧/矩阵格式,如何引用"Volume“、"Adjusted Close”等
数据
列
?我将非常感谢你
的
帮助。
浏览 2
提问于2016-02-02
得票数 0
2
回答
句子
嵌入
的
文本相似性
word-embeddings
、
similarity
、
similar-documents
我试图计算不同长度
的
文本之间
的
相似性。我目前
的
做法如下:我平均这些向量来创建最终
的
特征向量。 利用余弦相似度对特征向量进行比较。这给了我相当好
的
结果,文本
的
大小大致相同,但我想知道是否有更好
的
方法,第二步,如果文本有不同
的
长度。
浏览 0
提问于2019-09-19
得票数 8
回答已采纳
1
回答
将伯特编码应用于熊猫
数据
的
所有值
python
、
pandas
、
dataframe
、
bert-language-model
我正在尝试获取
数据
格式中所有值
的
bert
嵌入
。我
的
代码看起来是:model = SentenceTransformer('sentence-transformers/all-MiniLM-L6-v2') sentences =[ ["I'm happy", "
浏览 7
提问于2022-07-03
得票数 0
回答已采纳
1
回答
数据
帧到张量
的
转换
pandas
、
dataframe
、
numpy
、
tensorflow
、
bert-language-model
我有一个
数据
帧,假设是形状10,4,其中
列
3和4
的
形状为1,246。我如何转换它,或者说重塑它,这样它就可以转换成一个合适
的
张量。问题简而言之:-我实际上有一个形状为10,2
的
数据
集,我正在使用它来训练
bert
。在使用
bert
标记器标记其中一
列
之后,我得到了形状为1,23
的
input_ids,它被保存为
数据
帧中
的
新
列
,将形状更改为10,3,其中3
列</em
浏览 1
提问于2021-05-30
得票数 0
1
回答
如何在sklearn中使用
BERT
和Elmo
嵌入
python
、
machine-learning
、
nlp
、
bert-language-model
、
elmo
我使用sklearn创建了一个使用Tf-Idf
的
文本分类器,我想使用
BERT
和Elmo
嵌入
而不是Tf-Idf。 如何做到这一点?我使用下面的代码来实现
Bert
嵌入
: from flair.data import Sentenceembedding = TransformerWordEmbeddings('
bert
-base-uncase
浏览 51
提问于2021-04-15
得票数 2
回答已采纳
1
回答
基于大型语料库
的
Word2Vec文本分类
machine-learning
、
nlp
、
word2vec
、
text-classification
、
corpus
我需要对专利进行分类,但我只标注了其中
的
几个,为了提高我
的
ML模型
的
性能,我想使用大量
的
专利来增加我
的
模型
的
语料库/词汇量。问题是,一旦我训练了我
的
单词
嵌入
功能,如何使用这个更大
的
语料库与我
的
训练
数据
-我
的
标签
数据
? 我
的
数据
集由2000项专利组成,这些专利都贴上了标签。用于训练我
的
单词
嵌入<
浏览 0
提问于2020-07-15
得票数 1
回答已采纳
1
回答
NLP
的
RNN Keras模型在没有减少验证损失
的
情况下进行训练时会花费大量时间
keras
、
deep-learning
、
nlp
、
lstm
、
recurrent-neural-network
我使用
BERT
嵌入
,然后通过RNN模型处理结果。然而,当训练模型5个时期时,每个时期似乎需要大约2个小时。而且,验证损失似乎一点也没有减少。 我在RTX 2080 GPU上运行该进程。我拥有的
数据
集大约有400000个句子。这是我
的
模型: def build_model(max_seq_length, n_tags): <
浏览 9
提问于2019-06-21
得票数 2
1
回答
如何用
bert
嵌入
来训练神经网络模型,而不是像手套/快速文本那样
的
静态
嵌入
?
python
、
machine-learning
、
neural-network
、
artificial-intelligence
、
pytorch
我想找一些人来训练一个传统
的
神经网络模型,它
的
bert
嵌入
是动态生成
的
(
BERT
上下文化
嵌入
,它为相同
的
单词生成不同
的
嵌入
,当不同
的
上下文出现时,它会产生不同
的
嵌入
)。在正常
的
神经网络模型中,我们会用手套或快速文本
嵌入
来初始化模型, embed = nn.Embedding(voc
浏览 0
提问于2019-03-27
得票数 6
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Pandas请你吃英超联赛积分榜上没有的瓜!
从小白到大师,这里有一份Pandas入门指南
pandas系列学习(五):数据连接
Python模块-Pandas(四)文件读写与数据处理
Pandas笔记(一)
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券