pandas数据框列的BERT字嵌入_pandas数据框列转换_匿名pandas数据框列 - 腾讯云开发者社区

python、pandas、nlp、bert-language-model

我正在做一个使用Tamil Universal Dependency dataset的NLP项目。我已经将数据预处理成一个数据框，其中的列是令牌及其依赖标记。我想使用mBERT模型执行单词嵌入。由于数据集是一个预先训练的模型，因此它已经被标记化，如附加的数据框所示。我不确定如何继续，因为当令牌被转换为令牌id时，令牌器错误地标记了令牌id。b #List of tokens <em

浏览 15提问于2021-10-31得票数 0

2回答

我们能否只使用BERT进行词嵌入，然后使用SVM/RNN进行意图分类？

nlp、rnn、svm、word-embeddings、bert

根据本文，"用于意图分类的系统包含以下内容的两个组件:字嵌入和分类器。“本文还对BERT+SVM和Word2Vec+SVM进行了评估。我试图做的相反，比较两个不同的分类器(RNN和SVM)使用伯特的字嵌入。我只想用BERT将单词映射到向量中，并将结果输入到分类器(

浏览 0提问于2020-08-04得票数 4

1回答

使用BERT通过word嵌入生成类似的单词或同义词

python、nlp、gensim、word2vec、bert-language-model

由于我们都知道BERT模型用于字嵌入的能力，它可能比word2vec和其他任何模型都要好。我希望在BERT单词嵌入上创建一个模型，以生成同义词或类似的单词。就像我们在Gensim Word2Vec做的一样。我想要创建的方法，Gensim model.most_similar()到伯特字嵌入。我对它进行了大量的研究，似乎可以做到这一点，但问题是，它只是以数字的形式显示嵌入<

浏览 2提问于2021-07-14得票数 3

1回答

如何在Python中使用ML进行文本分类？

python、machine-learning、text-classification

我有两列大约25k行长的数据。第一列包含损益表行项目的列表，是从OCR创建的，因此其中存在许多错误。例如，可能有20行项目用于“收入”，但它们可能显示为“我来”、“收入”或“.Incom”等等。第二列包含已手工编码的分类列表，以便对行项进行分类。例如，“杂项费”、“申请费”、“保险费”都会被列为“其他收入”。我想用我现有的数据集来训练一个模型，预测“我的收入”应该放在“收入”类别中，“基本费用”应该放在“其他收入”类别，等等。我对ML

浏览 3提问于2022-08-31得票数 -2

1回答

我们能用句子转换器嵌入没有标签的句子吗？

nlp、word-embeddings、bert

我试着用这个项目：为了嵌入非英语句子，语言不是人类语言，而是机器语言(x86)。但问题是，我找不到一个简单的例子，它展示了如何在没有任何标签或句子相似性值的情况下使用自定义数据集嵌入句子。基本上，我有一组句子列表，没有句子的标签，也没有它们的相似值，我想把它们嵌入到向量中，以一种尽可能最好的方式保持

浏览 0提问于2020-08-25得票数 1

回答已采纳

1回答

使用与BERT兼容的静态嵌入

nlp、sentiment-analysis、bert-language-model、word-embedding

我有一个话语数据集和相应的情感标签。我想使用情感标签的嵌入作为BERT的额外输入(为了简化事情，您可以说我希望初始化我的BERT模型中的一些令牌的嵌入)。有6-7个独特的标签。我计划使用像GloVe这样的静态嵌入来将标签映射到嵌入，但这将与BERT不兼容，后者期望输入嵌入大小为768。如何生成

浏览 3提问于2022-03-22得票数 0

1回答

使用BERT嵌入语料库(以及保存语音)而不使用预先训练的BERT

embedding、corpus、pre-trained-model

和word2vec / GloVe一样，我希望将我的领域特定语料库(大约1000万字)嵌入BERT从头开始。通过这些嵌入，我可以将它们用于句子相似(已经使用了SBERT)。但我不想使用任何预训练模型/数据(用于分类/下一句预测的精细调优模型)。有什么办法可以做到吗？谢谢。

浏览 1提问于2019-12-17得票数 0

回答已采纳

1回答

获取句子中每个标记的Bert嵌入

python、pandas、machine-learning、nlp、data-science

我有一个python格式的dataframe，其中有一列文本数据。我需要运行一个循环，在该循环中，我将获取该文本列中的每一行，并为该特定行中的每个标记获取bert嵌入。然后，我需要附加这些向量嵌入，并出于某种目的尝试它。例如“我的名字是奥巴马”为' My‘获取768向量嵌入为' name’获得768向量嵌入为' is‘为’奥巴马‘获得768向量

浏览 1提问于2021-03-02得票数 0

1回答

伯特变压器KeyError: 3

python、bert-language-model、huggingface-transformers、keyerror、transformer-model

该模型的目标是对假新闻进行分类。所使用的功能如下： def bert_encode(data,maximum_lenattention_masks

浏览 2提问于2021-05-14得票数 3

1回答

ValueError:层重形状(30522,768)与提供的重量形状()不兼容

keras、huggingface-transformers、bert-language-model、transformer-model、language-model

我使用BERT获得了字嵌入，并需要在Keras模型中将其作为嵌入层提供，而我得到的错误是 ValueError: Layer weight shape (30522, 768) not compatible

浏览 13提问于2022-01-11得票数 0

回答已采纳

1回答

具有256个隐藏嵌入的BERT

python、tensorflow、pytorch、bert-language-model

我正在尝试使用BERT从不同的数据集中获取词嵌入，用于我的NLP任务。我使用了具有768个单词嵌入的“bert_base_uncased”，但它内存不足。256个单词嵌入的版本已经发布了吗？或者有没有办法压缩这768个隐藏的嵌入文件？谢谢!

浏览 9提问于2020-03-17得票数 0

1回答

无位置嵌入的伯特

huggingface-transformers、bert-language-model、word-embedding

我试图在HuggingFace中构建一个管道，它不会使用BERT中的位置嵌入，以便研究特定用例的嵌入作用。我已经查看了文档和代码，但是我还没有找到实现这样一个模型的方法。我是否需要修改伯特的源代码，还是有一个配置我可以摆弄？

浏览 6提问于2022-10-10得票数 0

回答已采纳

1回答

Python中的数据框

python

我正在尝试用Python下载苹果的股票价格。然而，我注意到数据并不在数据框中。当我在我的Spyder IDE中查看它时，它变得混乱了。如何将其转换为数据帧/矩阵格式，如何引用"Volume“、"Adjusted Close”等数据列？我将非常感谢你的帮助。

浏览 2提问于2016-02-02得票数 0

2回答

句子嵌入的文本相似性

word-embeddings、similarity、similar-documents

我试图计算不同长度的文本之间的相似性。我目前的做法如下：我平均这些向量来创建最终的特征向量。利用余弦相似度对特征向量进行比较。这给了我相当好的结果，文本的大小大致相同，但我想知道是否有更好的方法，第二步，如果文本有不同的长度。

浏览 0提问于2019-09-19得票数 8

回答已采纳

1回答

将伯特编码应用于熊猫数据的所有值

python、pandas、dataframe、bert-language-model

我正在尝试获取数据格式中所有值的bert嵌入。我的代码看起来是：model = SentenceTransformer('sentence-transformers/all-MiniLM-L6-v2') sentences =[ ["I'm happy", "

浏览 7提问于2022-07-03得票数 0

回答已采纳

1回答

数据帧到张量的转换

pandas、dataframe、numpy、tensorflow、bert-language-model

我有一个数据帧，假设是形状10,4，其中列3和4的形状为1,246。我如何转换它，或者说重塑它，这样它就可以转换成一个合适的张量。问题简而言之：-我实际上有一个形状为10,2的数据集，我正在使用它来训练bert。在使用bert标记器标记其中一列之后，我得到了形状为1,23的input_ids，它被保存为数据帧中的新列，将形状更改为10,3，其中3列</em

浏览 1提问于2021-05-30得票数 0

1回答

如何在sklearn中使用BERT和Elmo嵌入

python、machine-learning、nlp、bert-language-model、elmo

我使用sklearn创建了一个使用Tf-Idf的文本分类器，我想使用BERT和Elmo嵌入而不是Tf-Idf。如何做到这一点？我使用下面的代码来实现Bert嵌入： from flair.data import Sentenceembedding = TransformerWordEmbeddings('bert-base-uncase

浏览 51提问于2021-04-15得票数 2

回答已采纳

1回答

基于大型语料库的Word2Vec文本分类

machine-learning、nlp、word2vec、text-classification、corpus

我需要对专利进行分类，但我只标注了其中的几个，为了提高我的ML模型的性能，我想使用大量的专利来增加我的模型的语料库/词汇量。问题是，一旦我训练了我的单词嵌入功能，如何使用这个更大的语料库与我的训练数据-我的标签数据？我的数据集由2000项专利组成，这些专利都贴上了标签。用于训练我的单词嵌入<

浏览 0提问于2020-07-15得票数 1

回答已采纳

1回答

NLP的RNN Keras模型在没有减少验证损失的情况下进行训练时会花费大量时间

keras、deep-learning、nlp、lstm、recurrent-neural-network

我使用BERT嵌入，然后通过RNN模型处理结果。然而，当训练模型5个时期时，每个时期似乎需要大约2个小时。而且，验证损失似乎一点也没有减少。我在RTX 2080 GPU上运行该进程。我拥有的数据集大约有400000个句子。这是我的模型： def build_model(max_seq_length, n_tags): <

浏览 9提问于2019-06-21得票数 2

1回答

如何用bert嵌入来训练神经网络模型，而不是像手套/快速文本那样的静态嵌入？

python、machine-learning、neural-network、artificial-intelligence、pytorch

我想找一些人来训练一个传统的神经网络模型，它的bert嵌入是动态生成的(BERT上下文化嵌入，它为相同的单词生成不同的嵌入，当不同的上下文出现时，它会产生不同的嵌入)。在正常的神经网络模型中，我们会用手套或快速文本嵌入来初始化模型， embed = nn.Embedding(voc

浏览 0提问于2019-03-27得票数 6

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云