我正在尝试应用BERT句子嵌入来从瑞典语文本字符串语料库中查找给定瑞典语文本片段的相似句子。来自sentence_transformers (SBERT)的句子BERT似乎是理想的选择。'The quick brown fox jumps over the lazy dog.']然而,他们对非英语句子转换器的选择似乎是有限的我想知道是否有可
我使用Pickle方法(通过Bert- as -Service和Google的预训练模型)将python字典存储为Vector文件,如下所示:
(关键)短语:(值)Phrase_Vector_from_Bert但我不知道如何像Gensim Word2Vec那样从Bert- as -Service模型中获得短语与向量文件的相似度,因为后者配备了.similarity方法。你能给我一个建议来获取短语/关键字的相似度,或者将它们与我的python-Pickle-di
我已经建立了一个人工语料库(不是真正的语言),每个文档都是由多个句子组成的,这些句子也不是真正的自然语言句子。我想从这个语料库中训练一个语言模型(稍后使用它来完成下游任务,比如分类或使用语句BERT进行聚类)我需要标记输入吗?像这样:<s>sentence1</s><s>sentence2</s>
或<s>the who