腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(7422)
视频
沙龙
2
回答
如何
使用
gensim
快速
文本
包装
器
训练
单词
嵌入
表示
?
、
、
、
、
我想用fastext来
训练
我自己的
单词
嵌入
。然而,在遵循了教程之后,我无法正确地完成它。) 输出:然而,当我尝试在词汇表中查找
单词
时:我得到了False,甚至
单词
也出现在我传递给
快速
文本
模型的句子中。0.
浏览 44
提问于2019-07-15
得票数 1
回答已采纳
2
回答
如何
训练
我自己的自定义词
嵌入
网页?
、
、
、
、
我有大量的
文本
数据在多个网页上的产品,我有兴趣出售给客户。我试着在维基百科上
使用
预先
训练
过的
快速
文本
词
嵌入
,但它并没有给我分类任务带来好的结果。可能是因为网站上的
文本
数据包含了很多技术细节,它不同于维基百科中的
文本
数据。因此,我想做一些转移学习的词
嵌入
,保持预先
训练
的
快速
文本
词
嵌入
为基础。我
如何
使用
Keras来
训练</e
浏览 2
提问于2019-01-24
得票数 1
1
回答
使用
Tensorflow和预
训练
的FastText获取未见
单词
的
嵌入
、
、
我正在
使用
一个预先
训练
好的
快速
文本
模型( )。en_model = FastText.load_fasttext_format('../wiki.en/wiki.en') print(en
浏览 1
提问于2017-10-31
得票数 9
2
回答
什么是映射相似ngram的最佳方法?
、
、
我一直在想,到目前为止,我只想出了一个强力的方法,检查每个
单词
的每个同步集,并试图找到一个类似的
单词
,或者将它们作为一个新的实体添加。 我想知道是否有更好的方法来实现这一点?我想的是一种粗糙但
快速
的相似算法,它可以给我一个粗略的
表示
,说明两个
单词
/同步集可能有多近。这样,我就可以消除大多数绝对不同的词,节省时间。我不确定它是否存在
浏览 0
提问于2018-08-17
得票数 1
3
回答
Gensim
: doc2vec是一个模型还是一个操作?与R执行的差异
、
、
、
、
在R中工作的过程如下:
单词
向量是
使用
text2vec包中的函数(即GloVe或GlobalVectors )在大型语料库上
训练
的,这给了我一个大的Word矢量
文本
文件。在ML步骤发生之前,
使用
来自Doc2Vec库的TextTinyR函数将每个
文本
从一个更小、更具体的
训练
语料库中转换成一个向量。这不是机器学习的步骤。没有模特受过
训练
。Doc2Vec函数有效地聚合了句子中的
单词
向量,其意义与找到向量的和或平均值的意义相同,但
浏览 45
提问于2021-06-17
得票数 1
回答已采纳
1
回答
加载
快速
文本
预
训练
的德语
单词
嵌入
的.vec文件抛出内存错误
、
、
、
我正在
使用
gensim
加载
快速
文本
的预先
训练
的
单词
嵌入
。
浏览 0
提问于2018-06-18
得票数 4
回答已采纳
1
回答
基于
gensim
的
快速
文本
库中预
训练
词
嵌入
的有效存储
、
、
、
、
我想用
gensim
从
快速
文本
库加载经过预先
训练
的多语种
单词
嵌入
;在这里,链接到
嵌入
: cc.de.300.vec (4.4 GB) cc.de.300.bin (7 GB)
gensim
.models.fasttext.load_facebook_model(path, enco
浏览 7
提问于2019-12-11
得票数 3
回答已采纳
1
回答
Tensorflow
嵌入
层中的权值更新
、
在
训练
seq2seq模型时,我想在
嵌入
层中启动一组预先
训练
的
快速
文本
权重,目的之一是减少测试环境中的未知
单词
(这些未知
单词
不在
训练
集中)。由于预
训练
的
快速
文本
模型词汇量较大,在测试环境中,未知词可以用
快速
文本
的词汇向量来
表示
,在
训练
集中,这些向量应该与语义相似的词具有相似的方向。然而,由于
嵌入
层中的初始
浏览 2
提问于2017-05-19
得票数 2
回答已采纳
2
回答
如何
微调空间词向量
、
我
使用
预先
训练
过的spacy
单词
嵌入
来预测文档的相似性。因为我有很多特定于领域的
单词
,所以我想在一个包含我的领域特定词汇表的小数据集上微调我的向量。经过一些研究,我发现,我可以
训练
我自己的载体
使用
Gensim
。在那里,我必须下载一个预先<em
浏览 3
提问于2020-08-06
得票数 0
回答已采纳
1
回答
如何
从
gensim
word2vec模型推断新的词向量?
、
、
我想
使用
新的
文本
数据集将新词添加到经过
训练
的
gensim
word2vec模型中。但是,我希望保留旧的
单词
嵌入
,只将数据集中的新
单词
添加到现有模型中。这意味着用新
文本
数据集简单地重新
训练
旧模型不是一种选择,因为它将重新调整也在新
文本
数据集中的先前
单词
嵌入
的向量。你能对这项任务有什么建议吗?我想要一些像
Gensim
的doc2vec推断功能,你给模型一些
文本<
浏览 3
提问于2018-03-10
得票数 5
1
回答
在
使用
gensim
的
快速
文本
包装
器
训练
单词
嵌入
后,
如何
嵌入
新句子?
、
、
、
在
gensim
的上阅读了教程后,我不明白从
训练
好的模型生成新
嵌入
的正确方法是什么。到目前为止,我已经像这样
训练
了
gensim
的
快速
文本
嵌入
: model_
gensim
=model_
gensim
.corpus_count, total_words=model_
g
浏览 11
提问于2019-07-17
得票数 1
回答已采纳
1
回答
基于大型语料库的Word2Vec
文本
分类
、
、
、
、
我正在做一个小项目,我想
使用
word2vec技术作为
文本
表示
方法。我需要对专利进行分类,但我只标注了其中的几个,为了提高我的ML模型的性能,我想
使用
大量的专利来增加我的模型的语料库/词汇量。问题是,一旦我
训练
了我的
单词
嵌入
功能,
如何
使用
这个更大的语料库与我的
训练
数据-我的标签数据? 我的数据集由2000项专利组成,这些专利都贴上了标签。用于
训练
我的
单词
嵌入</em
浏览 0
提问于2020-07-15
得票数 1
回答已采纳
2
回答
Python库在段落中查找有效的英语
单词
、
、
、
、
我有一个段落列表,我想检查这些
单词
是否是有效的英语
单词
。有时,由于一些外部问题,我可能无法在这些段落中获得有效的英语
单词
。
浏览 7
提问于2019-10-16
得票数 0
1
回答
如何
通过
训练
参数降低
gensim
快速
文本
模型的RAM消耗?
、
、
在
训练
gensim
快速
文本
模型时,什么对结果模型的内存大小有最大的影响?我希望这不是一个太懒的问题:-)
浏览 2
提问于2021-09-20
得票数 3
回答已采纳
1
回答
如果两个字符串的含义相同,
如何
获得概率
、
我已经访问了几乎所有与此相关的帖子,但其中大多数都是基于相似的
单词
来计算概率,但如果两个陈述在含义上相同但可能包含不同的
单词
,是否有任何方法可以获得概率。在这段代码中,它只是
使用
两个字符串中出现的相似
单词
来计算相似度。
浏览 18
提问于2020-12-04
得票数 0
回答已采纳
4
回答
带中文的Word2Vec
、
、
、
我从各种渠道了解到,通过
使用
一些插件,它也可以在中文上工作。 所以请告诉我任何中文插件,以及它应该
如何
在word2vec中实现。
浏览 2
提问于2016-05-23
得票数 2
2
回答
如何
使用
Google Word2Vec获取每个文档的向量
、
、
我正在尝试谷歌的word2vec预培训模式,以获得
单词
嵌入
。我能够在我的代码中加载模型,我可以看到我得到了一个
单词
的300维
表示
。这是密码-from
gensim
import modelsmodel =
gensim
.models.KeyedVectors.load_word2vec_format,而不仅仅是一个
单词
。
如何<
浏览 0
提问于2020-11-02
得票数 1
回答已采纳
2
回答
我可以
使用
公共预培训的word2vec,并继续培训它的领域特定的
文本
?
、
、
我想
训练
word2vec用它做一些很酷的NLP员工。 然而,规模不足以创建足够的word2vec模型,它需要数十亿字。因此,我们的想法是
使用
公共语料库(如维基百科),甚至
使用
一些预先
训练
过的模型(例如,
gensim
酷框架)并添加我的领域特定
文本
。我假设这个模型会注意到未见过的公开
单词
,并且可以纠正普通
单词
的向量。
浏览 0
提问于2018-08-21
得票数 5
1
回答
在keras中结合
使用
Gensim
Fasttext模型和LSTM nn
、
、
、
、
我已经用
Gensim
在非常短的句子(最多10个
单词
)语料库上
训练
了
快速
文本
模型。我知道我的测试集中包含不在我的
训练
语料库中的
单词
,即我的语料库中的一些
单词
,如“催产素”、“来曲霉素”、"Ematrophin“、”Betaxitocin“。给定测试集中的一个新词,fasttext非常清楚地知道通过
使用
字符级n-gram来生成与
训练
集中的其他相似词具有很高余弦相似度的向量
如何
将
快速<
浏览 25
提问于2020-07-06
得票数 4
回答已采纳
1
回答
如何
在
gensim
中加载经过预
训练
的fastText模型并进行.npy扩展
、
、
我刚开始深入学习,我正在尝试
使用
一个来自的预先
训练
过的
单词
嵌入
模型。我下载了以下文件:2)sa-d300-m2-fasttext.model.trainables.syn1neg.npy6)sa-d300-m2-fasttext.model.wv
浏览 1
提问于2020-08-28
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Keras文本分类实战(下)
GPT-3 vs Bert vs GloVe vs Word2vec 文本嵌入技术的性能对比测试
使用Python和keras进行文本分类(下)
从词袋到 Transfomer,NLP 十年突破史
NLP之文本分类:“Tf-Idf、Word2Vec和BERT”三种模型比较
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券