首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >是否有一种方法可以使用预先训练的doc2vec模型来评估某些文档数据集

是否有一种方法可以使用预先训练的doc2vec模型来评估某些文档数据集
EN

Stack Overflow用户
提问于 2019-06-04 05:23:49
回答 1查看 823关注 0票数 1

最近,我做了一项研究,目的是对一个庞大的文本数据库进行无监督的聚类。首先,我尝试了几种聚类算法,这些算法给了我很好的结果,但现在我尝试进入doc2vec表示,它似乎对我不起作用,我无法加载准备好的模型并使用它,相反,我自己的训练并不能证明任何结果。

我试着对我的模特进行10k文本的培训

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
model = gensim.models.doc2vec.Doc2Vec(vector_size=500, min_count=2, epochs=100,workers=8)

(每个字数约为20-50字),但相似评分是由gensim类人提出的。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
sims = model.docvecs.most_similar([inferred_vector], topn=len(model.docvecs))

和我的模特比起来要糟糕得多。更糟糕的是,我的意思是,相同或几乎相同的文本具有与我所能想到的没有任何联系的文本兼容的相似性分数。所以我决定使用来自Is there pre-trained doc2vec model?的模型来使用一些预先训练过的模型,这些模型可能在单词之间有更多的联系。很抱歉序言有点长,但问题是我该如何插入呢?有人能提供一些想法吗?我如何使用https://github.com/jhlau/doc2vec加载的gensim模型将我自己的文本数据集转换成相同长度的向量?我的数据是预处理的(停止,没有标点符号,小写,没有nlst.corpus停止词),如果需要的话,我可以从列表、数据或文件中传递它,代码问题是如何将我自己的数据传递给预先训练过的模型?任何帮助都将不胜感激。

UPD:让我感到难过的输出

火车文件(6134):使用媒介纸检查媒介习惯一周必须图表每日使用媒体、广播电视、报纸、杂志、电影、视频等,唤醒无线电警报、听交通报告、通勤、观看新闻、观看体育肥皂剧、看电视、上网、看书、看电影资料、收集日记、分析检查信息、使用美国满意模型、讨论教科书我们满足的文章,或者携带小笔记本、白天输入资料、晚上帮助留有组织的智能手机、使用便条、应用、追踪媒体、需要日记、信托、转告,立即告诉报纸是否保存了一份开始,媒体日记,可能很快就会有足够的时间完整写日记。论文完成后,日记需要写页,论文使用中介功能分析理论,说一些最了解的理解,使用了我们的满足模型,提供了框架,个体使用媒介,基础分析,特别是范畴讨论,张贴文章,应用概念,媒介使用,预期使用媒介,使用认知,社会效用,关联,退出,得出结论,在框架内使用分析习惯,讨论文本,文章概念必须包括清晰的纸,学生做作业,告诉媒体习惯,失败,分析习惯,在上下文中,我们满足模式必须包括思想纸。 类似文件(6130,0.6926988363265991:使用中纸考试媒介习惯一周必须图表,每日使用媒体、广播电视、报纸、杂志、电影、视频等,唤醒无线电报警、听交通报告、通勤、看新闻、运动肥皂剧、看电视、上网、看书、看电影资料、收集期刊资料、分析查阅资料、使用美国满足模式、讨论教科书的满足性文章,或者携带小笔记本、白天输入资料、晚上帮助留小笔记本、当天使用智能手机、使用便笺、应用、跟踪、信任、转帐、信访、转告、报、写、报、报、写、完成。日记需要写页纸,运用媒介功能分析理论,说出一些最能理解的理解,用我们的满足模型,提供框架,个体使用媒介的基础分析,特别是分类讨论,张贴多米尼克文章,应用概念,媒介使用,期望媒介,使用认知,社会效用,从属关系,退出,在框架内得出使用习惯,讨论文本文章,概念必须包括明确的论文,学生做作业,告诉中的习惯,失败,分析习惯,在上下文中,我们满足模型必须包括思想,纸,我们满足模型。

这看起来很好,但是看看其他的输出

培训文件(1185):摄影加里维诺格兰想要纸生活工作,加里威诺格兰著名的街头摄影师也影响了街头摄影的目标,向深思熟虑的想象力处理细节参考研究材料学术论文大学水平。 类似文献(3449,0.6901006698608398):唐朝写一页短文,唐代散文,唐诗,佛教,唐朝名称,唐代铁饼,他们的历史,把标题段落的信息,唐朝讨论的散文?

这表明,系统中最相似的两个文本和两个超级不同的文本之间的相似度几乎是相同的,这就使得对数据做任何事情都有问题。获取我使用的最相似的文档

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
 sims = model.docvecs.most_similar([inferred_vector], topn=len(model.docvecs))
EN

回答 1

Stack Overflow用户

发布于 2019-06-04 08:43:17

来自https://github.com/jhlau/doc2vec的模型基于一个更老版本的gensim的自定义分叉,因此您必须找到/使用它才能使它们可用。

来自通用数据集(如维基百科)的模型可能不理解您需要的特定领域的单词,而且即使在共享单词的地方,这些词的有效意义也可能有所不同。此外,要使用另一个模型来推断数据上的向量,您应该确保您正在以与处理培训数据相同的方式对文本进行预处理/标记。

因此,最好在与领域相关的数据上使用您自己训练过的模型,以便您完全理解它。

10k每个20-50字的文档与已发表的Doc2Vec工作相比有点小,但可能有效。试图从较小的数据集中获取500维向量可能是个问题。(由于数据较少,可能需要更少的向量维数和更多的训练迭代。)

如果你在自我训练模型上的结果不能令人满意,那么在你的训练和推理代码中可能会出现其他问题(在你的问题中还没有显示出来)。它也将有助于看到更多的具体例子/细节,你的结果是如何令人不满意的,相比基线(比如你提到的字里行间的陈述)。如果你把这些细节添加到你的问题中,也许可以提出其他建议。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/56444845

复制
相关文章
使用预先训练的扩散模型进行图像合成
文本到图像的扩散模型在生成符合自然语言描述提示的逼真图像方面取得了惊人的性能。开源预训练模型(例如稳定扩散)的发布有助于这些技术的民主化。预先训练的扩散模型允许任何人创建令人惊叹的图像,而不需要大量的计算能力或长时间的训练过程。
数据科学工厂
2023/08/10
4550
使用预先训练的扩散模型进行图像合成
【源头活水】一种高效评估预训练模型是否适合当前任务的方法
“问渠那得清如许,为有源头活水来”,通过前沿领域知识的学习,从其他研究领域得到启发,对研究问题的本质有更清晰的认识和理解,是自我提高的不竭源泉。为此,我们特别精选论文阅读笔记,开辟“源头活水”专栏,帮助你广泛而深入的阅读科研文献,敬请关注。
马上科普尚尚
2021/04/07
8220
【源头活水】一种高效评估预训练模型是否适合当前任务的方法
文档智能理解:通用文档预训练模型与数据集
预训练模型把迁移学习很好地用起来了,让我们感到眼前一亮。这和小孩子读书一样,一开始语文、数学、化学都学,读书、网上游戏等,在脑子里积攒了很多。当他学习计算机时,实际上把他以前学到的所有知识都带进去了。如果他以前没上过中学,没上过小学,突然学计算机就不懂这里有什么道理。这和我们预训练模型一样,预训练模型就意味着把人类的语言知识,先学了一个东西,然后再代入到某个具体任务,就顺手了,就是这么一个简单的道理。
机器学习AI算法工程
2020/12/15
1.8K0
【DS】Doc2Vec和Logistic回归的多类文本分类
Doc2vec是一个NLP工具,用于将文档表示为向量,是word2vec方法的推广。 为了理解doc2vec,最好理解word2vec方法。但是,完整的数学细节超出了本文的范围。如果您是word2vec和doc2vec的新手,以下资源可以帮助您入门:
陆勤_数据人网
2018/12/18
2.2K0
【DS】Doc2Vec和Logistic回归的多类文本分类
doc2vec和word2vec(zigbee简介及应用)
在本文中,你将学习什么是doc2vec,它是如何构建的,它与word2vec有什么关系,你能用它做什么,并且没有复杂的数学公式。
全栈程序员站长
2022/08/02
9080
doc2vec和word2vec(zigbee简介及应用)
不平衡数据集分类实战:成人收入数据集分类模型训练和评估
一个常用的例子是成人收入数据集,它涉及到社交关系、教育水平等个人数据,以此来预测成人的收入水平,判断其是否拥有5万美元/年的个人收入。数据集中个人收入低于5万美元的数据比高于5万美元的数据要明显多一些,存在着一定程度的分布不平衡。 针对这一数据集,可以使用很多不平衡分类的相关算法完成分类任务。
deephub
2020/05/09
2.3K0
不平衡数据集分类实战:成人收入数据集分类模型训练和评估
Doc2Vec的一个轻量级介绍
在这篇文章中,你将学习什么是doc2vec,它是如何构建的,它与word2vec有什么关系,你可以用它做什么,没有数学公式。
石晓文
2019/12/19
1.7K0
Doc2Vec的一个轻量级介绍
20 行代码!带你快速构建基础文本搜索引擎 ⛵
本文使用tf-idf(词频-逆文件频率)、lsi(潜在语义索引)和 doc2vec(文档向量化嵌入)这3种最基础的NLP文档嵌入技术,对文本进行嵌入操作(即构建语义向量)并完成比对检索,构建一个基础版的文本搜索引擎。
ShowMeAI
2022/08/26
5390
20 行代码!带你快速构建基础文本搜索引擎 ⛵
分类模型评估方法_政策评估的模型与方法
错误率(error_rate)和精度(accuracy)是分类任务中最常用的两个指标,既适用于二分类任务也适用于多分类任务;
全栈程序员站长
2022/11/10
4720
情感分析的新方法,使用word2vec对微博文本进行情感分析和分类
情感分析是一种常见的自然语言处理(NLP)方法的应用,特别是在以提取文本的情感内容为目标的分类方法中。通过这种方式,情感分析可以被视为利用一些情感得分指标来量化定性数据的方法。尽管情绪在很大程度上是主观的,但是情感量化分析已经有很多有用的实践,比如企业分析消费者对产品的反馈信息,或者检测在线评论中的差评信息。 最简单的情感分析方法是利用词语的正负属性来判定。句子中的每个单词都有一个得分,乐观的单词得分为 +1,悲观的单词则为 -1。然后我们对句子中所有单词得分进行加总求和得到一个最终的情
机器学习AI算法工程
2018/03/15
5.5K0
情感分析的新方法,使用word2vec对微博文本进行情感分析和分类
【NLP】doc2vec原理及实践
链接:https://blog.csdn.net/John_xyz/article/details/79208564
zenRRan
2019/09/25
2.4K0
【NLP】doc2vec原理及实践
基于gensim的Doc2Vec简析,以及用python 实现简要代码
Doc2Vec 原理: Doc2Vec 或者叫做 paragraph2vec, sentence embeddings,是一种非监督式算法,可以获得sentences/paragraphs/documents 的向量表达,是 word2vec 的拓展。学出来的向量可以通过计算距离来找 sentences/paragraphs/documents 之间的相似性, 或者进一步可以给文档打标签。 例如首先是找到一个向量可以代表文档的意思, 然后可以将向量投入到监督式机器学习算法中得到文档的标签, 例如在
学到老
2018/03/16
8K0
基于gensim的Doc2Vec简析,以及用python 实现简要代码
[AI安全论文] 24.从Word2vec和Doc2vec到Deepwalk和G2V,再到Asm2vec和Log2vec(上)
前一篇介绍了两个作者溯源的工作,从二进制代码和源代码两方面实现作者去匿名化或识别。这篇文章主要介绍六个非常具有代表性的向量表征算法,它们有特征词向量表示、文档向量表示、图向量表示,以及两个安全领域二进制和日志的向量表征。通过类似的梳理,让读者看看这些大佬是如何创新及应用到新领域的,希望能帮助到大家。这六篇都是非常经典的论文,希望您喜欢。一方面自己英文太差,只能通过最土的办法慢慢提升,另一方面是自己的个人学习笔记,并分享出来希望大家批评和指正。希望这篇文章对您有所帮助,这些大佬是真的值得我们去学习,献上小弟的膝盖~fighting!
Eastmount
2022/11/25
9350
【猫狗数据集】使用预训练的resnet18模型
链接:https://pan.baidu.com/s/1l1AnBgkAAEhh0vI5_loWKw 提取码:2xq4
西西嘛呦
2020/08/26
3K0
【猫狗数据集】使用预训练的resnet18模型
模型训练和部署-Iris数据集
在前面的文章Fayson介绍了关于《CDSW1.4的新功能》、《Hadoop之上的模型训练 - CDSW1.4新功能模块》、《CDSW1.4的Experiments功能使用》、《Hadoop之上的模型部署 - CDSW1.4新功能模块》及《CDSW1.4的Models功能-创建和部署模型(QuickStart)》。本篇文章Fayson会使用CDSW内置的Python模板项目来引导完成端到端的实操示例,即包含从模型创建,训练到部署或投产。我们使用CDSW的实验模块来开发和训练模型,然后使用模型模块的功能来进行部署。
Fayson
2018/08/17
8670
模型训练和部署-Iris数据集
[AI新知] PyTorch Hub发布内建18种预先训练模型工具
PyTorch Hub透过API和工作流程,提供开发者基本的模型,来重现机器学习相关的研究,脸书发布内建18种预先训练模型工具,方便重制AI研究
阿泽
2019/07/11
4840
[AI新知] PyTorch Hub发布内建18种预先训练模型工具
基于Doc2vec训练句子向量
编辑 | 磐石 出品 | 磐创AI技术团队 【磐创AI导读】:本文详细介绍了基于Doc2vec训练句子向量的原理及其python实现。欢迎大家点击上方蓝字关注我们的公众号:磐创AI。 目录 Doc2vec原理 代码实现 总结 一. Doc2vec原理 前文总结了Word2vec训练词向量的细节,讲解了一个词是如何通过word2vec模型训练出唯一的向量来表示的。那接着可能就会想到,有没有什么办法能够将一个句子甚至一篇短文也用一个向量来表示呢?答案是肯定有的,构建一个句子向量有很多种方法,今天我们接着word
磐创AI
2018/07/03
2.5K0
使用MLP多层感知器模型训练mnist数据集
这样,train_image 就表示训练数据,通过 print 可以看出,训练数据一共有 60000 个
yichen
2021/02/15
2.8K0
使用CNN卷积神经网络模型训练mnist数据集
卷积操作就是卷积核(kernal)跟输入数据每个值相乘再加起来得到的一个值作为输出
yichen
2021/03/10
1.1K0
使用 Transformers 在你自己的数据集上训练文本分类模型
最近实在是有点忙,没啥时间写博客了。趁着周末水一文,把最近用 huggingface transformers 训练文本分类模型时遇到的一个小问题说下。
Alan Lee
2021/12/07
2.4K0

相似问题

是否有预先训练好的doc2vec模型?

23

是否可以仅使用.pb文件来评估预训练的模型?

124

有没有一种方法可以在训练doc2vec模型之前加载预先训练好的词向量?

11

在Python3.7中是否有预先训练好的doc2vec模型?

111

是否有一种简单的方法来获取谷歌的ViT模型的预先训练的权重?

15
添加站长 进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

扫码加入开发者社群
关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

扫码关注腾讯云开发者公众号
领券
社区富文本编辑器全新改版!诚邀体验~
全新交互,全新视觉,新增快捷键、悬浮工具栏、高亮块等功能并同时优化现有功能,全面提升创作效率和体验
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文