腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
检测
不同
主题
模型
之间
的
文本
相似性
、
在
主题
建模方法中,我们有两种
不同
的
主题
模型
结果,如下所示: library(dplyr)library(stm)librarytopic_model2 <- stm(documents = out$documents, vocab = out$vocab, K = 3) 我们称它们为topic_model1和topic_model2(也许使用
不同
的
数据输入会更好,但出于可重现性
浏览 20
提问于2020-12-05
得票数 1
1
回答
基于相似度
的
文本
分类分析
、
、
、
、
我已经阅读了大量关于
文本
分类和
不同
方法/
模型
的
文献,特别是使用Python语言,但我可能仍然缺少一些关于如何构建
模型
和所涉及
的
步骤
的
内容。 我有多个数据集,每个数据集都涉及特定
的
主题
。这些数据集包括目前手动标记
的
新闻和假新闻。我已经收集了
不同
来源
的
类似
主题
的
文本
(使用关键字),现在我想尝试建立一个
模型
浏览 0
提问于2020-05-11
得票数 0
1
回答
词与语篇
之间
的
相关性
、
、
我收集了关于
不同
主题
的
文章。我想研究这两者
之间
可能存在
的
相互关系。我已经开始看单词频率,似乎在一个数据集中,频率最高
的
词是猫;在另一个数据集中,老鼠;在另一个数据集中,是房子。你知道一些技术或方法(
相似性
,分类,.)吗?为了显示数据集(例如猫和老鼠
之间
)
之间
可能
的
相关性?它是否只需要专家
的
判断?
浏览 0
提问于2020-05-11
得票数 0
回答已采纳
4
回答
使用Microsoft Cognitive Services查找相似项目
是最好
的
,也是最少
的
工作,用来解决查找给定文章
的
相似文章
的
问题。文章是一串
文本
。假设我没有关于文章
的
用户交互数据。
浏览 2
提问于2016-07-01
得票数 0
2
回答
特定
主题
语言
模型
的
评价
、
、
、
我已经在我
的
自定义数据集上完成了一个预先训练过
的
语言
模型
(GPT-2)。我希望有一种方法来评估我
的
模型
生成特定预定义
主题
的
句子
的
能力,以单个关键字
的
形式给出。例如,给定LM,
模型
的
输出与单词计算机指定
的
主题
有多大
的
关系?我已经尝试过
的
是:从LM生成足够多
的
句子,并将这些句子与目标
主题
(或<em
浏览 0
提问于2020-10-02
得票数 2
回答已采纳
1
回答
利用潜在Dirichlet分配(LDA)或命名实体确定文档
的
新颖性/
相似性
、
、
、
、
给定一个包含大量(短)文档(大约100万)
的
索引或数据库,我试图对每个新传入
的
文档进行某种新奇
的
检测
。 我知道,我必须计算新文档与索引中每个文档
的
相似性
。现在,我完全不知道具体
的
执行情况。我已经训练了一个使用Mallet
的
LDA
主题
模型
,我也能够在语料库上进行命名实体识别。但我不知道如何使用这些
主题
和命名实体来实现新颖性
检测
。例如,将一个文档中
的
所有命名实体存储为
浏览 0
提问于2017-03-12
得票数 1
1
回答
一种用于
主题
检测
的
Tweets
之间
的
表示和一种良好
的
相似性
度量
、
、
、
、
我计划在Twitter上编写一个
主题
检测
工具。我一直在考虑两个tweet
之间
的
一个很好
的
相似性
度量(距离),以及如何表示它们,包括: 回复(如果有人回复一条推文,我将实现经典
模型
(如TF*IDF,并使用欧几里德距离、角度余弦等),以及具有几个相似度量(Hamming、Jaccard等)
的
布尔
模型
。对于如何使一些现有
浏览 2
提问于2013-02-06
得票数 6
1
回答
使用NLP
的
去重叠
、
、
、
、
在
文本
框里。用户也可以单独提到产品
的
描述。哪种NLP技术可以用来执行去重复?
浏览 0
提问于2023-05-12
得票数 0
1
回答
主题
对齐/
主题
建模
、
、
、
、
什么是最有效
的
方法来
检测
这篇文章是否主要是关于一个特定
的
主题
,但没有大量
的
数据进行培训?我
的
任务是确定一份文件有多少是关于天气、假期或其他几个特定
主题
的
。此外,在我
的
例子中,我没有太多
的
数据来训练
模型
。因此,我正在考虑生成一些特定
主题
的
标记特征列表,然后用word2vec度量文档中使用
的
词汇表与目标标记列表
之间
的</em
浏览 0
提问于2020-04-23
得票数 1
1
回答
LDA
模型
可再现性
的
量化
、
我正在从事一个
文本
挖掘项目,在这个项目中,我使用潜在
的
Dirichlet分配来研究一个文档集。我目前正在优化我
的
参数,以便为我
的
客户获得最好
的
模型
。在这一点上,我最关心
的
是我
的
模型
是否可以复制。一个更可复制
的
模型
将是它正在建模
的
文本
的
更准确
的
表示。我编写了一个脚本来查找两个
不同
模型
之间
浏览 0
提问于2017-05-22
得票数 0
1
回答
Tensorflow Inception v3 retraining -将
文本
/标签附加到单个图像
、
、
、
、
我正在使用inception v3
模型
来重新训练我自己
的
数据集。我有一些代表类
的
文件夹,其中包含每个类
的
图像。我想做
的
是将一些
文本
ids‘附加’到这些图像上,这样当它们被重新训练并用于运行分类/
相似性
检测
时,这些ids也会被检索到。(基本上是它
的
图像
相似性
检测
) 例如,图像X属于“教师”类,它属于John。当我重新训练
模型
,并对新
模型
运行分类时,我希望获
浏览 12
提问于2017-01-19
得票数 0
1
回答
使用自动编码器抑制异常
检测
中
的
误报(错误分类为异常/异常)
、
、
、
、
如何在异常
检测
中抑制某些异常值? 我们使用自动编码器构建了一个
模型
,它
检测
到了异常。一些被标记为异常(在正态分布之外)
的
数据点实际上并不是异常。 我们如何训练
模型
,使其不将这些识别为异常?我们是否将这些数据点
的
多个副本添加到数据集中,然后再次训练,或者是否有任何其他我们可以应用
的
技术。 在这里,正态分布具有余弦
相似性
(距离),因为数据点是
文本
数据(日志条目)
的
矢量化表示。因此,如果输入和重构向量
之间
浏览 25
提问于2020-10-26
得票数 0
回答已采纳
1
回答
如何从大量
的
文章(维基百科)中训练短语
模型
?
、
、
、
我想为法语创建一个很大
的
gensim字典,尝试在
主题
检测
、
文本
之间
的
相似性
和其他类似的事情上获得更好
的
结果。因此,我计划使用维基百科转储,并按以下方式处理: 在文章上训练短语
模型
以
检测
搭配。向字典提供新<em
浏览 0
提问于2019-01-23
得票数 1
回答已采纳
4
回答
向量空间
模型
:余弦相似度与欧氏距离
、
、
、
我有机密
文本
的
语料库。通过这些,我创造了向量。每个向量对应于一个文档。向量分量是本文档中
的
字权值,以TFIDF值计算。接下来,我建立了一个
模型
,其中每个类都是由一个向量表示
的
。
模型
中
的
向量和语料库中
的
类一样多。
模型
向量
的
分量计算为该类中从向量中提取
的
所有分量值
的
平均值。对于非分类向量,我通过计算这些向量
之间
的
余弦来确定与
模型
向量
浏览 0
提问于2013-10-16
得票数 40
回答已采纳
1
回答
我应该使用什么方法将单词转换为机器学习应用程序
的
功能?
、
、
、
我知道这两种流行
的
型号是tf-以色列国防军和word2vec。TF-国防军关注文档中单词
的
重要性和文档
的
相似性
,而word2vec则更多地关注单词
之间
的
关系和它们
之间
的
相似性
。然而,似乎没有一个
主题
能够完美地构建用于性别分类
的
矢量特征。还有其他适合这一任务
的
矢量化
模型
吗?
浏览 2
提问于2017-06-11
得票数 2
回答已采纳
3
回答
比较两个英文字符串
的
相似之处
、
、
、
、
所以这是我
的
问题。我有两段文字,我需要看看它们是否相似。不是在字符串度量
的
意义上,而是在意义上。以下两段是相关
的
,但我需要了解它们是否涵盖了“相同”
的
主题
。任何解决这个问题
的
帮助或指导都将不胜感激。 化石燃料是通过自然过程形成
的
燃料,例如埋在地下
的
死生物
的
厌氧分解。生物
的
年龄和由此产生
的
化石燃料通常是数百万年,有时甚至超过6.5亿年。甲烷可单独存在于油气田,与石油有关,或以甲烷包埋物
的</
浏览 6
提问于2011-08-17
得票数 5
1
回答
有什么方法可以找出两个语料库
之间
的
相似性
吗?
、
、
、
、
我想测量两个语料库
的
相似性
。到目前为止,我尝试过
的
相似检查如下:对于Spearman
的
秩相关系数,编码如下; def Spearman_rank_correlation_coefficient我
的
问题在除ValueError之外,我指定5121作为在另一个语料库前5120字频率列表中找不到
的
单词
的
排名。在Spearman
的
等级相关系数中,
浏览 1
提问于2020-04-23
得票数 0
2
回答
gensim LDA
主题
模型
中
的
固定大小
主题
向量寻找相似
文本
、
、
、
、
我使用gensim LDA
主题
建模来查找每个文档
的
主题
,并通过比较接收到
的
主题
向量来检查文档
之间
的
相似性
。每个文档都有
不同
数量
的
匹配
主题
,因此向量
的
比较(根据余弦
相似性
)是不正确
的
,因为需要相同长度
的
向量。正如您所看到
的
,每个向量都有
不同
的
长度,因此不可能在它们
之间<
浏览 0
提问于2018-11-21
得票数 1
回答已采纳
1
回答
如何计算短
文本
语料库
的
语义相似度?
、
、
在两个短
文本
语料库
之间
进行无监督语义相似度比较
的
正确方法是什么?比较两者
的
LDA
主题
分布似乎不是一种解决方案,因为对于较短
的
文档,生成
的
主题
并不能很好地掌握语义。分块没有帮助,因为下面的tweet不一定是同一
主题
。例如,在这些语料库中创建文档TF-IDF
之间
的
余弦
相似性
矩阵是一种好方法吗?
浏览 0
提问于2020-04-20
得票数 0
2
回答
句子相似
模型
不捕获相对句子
、
、
、
、
我尝试过
不同
的
语句
相似性
方法,即: “我喜欢下雨天,因为雨天让我感到轻松。”返回
相似性
为0.931
的
模型</em
浏览 6
提问于2021-09-29
得票数 8
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
能在不同的深度学习框架之间转换模型?微软的MMdnn做到了
国投智能:公司大模型内容检测平台支持对kimi生成式文本的检测识别
国投智能(300188.SZ):大模型安全内容检测平台支持国内主流大模型生成文本的检测识别
斯坦福研究人员推出 DetectGPT,专门检测 ChatGPT 等模型生成的文本
斯坦福研究人员推出 DetectGPT,专门检测 ChatGPT 等模型生成的文本
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券