腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(3975)
视频
沙龙
1
回答
对于
给定
的
单词
,
预测
聚
类
并从
聚
类
中
获取
最接近
的
单词
、
、
、
、
我已经按照这个链接
的
说明在w2v和k-means上训练了我
的
语料库。https://ai.intelligentonlinetools.com/ml/k-means-clustering-example-word2vec/ 我要做
的
是a。找到
给定
单词
的
聚
类
ID。b。从
给定
单词
的
聚
类
中
获得
最
浏览 15
提问于2019-12-25
得票数 0
回答已采纳
2
回答
python
中
的
词
聚
类
、
、
、
如何在
给定
的
一组数据
中
只
聚
类
单词
:我在网上经历了很少
的
算法,比如k-意思是algotihm,但它们似乎与文档
聚
类
有关,而不是word clustering.Can,有人建议我只对
给定
数据集中
的
单词
进行
聚
类
浏览 6
提问于2016-02-01
得票数 0
1
回答
用于主题建模
的
TF-以色列国防军
、
、
、
、
TF-国防军可以作为主题建模
的
唯一方法吗?(我知道有更好
的
方法,如LDA,LSA等) 我只想了解Topic是否能帮助我们进行主题建模。如果是,有人能解释一下这个简单
的
框架是如何工作
的
吗?我想了解Topic作为主题建模
的
唯一方法
的
应用和功能。我在网上其他地方找不到这个。
浏览 0
提问于2020-08-26
得票数 1
回答已采纳
3
回答
如何对抗KMeans
聚
类
带来
的
随机性
、
、
、
在所收集
的
图像描述符中进行
聚
类
,并在集合
中
查找k个“
单词
”或质心。 现在,我遇到了一个小问题。
浏览 0
提问于2013-09-07
得票数 3
回答已采纳
1
回答
使用K-means
聚
类
文本数据
中
的
聚
类
ID作为监督学习模型
的
特征是不是一个坏主意?
、
、
、
、
我正在构建一个模型,该模型将
预测
流经管道
的
产品
的
提前期。我在想,最好对这些数据进行某种类型
的
聚
类
,然后使用集群ID作为我
的
模型
的
一个特征,也许交付期与该字段
中
存在
的
信息类
浏览 1
提问于2020-02-09
得票数 1
3
回答
python
中
的
单词
聚
类
列表
、
、
、
我是一个文本挖掘
的
新手,这是我
的
情况。假设我有一个
单词
列表'car','dog','puppy','vehicle',我想把
单词
聚
成k组,我希望输出是['car','vehicle','dog','puppy']。我首先计算每个成对
单词
的
相似度得分,得到一个4x4矩阵(在本例
中
) M,其中Mij
浏览 19
提问于2017-01-31
得票数 5
1
回答
文档
聚
类
中
的
对数似然相似度
、
、
、
我使用以下对数似然公式来比较文档和集群之间
的
相似度: log (d| c )= sum (c(w,d) * log (w|c));c(w,d)是文档
中
单词
的
出现频率,p(w|c)是集群c生成
单词
w
的
可能性问题是,基于这种相似性,文档经常被分配到错误
的
聚
类
。如果我将文档分配给具有最高log (d|c)
的
集群(因为它通常是负值,我采用-log p(d|c)),那么它将是包含大量来自文档
的
单词</
浏览 0
提问于2012-07-21
得票数 1
回答已采纳
1
回答
斯坦福NER属性文件DistSim
的
含义
、
、
在斯坦福NER软件附带
的
一个示例.prop文件
中
,有两个我不理解
的
选项:distSimLexicon = /u/nlp/data/pos_tags_are_useless/egw4-reut.512.clusters 有没有人知道DistSim代表什么,我在哪里可以找到更多关于如何使用这些选项
的
文档?更新:我刚刚发现DistSim
的
意思是分布式相似性。我仍然想知道在这种情况下这意味着什么。
浏览 2
提问于2013-07-18
得票数 4
回答已采纳
1
回答
文字向量簇
的
可读性格式
、
、
、
假设我已经对word2vec模型进行了预培训,并将其应用于由“卫报”
的
文章标题组成
的
数据集。显然,来自“科学”部分
的
标题会在潜在空间中形成一个集群,而来自“时尚”部分
的
标题将在潜在空间中形成另一个集群。但问题是,我
的
数据集没有每个标题
的
类别标签。我怎么能想到这样的人类可读
的
解释集群中心(可能来自Kmeans)?
浏览 0
提问于2021-05-04
得票数 2
2
回答
在对文档进行
聚
类
之前,如何使用所有可能
的
文档拼写更正?
、
我需要通过纠正那些文件
中
拼写错误
的
单词
来清理这些数据。问题是,为了清理文档
中
的
拼写错误,我需要选择或验证该算法所做
的
预测
。我可以使用所有可能
的
正确
单词
预测
正确
的
拼写在
单词
向量,以执行
聚
类
对这些数据?
浏览 0
提问于2019-06-14
得票数 1
1
回答
基于特定关键字创建集群
、
、
、
、
我正在使用
聚
类
将文档
中
的
常见
单词
组合在一起。我
的
要求是根据特定
的
单词
列表创建集群,也就是说,我想获得一组通常与用户
给定
的
单词
列表一起发现
的
单词
。从视觉上看,集群应该如下所示。通常,集群技术
的
重点是创建隔离
的
集群,而我需要有一些重叠
的
隔离集群。图像显示了预期结果
的
视图。我尝试过使用k均值
浏览 0
提问于2021-03-30
得票数 0
2
回答
聚
类
一长串
单词
、
、
、
、
我手头有以下问题:我有一个很长
的
单词
列表,可能是名字、姓氏等等。我需要对这个
单词
列表进行
聚
类
,以便类似的
单词
,例如具有相似编辑(Levenshtein)距离
的
单词
出现在同一组
中
。例如,“算法”和"alogrithm“应该有很高
的
机会出现在同一个集群
中
。 在模式识别的文献
中
,我对经典
的
无监督
聚
类
方法如k均值
聚</
浏览 3
提问于2014-11-07
得票数 2
回答已采纳
1
回答
将从子集计算出来
的
kmeans应用于完整数据
、
、
、
我有断层数据集,我想分割成不同
的
部分,通过k-均值
聚
类
.由于数据集相当大,所以我在数据子集上计算k-均值。现在,我想将计算出来
的
k-均值应用到数据集
的
更大部分,但我似乎无法使它正确工作,分段没有正确地应用。vol_subset).reshape(-1,1))标签看起来很棒,标签1是骨头,标签3是植入物,标签5是骨
中
的
血管左面板上
的
一个图像上
的</
浏览 0
提问于2018-08-06
得票数 1
回答已采纳
1
回答
我如何聚集大约500000个字符串?
、
、
、
字符串是独一无二
的
。我需要根据相似性将它们分组。 还有其他办法吗?
浏览 6
提问于2015-10-18
得票数 1
回答已采纳
1
回答
调整doc2vec
的
大小参数
、
、
、
我有一个1.2mil单句描述(5-50个
单词
)
的
数据集,我想将它们
聚
类
到n个
聚
类
中
。
对于
向量转换,我想使用doc2vec来获得1.2mil大小相等
的
向量。但是,我不确定size参数应该是什么。我已经读过了,它应该在100-300之间,但是在这种情况下,每个文档都有更少
的
标记(
单词
),所以向量应该很小吗?
浏览 3
提问于2020-03-16
得票数 0
1
回答
用户位置
预测
我试图
预测
某个时间戳
的
移动应用程序
的
用户位置。到目前为止,我已经收集了不同天
的
训练数据。数据包含纬度、经度和时间戳。 为了训练一个以时间戳为输入、输出为纬度和经度对
的
模型,最好
的
算法/最佳方法是什么?
浏览 0
提问于2019-07-27
得票数 2
回答已采纳
1
回答
如何正确地对文档名称进行
聚
类
&基于Word2Vec模型查找文档之间
的
相似点?
、
、
、
我有一套文件(3000),每个文件都包含一个简短
的
描述。我想使用Word2Vec模型来查看是否可以根据描述对这些文档进行
聚
类
。 doc2vecs.append(vec/300)s
浏览 2
提问于2019-10-08
得票数 1
回答已采纳
1
回答
基于多词相似度
的
聚
类
、
、
、
我正在尝试实现对银行事务数据
的
群集。数据集包含关于Vendor和MCC
的
列,它们是string。这些列中有太多不同
的
值,我想根据一些指标(如cosine similarity for Vendor or MCC )进行集群。(例如,'Hotel A'和'Hotel B'可以在同一个集群
中
。)我认为Levenshtein distance是不够
的
。 我考虑为MCC找到一个语料库,并建立一个模型来查找
单词
之间
的
相似性。这个方法对这个问
浏览 4
提问于2020-08-08
得票数 0
1
回答
文字袋.图像分类
、
在基于文字
的
图像分类
中
,我有一些疑问,我会先告诉你我做了什么。 也很想知道弓入路
的
效率,
浏览 3
提问于2012-12-14
得票数 7
1
回答
如何在新数据上检查深度嵌入
聚
类
?
、
、
我正在使用mxnet ()
中
的
DEC。虽然它默认在MNIST上运行,但我已经将数据源更改为数百个文档(考虑到mxnet可以处理路透社
的
数据集,这应该是非常好
的
)X = np.asarray(X.todense()) # * np.sqrt(X.shape[1]) Y = np.asarray
浏览 0
提问于2018-07-03
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
数据科学中必须熟知的5种聚类算法
物以类聚,人以群分——带你认识机器学习中的“聚类”算法
R语言聚类算法在新媒体中的场景应用
分类模型和聚类思想在失效管道识别中的应用
R语言用关联规则和聚类模型挖掘处方数据探索药物配伍中的规律
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券