首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >对TF敏感带宽的KDE

对TF敏感带宽的KDE
EN

Data Science用户
提问于 2018-01-22 10:52:32
回答 1查看 335关注 0票数 1

我是基于TF-以色列国防军特征和DBSCAN (基于密度)对文本进行聚类,并试图根据它们对集群的“归属”对它们进行排序。因为我的聚类是基于密度的,而且我的点可以非常随机地传播,所以我发现核密度估计相关。

然而,KDE的得分对带宽超参数的选择非常敏感,这是我无法预先估计的。大多数带宽值的结果是,集群之外的点数为无穷大的分数,集群中的点数为零。我需要一种“自动”选择带宽的方法,这样我的结果就能得出对集群中的点数(较大的值)和外部的点数(较小的值)有意义的分数。

我试过:

  • Silverman和Scott两种基于#points和#特性的带宽评估方法都与我的情况不相关。
  • GridSearchCV返回网格中的最小带宽
  • 不同的内核类型(所有相关的内核都同样敏感)
  • 减少维数,但正如预期的那样,这会严重损害KDE的结果,而不会使带宽变得不那么敏感。

从bandwidth=0.399).fit(X_tfidf文档.todense())导入cluster3文档中分数的KernelDensity #索引= np.where(y_pred == 3)0 kde =KernelDensity(内核=‘gaussian’),cluster3#评估分数=np.exp(kde.score_samples(X_tfidf.todense()

请注意,在TF-以色列国防军中有2200个特征,KDE在每个集群中有几十个点(40-120),总共大约有4000点。

任何关于任何事情(甚至KDE之外)的想法都是受欢迎的,谢谢。

EN

回答 1

Data Science用户

发布于 2018-01-22 11:07:18

GridSearchCV返回网格中的最小带宽

然后修改网格,使其具有较低的下限。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/26913

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档