腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
删除
字符串
中
的
停
用词
以
创建
聚
类
java
它是用Java编写
的
。我不能实现
的
是,我应该如何修改代码: https://github.com/OpenRefine/OpenRefine/blob/master/main/src/com/google/refine/clustering/binning/FingerprintKeyer.java 尤其是这里
的
第93行: https://github.com/OpenRe
浏览 9
提问于2020-10-05
得票数 0
回答已采纳
1
回答
Javascript:使用字典从
字符串
中
过滤单词?
javascript
我需要从一个
字符串
中
过滤出几百个“
停
”字。因为有很多“停止”
的
词,我不认为这样做是个好主意:我如何
创建
类似哈希图
的
东西来存储停用
的
单词?在这个映射中,键本身就是一个停
用词
,值并不重要。则过滤将导致检查该单词是否不存在于停
用词
映射中。使用什么数据结构来构建这样
的
地图?
浏览 0
提问于2012-02-23
得票数 0
1
回答
文本
聚
类
:选择k
中
的
k表示
javascript
、
cluster-analysis
在消除了停
用词
并在一组文档
中
应用了词干处理后,我在Javascript
中
应用了二分K-means,以便对从一些网页接收到
的
一组文档进行
聚
类
,
以
找到它们之间
的
相似性。当有基于文本
的
集群时,应该用什么方法来确定应该
创建
多少集群?我看到了一些方法,如Elbow、Silhouette或信息标准方法,但假设我没有任何关于我
创建
的
集群
的
信息,其他方法似乎更适合于数字集群,而不
浏览 1
提问于2017-08-15
得票数 1
2
回答
在java
中
对相似的值进行分组
java
、
math
、
cluster-analysis
、
classification
首先,感谢您阅读我
的
问题。 我使用,然后对这些值,我计算余弦相似度,看看有多少文档更相似。您可以看到以下矩阵。列名像doc1,doc2,doc3,行名像doc1,doc2,doc3等。借助下面的矩阵,我可以看到doc1和doc4有72%
的
相似性(0.722711142)。即使我看到这两个文档是相似的,它也是正确
的
。我有1000个文档,我可以看到每个文档
的
频率。
以
查看它们中有多少是相似的。我使用了不同
的
聚
类
,如k-means和agnes (层次)来组合它
浏览 9
提问于2010-02-09
得票数 3
6
回答
从text C#
中
删除
停
用词
c#
我想要从输入
字符串
中
删除
一个停
用词
的
数组,我有以下步骤foreach (string word in arrToCheck )input = input.Replace(word, "");这是执行这个
浏览 0
提问于2012-05-04
得票数 2
回答已采纳
1
回答
kmeans
的
问题
r
、
statistics
、
cluster-analysis
、
k-means
、
text-mining
我有一个关于R
中
k-means
聚
类
的
问题。实际上,我正在根据这个做所有的事情。所有内容都基于tm包
中
的
示例,因此不需要数据导入。acq包含50个文档和20个原始文档。.) : 我实际上想
创建
交叉协议矩阵。但这篇文章是在2008年写
的
,从那以后发生了很多变化。数据函数只在RSurvey包
中
可用,但我有点怀疑它是否相同
浏览 0
提问于2011-11-10
得票数 2
回答已采纳
1
回答
使用K-means
聚
类
文本数据
中
的
聚
类
ID作为监督学习模型
的
特征是不是一个坏主意?
machine-learning
、
nlp
、
cluster-analysis
、
supervised-learning
、
feature-engineering
我正在构建一个模型,该模型将预测流经管道
的
产品
的
提前期。我在想,最好对这些数据进行某种类型
的
聚
类
,然后使用集群ID作为我
的
模型
的
一个特征,也许交付期与该字段
中
存在
的
信息类型相关。以下是我<
浏览 1
提问于2020-02-09
得票数 1
2
回答
在Snowflake
中
,对一个非常大
的
表执行
删除
操作
的
最佳方法是什么?
snowflake-cloud-data-platform
从15亿行表格
中
删除
3900万行在x-small仓库上需要15分钟,在小型仓库上需要8分钟,在中型仓库上需要5分钟。我们可以在更大
的
实例上投入资金,但在探索所有其他方法之前,我们真的不想这样做。我们还在考虑实现手动分区系统,
以
将表分块,但
创建
支持功能会有开发成本。 Snowflake有没有一个我不知道
的
分区系统,等同于SQL Server?我知道这是一个范围,但交换分区是很棒
的
。感谢您
的
反馈!
浏览 2
提问于2019-10-25
得票数 3
4
回答
相关内容查询
的
基本算法是什么?
algorithm
有没有标准化
的
技术来解决这个问题呢?按空格拆分问题,搜索每个单词,等等。?? 我真的不知道从何说起。
浏览 1
提问于2011-02-01
得票数 3
回答已采纳
2
回答
如何转换具有相同重复字母
的
否定和单个单词
python-3.x
、
nlp
、
text-processing
我有一个数据框,其中有一个包含文本数据
的
列。我想从文本数据
中
删除
没有任何意义
的
单词,并将"is‘t“之类
的
否定转换为”is not“。因为当我
删除
标点符号时,“I‘t”变成了“I t”,当我
删除
长度小于2个字母
的
单词时,"t“将被完全
删除
。所以,我想做以下3个任务- 1)将否定转换为"is not“to”is not“2)
删除
没有意义
的
单词3)
删除
长度
浏览 3
提问于2019-03-30
得票数 1
回答已采纳
1
回答
在MATLAB
中
存储每次for循环迭代
的
输出
matlab
、
loops
、
for-loop
我有一个计算2D矩阵(数据;维度为512x512)文件
的
聚
类
系数
的
函数(clustering_coef_bu)。该函数
的
输出向量
以
双精度格式
创建
一个512x1矩阵(
聚
类
系数)。使用下面的for循环,我将计算每个矩阵(数据)
的
聚
类
系数。但是,我很难存储for循环每次运行
的
输出
聚
类
系数。理想
的
做法是将每个矩阵<em
浏览 0
提问于2013-08-07
得票数 0
1
回答
在雪花中设置表自动
聚
类
不是对表进行
聚
类
snowflake-cloud-data-platform
大约两周前,我从手动
聚
类
转向自动
聚
类
。 然后我看到
聚
类
到处都是。我曾经也做过手动集群,并且看到集群做得很好。然而,在下一个插入在主表
中
。<e
浏览 0
提问于2019-08-20
得票数 0
3
回答
在Python
中
删除
不带标记化
的
停
用词
python
、
stop-words
我正在尝试从练习
中
的
字符串
列表
中
删除
停
用词
:,我
的
解决方案如下:labels = [] sentences.append(sentence) 但是当我对单词进行标记化时,单词索引是131530,这比预期
的
要大得多sentences) word_index = tok
浏览 0
提问于2019-09-14
得票数 1
1
回答
从较大
的
坐标集合中选择一个较小
的
“均匀分布”坐标样本
python
、
analytics
、
sample
我有一组城市不同建筑
的
坐标(纬度和经度)。样本大小约为16,000。我计划使用这些坐标作为他们
的
位置/邻里
的
中心点,并对城市
的
不同邻里做一些分析。到目前为止,每个社区
的
“半径/大小”仍然没有决定。然而,这些坐标
中
的
很多都太接近了。所以,他们
中
的
许多人实际上代表了相同
的
地区/邻里。因此,我想选择一个更均匀分布
的
坐标的较小样本(例如,3-6k)。示例:-如果两个坐标代表两个
浏览 30
提问于2020-09-22
得票数 0
1
回答
K-均值
聚
类
与
聚
类
结合
clustering
、
k-means
我试图在作者
的
图表
中
识别出6个
聚
类
。当作者在一篇论文上合著时,他们就与边缘联系在一起.我已经用K-均值(6-均值)和聚集聚
类
创建
了一个
聚
类
.现在,我想将这两种
聚
类
方法结合起来,
以
获得更精确
的
集群。我能够找到相应
的
聚
类
,但是当算法不一致时,我不知道如何决定作者属于哪个集群。 可能我可以使用某种形式
的
线性组合,但我
浏览 0
提问于2016-01-13
得票数 2
1
回答
如何在Postgresql
中
删除
字符串
中
的
停
用词
后
删除
引号和数字
regex
、
postgresql
、
full-text-search
、
stop-words
我有一个包含
字符串
列
的
表。我从
字符串
中
删除
了停
用词
,然后结果如下所示(
以
某种方式连接到这个和@IMSoP建议
的
另一种情况)我想去掉这些引号和:和数字。
浏览 0
提问于2017-02-02
得票数 1
回答已采纳
1
回答
文件名图
的
聚
类
以
重新组合文件夹
中
的
文件
algorithm
、
cluster-analysis
我正在寻找已知
的
良好算法(模糊)
聚
类
相似的文件名,发现在一个文件夹
的
层次结构。我
的
目标是开发一个应用程序:
删除
浏览 3
提问于2014-07-29
得票数 1
回答已采纳
3
回答
LDA模型对句子(而不是文档)
聚
类
/分类有用吗?
pyspark
、
cluster-analysis
、
text-mining
、
text-classification
、
lda
最近,我正在研究句子分类问题,这些句子只是一到两行关于产品
的
评论,客户在那里发布关于产品必须提供
的
各种功能
的
反馈。经过预处理(
删除
停
用词
和词干)后,我使用特征提取库(如word2vec,tf-idf)和
聚
类
算法(k-mean)对我
的
句子进行无监督句子分类-输出是相当可接受
的
。然而,我正在寻找更多关于
聚
类
算法
的
选择,特别是想尝试LDA来进一步提高输出质量。然而,我遇到了
的</
浏览 0
提问于2017-10-24
得票数 1
16
回答
纸男孩
的
聚
类
算法
algorithm
、
language-agnostic
、
cluster-analysis
我需要帮助选择或
创建
一个
聚
类
算法根据一定
的
标准。 每个集群应该有大约相同数量
的
地址。但是,如果群集
的
地址分布得更广,集群
的
地址可能会更少。(另一种方式是:最小数量
的
集群,其
浏览 15
提问于2009-02-18
得票数 34
回答已采纳
2
回答
截断LDA主题
nlp
、
gensim
、
lda
虽然我获得了可很好地解释
的
主题(基于最热门
的
单词),但特定文档往往大量加载非常“通用”
的
主题,而不是专门
的
主题--即使文档中最常见
的
单词是专门
的
。 例如,我有一份房地产报告作为文档。频率最高
的
单词是"reit",“reit”,"growth“。现在,我有了一个“专门
的
”主题,最热门
的
词正是这三个。然而,专门化主题
的
负载率是9%,32%
的
主题是非常分散
的
浏览 23
提问于2021-06-30
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
从 App 描述介绍文字中发掘 Python 文本数据预处理实例
一文看懂什么是文本挖掘
泰迪智能科技大数据挖掘企业服务平台-快速构建数据挖掘工程
Java开发中StringBuffer类的添加、删除功能
Java字符串知识点总结
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券