改进短文本聚类性能 - 腾讯云开发者社区

文章/答案/技术大牛

发布

无监督：聚类与改进聚类详解

聚类：聚类就是将相似的对象聚在一起的过程。如总统大选，选择那部分容易转换立场的表决者，进行针对性的宣传，可以扭转局势。聚类将相似的对象归到同一簇中，相似取决于相似度度量方法。...K-means聚类，可能收敛到局部最小值，在大规模数据集上收敛较慢。...K-means聚类：首先，随机确定k个初始点作为质心，将数据集中的每个点分配到一个簇中，即选择一个最近的质心进行分配，而后每个簇的质心更新为该簇所有点的平均值。...用于度量聚类效果的指标可以是SSE（误差平方和）。我们可以通过增加簇的数量来减小SSE，若想要保持簇的总数不变，可以将某两个簇进行合并。...应用：对地图上的点进行聚类，从而用比较合理的大巴接送方案完成一个活动或一次旅行。为出租车和乘客选择合适的候车点等。

98610 0

【短文本聚类】TextCluster：短文本聚类预处理模块 Short text cluster

TextCluster 项目地址，阅读原文可以直达，欢迎参与和Star： https://github.com/RandyPen/TextCluster 这个项目的作者是AINLP交流群里的昭鸣同学，该项目开源了一个短文本聚类工具...短文本聚类项目介绍短文本聚类是常用的文本预处理步骤，可以用于洞察文本常见模式、分析设计语义解析规范等。本项目实现了内存友好的短文本聚类方法。...| | utils.py 文件处理模块 | |------data | | infile 默认输入文本路径...，用于测试中文模式 | | infile_en 默认输入文本路径，用于测试英文模式 | | seg_dict...默认分词词典 | | stop_words 默认停用词路径注：本方法仅面向短文本，长文本聚类可根据需求选用SimHash, LDA等其他算法。

1.8K2 0

您找到你想要的搜索结果了吗？

是的

没有找到

文本聚类简单实现_文本聚类分析

clustering )指的是对文档进行的聚类分析，被广泛用于文本挖掘和信息检索领域。...最初文本聚类仅用于文本归档，后来人们又挖掘出了许多新用途，比如改善搜索结果、生成同义词，等等。...利用每个簇内元素都是相似的这个性质，聚类甚至可以用于文本去重。...文本聚类的基本流程分为特征提取和向量聚类两步，聚类的对象是抽象的向量(一维数据点) 如果能将文档表示为向量，就可以对其应用聚类算法这种表示过程称为特征提取,而一旦...GitHub – murray-z/text_analysis_tools: 中文文本分析工具包（包括- 文本分类 – 文本聚类 – 文本相似性 – 关键词抽取 – 关键短语抽取 – 情感分析 – 文本纠错

2.9K2 1

pyhanlp 文本聚类详细介绍

图1.JPG 文本聚类文本聚类简单点的来说就是将文本视作一个样本，在其上面进行聚类操作。但是与我们机器学习中常用的聚类操作不同之处在于。...我们的聚类对象不是直接的文本本身，而是文本提取出来的特征。因此如何提取特征因而是非常重要的一步。在HanLP中一共有三个文本聚类方法。...而对于前两个聚类分析器而言，其聚类模块可以接受任意文本作为文档，而不需要用特殊分隔符隔开单词。另外，该模块还接受单词列表作为输入，用户可以将英文、日文等预先切分为单词列表后输入本模块。...分词器的性能问题在repeated bisection算法无论性能还是速度都要优于kmens，但是在本人的测试中，前者速度基本原作者一致约为kmeans的三倍左右，但是性能略低于后者。...分词器的参数自动判断聚类个数k(此处来自于原文:HanLP中的文本聚类很多时候用户可能觉得聚类个数k这个超参数很难准确指定。

1.5K4 0

NLP系列学习:文本聚类

最近一段时间在文本聚类的工作,一路也遇到了不少坑,自己也写一篇文章记录了一下自己的过程. 1:什么是文本聚类先说说聚类的概念,聚类又称群分析,是数据挖掘的一种重要的思想,聚类（Cluster）分析是由若干模式...聚类分析以相似性为基础，在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性。(以上来自百度百科)....再说到文本聚类,文本聚类其实也就是在文本方向上的应用,首先我们要把一个个文档的自然语言转换成数学信息,这样形成高维空间点之后再去计算点与点之间的距离,然后将这些距离比较近的聚成一个簇,这些簇的中心成为簇心...我接到的任务是在评论文本上进行聚类操作,起初以为很简单,但是发现其实还是不是很好操作的,有几个原因,一方面是评论有些部分语义其实是重复的,这样导致一些类别会重合,这样使用聚类的方法往往是不准确的,另一方面是一些评论上的词语使用近义词和一些音译字来替换词语...并且我们用的一些算法也有一些问题,比如我们使用的K-means方法,每一次选取的簇心是随机的,这样一来得到的结果也是每次不一样的,所以聚类算法也是比较难评价,这也是一些困难的部分. 2:文本聚类的过程

1.6K0 0

基于Bert的文本聚类工具：BERTopic

【干货推荐] 基于Bert的聚类工具：BERTopic 【简介】：BERTopic是一种主题建模技术，它利用?变换器和c-TF-IDF创建聚类簇，使主题易于理解，同时在主题描述中保留重要的单词。

4K2 0

文本聚类平移算法的几点问题

文本聚类平移算法的几点问题文本处理，我的最爱---题记大概一个月前 10b lobster 也和我聊起过卢亮介绍过的平移算法，详细的介绍可以看这里：卢亮的blog。...记得当时第二天就看到了carrot2的发布，carrot2 上使用了多种聚类的算法。有些人对平移算法嗤之以鼻，比如这位。...在文本处理领域中，比如，中文分词，特别是文本聚类的算法上从来没有一个算法可以解决所有问题，很多解决方案都是采用多个算法取长补短来达到综合效果的。

8216 0

python3 基于Kmeans 文本聚类

参考链接： Python 3中的文本分析聚类常规方法，分一下几步：文本处理，切词、去停用词，文档向量聚类(K值，聚类中心，本节涉及的Kmeans方法中心暂时是随机生成，后面会有更新) 第一部分内容...那么模型训练好之后，接下来的是就是使用模型训练的向量，来完成Kmeans聚类，那么这个聚类是怎么做的尼？ ...，依然看不出到底聚类效果怎么样，是否把同一主题的文本聚成一类，那么为了方便分析聚类结果，我们将文本所属簇与文本内容，一起展示出来，一探究竟，看看具体属于哪一类？ ...，后面是对应的文本，这样便于获取当前聚类的主题。 ...下一章，我将继续写初始化质心的内容，如何设定Kmeans的初始化质心，以提升聚类效果和聚类性能！

1.4K2 0

10.HanLP实现k均值--文本聚类

文本聚类正所谓物以类聚，人以群分。人们在获取数据时需要整理，将相似的数据归档到一起，自动发现大量样本之间的相似性，这种根据相似性归档的任务称为聚类。...文本聚类文本聚类指的是对文档进行聚类分析，被广泛用于文本挖掘和信息检索领域。文本聚类的基本流程分为特征提取和向量聚类两步，如果能将文档表示为向量，就可以对其应用聚类算法。...基于k均值算法衍生出许多改进算法，先介绍 k均值算法，然后推导它的一个变种。...为了改进朴素 k均值算法的运行效率，HanLP利用种更快的准则函数实现了k均值的变种。...聚类结果中簇的顺序是随机的，每个簇中的元素也是无序的，由于 k均值是个随机算法，有小概率得到不同的结果。该聚类模块可以接受任意文本作为文档，而不需要用特殊分隔符隔开单词。

1.3K1 0

用R进行网站评论文本挖掘聚类

通过一系列的文本处理和高频词汇的提取，最后结合聚类，我们可以得到如下的可视化结果。第一类客户： ? 第二类 ? 第三类 ?...这是根据某网站成交评论制作的可视化词云，词频的统计，分词和词云的制作都是用R，最后做了聚类，将不同的用户聚成了3个类别。这个图能很直观看到，每个类别的客户的特点。...colnames(y)=c(paste("y",1:10))#变量名 #Kmeans算法聚类 cl=kmeans(y,2) pch1=rep("1",1000)#类标号 pch2=rep("2",1000...) plot(y,col=cl$cluster,pch=c(rep("1",1000),rep("2",1000)),main="kmeans算法聚类图")#每个类样本 points(cl$centers...,col=3,pch="*",cex=3)#每个类中心最后可以得到直观的用户的聚类特征从而进一步进行研究。

1.4K6 0

基于LDA的文本主题聚类Python实现

它采用了词袋（bag of words）的方法，这种方法将每一篇文档视为一个词频向量，从而将文本信息转化为了易于建模的数字信息。...但是词袋方法没有考虑词与词之间的顺序，这简化了问题的复杂性，同时也为模型的改进提供了契机。每一篇文档代表了一些主题所构成的一个概率分布，而每一个主题又代表了很多单词所构成的一个概率分布。...(words_ls) # 生成稀疏向量集 corpus = [dictionary.doc2bow(words) for words in words_ls] # LDA模型，num_topics设置聚类数...可以看到，一共分成了两类，文本库中的标题分别分成了0，1两类，即一个是体育类，一个是科技类。需要注意的是，LDA模型是个无监督的聚类，每次生成的结果可能不同。

3.9K2 0

【文智背后的奥秘】系列篇：文本聚类系统

一.文本聚类概述文本聚类是文本处理领域的一个重要应用，其主要目标是将给定的数据按照一定的相似性原则划分为不同的类别，其中同一类别内的数据相似度较大，而不同类别的数据相似度较小。...本文下面先对文本聚类的主要算法作介绍，然后再具体介绍文智平台文本聚类系统的原理与实现。二.文本聚类主要算法文本聚类需要将每个文档表示成向量的形式，以方便进行相似度的计算。...图6 文本聚类系统整体架构文智平台基于Spark的LDA聚类系统能够快速而有效地对数据进行聚类，聚类的平均准确率达到80%以上，而且经过对Spark平台的不断优化，聚类的效率也在不断提高，表1中所示的是系统目前聚类的性能情况...，后续还会在性能方面对系统不断进行优化。...表1 基于Spark的LDA聚类系统性能情况四.总结文智平台文本聚类系统使用Spark对文本数据进行LDA聚类，可以从语义的层面上挖掘出用户数据中的热门话题。

5.4K0 0

文本智能聚类——千万日志一览无余

SLS提供实时日志智能聚类(LogReduce)功能，采集文本日志时，将相似度高的日志聚集在一起，提取共同的日志pattern；能够在搜索分析过程中帮助发现日志的规律与特征，提升重要信息发现能力。...技术框架——基于图结构的聚类方法基于图结构的日志聚类方法，包括基于文本分词、向量相似度以及最大连通子图等方法，对日志进行聚类并获取特征库；根据特征库中的类别特征对海量日志进行类别标记。...根据最大连通子图确定最终的聚类数目、类别用特征库表示每一个类别，比如最长公共序列/余弦相似性的层次聚类离线聚类分析：若日志向量与特征库中所有的特征都不相似，则将当前日志向量自成一类，或者直接输出当前日志结构化之后的文本形式...image.png 实时在线聚类：若新输入的日志存在新的分词，加更新词库，；若日志向量与特征库中所有的特征都不相似，则将当前日志向量自成一类，或者直接输出当前日志结构化之后的文本形式。...该方法采用了包括基于文本分词、向量相似度以及最大连通子图等技术，对日志进行聚类并获取特征库进而实现对海量日志进行类别标记的功能。关于日志聚类的更多方法将在后续详细介绍。

3.1K68 55

基于k-means++和brich算法的文本聚类

文本聚类流程如下：未命名文件 (1).jpg分词和过滤停用词，这里分词有两步，第一步是对停用词进行分词，第二步是切分训练数据。...，并调整参数，主要是聚类中心的数量的调整和迭代次数的调整这里由于自己写的k-means算法很水导致数据大的时候特别容易出bug所以调用了sklearn的k-means算法直接进行聚类，并保存聚类模型。...：这里设置了迭代次数大概800次之后就没什么变化了，所以为了保险起见就把迭代次数调成1000，下面就调整聚类中心k的个数，这里的数据是使用3000个文本的结果，下面这些图是根据聚类结果的轮廓系数画出来的图...，birch算法是通过集成层次聚类和其他聚类算法来对大量数值数据进行聚类，其中层次聚类用于初始的微聚类阶段，而其他方法如迭代划分（在最后的宏聚类阶段）。...，其中涉及到许多和机器学习相关的算法和概念，比如，k-means，birch,tf-idf，PCA降维等等,本次小项目中，从文本聚类流程的理解，文本本身需要如何去构建特征才有意义到如何提取特征，以及最后的构建特征向量到算法里面的这一整个过程加深了我对样本特征这个词语的理解

2.5K1 1

Spark应用HanLP对中文语料进行文本挖掘--聚类

问题描述现在有一个中文文本数据集，这个数据集已经对其中的文本做了分类，如下： image.png 其中每个文件夹中含有个数不等的文件，比如环境有200个，艺术有248个；同时，每个文件的内容基本上就是一些新闻报道或者中文描述...，如下： image.png 现在需要做的就是，把这些文档进行聚类，看其和原始给定的类别的重合度有多少，这样也可以反过来验证我们聚类算法的正确度。...这样子的话，就可以通过.txt\t 来对每行文本进行分割，得到其文件名以及文件内容，这里每行其实就是一个文件了。...2.4 使用每个文档的词向量进行聚类建模在进行聚类建模的时候，需要提供一个初始的聚类个数，这里面设置为10，因为我们的数据是有10个分组的。...2.5 对聚类后的结果进行评估这里面采用的思路是： 1. 得到聚类模型后，对原始数据进行分类，得到原始文件名和预测的分类id的二元组(fileName,predictId)； 2.

1.4K0 0

MATLAB、R用改进Fuzzy C-means模糊C均值聚类算法的微博用户特征调研数据聚类研究

改进Fuzzy C-means聚类算法被提出来后，在不同的学科领域被广泛研究和应用并发展出大量不同的改进算法。它是研究比较多且应用比较广泛的一种基于划分的聚类算法。...改进 Fuzzy C-means 算法 Fuzzy C-means算法概述 Fuzzy C-means算法是聚类算法中主要算法之一，它是一种基于划分的聚类算法，是最为经典的，同时也是使用最为广泛的一种基于划分的聚类算法...应用为了进一步验证改进Fuzzy C-means算法，本文将采集一批微博数据，通过根据微博用户特征属性对其进行聚类，并得出结论。...结论本文研究了数据挖掘的研究背景与意义，讨论了聚类算法的各种基本理论包括聚类的形式化描述和定义，聚类中的数据类型和数据结果，聚类的相似性度量和准则函数等。...同时也探讨学习了基于划分的聚类方法的典型的聚类方法。本文重点集中学习了研究了改进Fuzzy C-means聚类算法的思想、原理以及该算法的优缺点。

5251 0

十五.文本挖掘之数据预处理、Jieba工具和文本聚类万字详解

本文将详细讲解数据预处理、Jieba分词和文本聚类知识，这篇文章可以说是文本挖掘和自然语言处理的入门文章。两万字基础文章，希望对您有所帮助。...这些实例都是针对数组或矩阵语料进行分析的，那么如何对中文文本语料进行数据分析呢？在本章作者将带领大家走进文本聚类分析领域，讲解文本预处理和文本聚类等实例内容。...作为目前最为成熟和应用最广的文本表示模型之一，向量空间模型已经广泛应用于数据分析、自然语言处理、中文信息检索、数据挖掘、文本聚类等领域，并取得了一定成果。...六.文本聚类获取文本TF-IDF值之后，本小节简单讲解使用TF-IDF值进行文本聚类的过程，主要包括如下五个步骤：第一步，对中文分词和数据清洗后的语料进行词频矩阵生成操作。...，其聚类结果如图所示。

2.3K2 0

如何做中文短文本聚类

文本聚类将一个个文档表示成高维空间点，通过计算哪些点距离比较近，聚成一个簇，簇的中心叫做簇心一个好的聚类要保证簇内点的距离尽量的近，但簇与簇之间的点要尽量的远 ---- 聚类一般步骤 ...引入依赖库一般有随机数库、jieba 分词、pandas 库等加载停用词字典，是个 stopwords.txt 文件，可以根据场景在该文本里面添加要去除的词（比如冠词、人称、数字等词）...抽取词向量特征，将文本中的词语转换为词频矩阵，统计每个词语的 tf-idf 权值，获得词在对应文本中的 tf-idf 权重 ---- 用 TF-IDF 的中文文本 K-means 聚类使用...k-means++ 来初始化模型，然后通过 PCA 降维把上面的权重 weight 降到10维，进行聚类模型训练定义聚类结果可视化函数对数据降维到2维，然后获得结果，最后绘制聚类结果图... 得到的聚类结果图，可以看到4个中心点和4个簇降维使用了 PCA，我们还可以试试 TSNE，TSNE 保留下的属性信息，更具代表性，也即最能体现样本间的差异，但是 TSNE 运行极慢，PCA

3.9K2 0

学界 | 从文本挖掘综述分类、聚类和信息提取等算法

无监督学习方法（文本）：无监督学习方法是尝试从未标注文本中获取隐藏数据结构的技术，例如使用聚类方法将相似文本分为同一类。...4 聚类文本聚类算法被分为很多不同的种类，比如凝聚聚类算法（agglomerative clustering algorithm）、分割算法（partitioning algorithm）和概率聚类算法...层次聚类算法是一种基于距离的聚类算法，即使用相似函数计算文本文档之间的紧密度。关于层次聚类算法文本数据的完整描述在 [101, 102, 140] 可以找到。...4.2 K 均值聚类 K 均值聚类是一种在数据挖掘中被广泛使用的分割算法。k 均值聚类根据文本数据的语境将 n 个文档划分为 k 组。属于某一类典型数据则围绕在所构建的群集群中心周围。...k 均值聚类算法的基本形式如下： ? 4.3 概率聚类和主题模型主题建模是最流行的一种概率聚类算法，近来受到广泛关注。

2.6K6 1

Spark应用HanLP对中文语料进行文本挖掘--聚类详解教程

1、问题描述现在有一个中文文本数据集，这个数据集已经对其中的文本做了分类，如下：图1.png 其中每个文件夹中含有个数不等的文件，比如环境有200个，艺术有248个；同时，每个文件的内容基本上就是一些新闻报道或者中文描述...，如下：图2.png 现在需要做的就是，把这些文档进行聚类，看其和原始给定的类别的重合度有多少，这样也可以反过来验证我们聚类算法的正确度。...2.4 使用每个文档的词向量进行聚类建模在进行聚类建模的时候，需要提供一个初始的聚类个数，这里面设置为10，因为我们的数据是有10个分组的。...2.5 对聚类后的结果进行评估这里面采用的思路是： 1. 得到聚类模型后，对原始数据进行分类，得到原始文件名和预测的分类id的二元组(fileName,predictId)； 2....输入即是一个中文的文本，输出就是分词的结果，同时去掉了一些常用的停用词。

9860 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云