我想要构建一个基于分布式人工智能的文本分类解决方案(例如,基于分布式k-均值),它应该在基于Slurm的集群上工作。解决方案应该对输入文档进行聚类,以便将类似的文档组合在一起。
但是,我不确定,使用哪些框架等等--有人认为我可以如何处理这个问题吗?
发布于 2022-09-30 10:27:57
小心,“分类”这个词是用来描述带标签训练的监督任务的。您所描述的是文本聚类,它是不受监督的,没有标签。
更准确地说,您所描述的是主题建模,这是NLP中的一个标准任务。
有各种各样的算法,最标准的可能是LDA。也有最近使用DL的方法,例如伯托普。
关于Slurm的发行,显然也有一些选项,例如火花 (显然是火花可以用在斯劳姆上面。)。
https://stackoverflow.com/questions/73906365
复制相似问题