首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >基于论文标题的研究论文分类

基于论文标题的研究论文分类
EN

Stack Overflow用户
提问于 2014-03-20 19:44:59
回答 3查看 626关注 0票数 2

亲爱的,我正在做一个项目,在这个项目中,我必须用论文的标题将研究论文分类到合适的领域。例如,如果“计算机网络”这个短语出现在标题中的某个地方,那么本文应该被标记为与“计算机网络”的概念有关。我有三百万篇研究论文。所以我想知道我该怎么开始。我试过使用tf-以色列国防军,但没有得到实际结果。有人知道一个库可以轻松地完成这个任务吗?请给我一个建议。我将心存感激。

EN

回答 3

Stack Overflow用户

回答已采纳

发布于 2014-03-21 12:02:50

如果您事先不知道类别,那么它不是分类,而是集群。基本上,您需要做以下工作:

  1. 选择算法。
  2. 选择并提取特征。
  3. 将算法应用于特征。

很简单。您只需要选择最适合您的情况的算法和功能的组合。

当谈到集群时,有几种流行的选择。K-意味着被认为是最好的实现之一,并且有大量的实现,即使在不专门使用ML的库中也是如此。另一个流行的选择是期望最大化(EM)算法。然而,这两种方法都需要对类数进行初步猜测。如果您甚至不能大致预测类的数量,那么其他算法--例如层次化集群DBSCAN --可能会更适合您(请参见讨论这里)。

至于特征,词本身通常可以很好地按主题进行聚类。只需标记您的文本,规范矢量化单词(如果您不知道这意味着什么,请参见 )。

一些有用的链接

  • 使用k均值对文本文档进行聚类
  • NLTK聚类包
  • 基于scikit Text和NLTK的文本分类统计机器学习

注意:这个答案中的所有链接都是关于Python的,因为它为这类任务提供了非常强大和方便的工具,但是如果您有另一种首选语言,您很可能也能找到类似的库。

票数 1
EN

Stack Overflow用户

发布于 2014-03-21 04:25:05

对于Python,我建议使用NLTK (自然语言工具包),因为它有一些很好的工具,可以将原始文档转换为可以提供给机器学习算法的特性。首先,您可以尝试一个简单的单词频率模型(一袋单词),然后转向更复杂的特征提取方法(string )。您可以首先使用支持向量机( SVM )来使用LibSVM (最佳支持向量机软件包)对数据进行分类。

票数 0
EN

Stack Overflow用户

发布于 2014-03-21 10:52:03

事实上,您事先不知道类别的数量,您可以使用一个名为OntoGen的工具。该工具基本上是以一组文本为基础,进行文本挖掘,并试图发现文档集群。这是一个半监督的工具,所以你必须稍微指导一下这个过程,但它确实很神奇。这个过程的最终产物是主题的本体。

我鼓励你试一试。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/22543523

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档