前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【 文智背后的奥秘 】系列篇 : 自动文本分类

【 文智背后的奥秘 】系列篇 : 自动文本分类

原创
作者头像
文智
修改2017-06-19 19:29:40
4.4K3
修改2017-06-19 19:29:40
举报
文章被收录于专栏:文智的专栏文智的专栏

一.自动文本分类

概述文本分类,顾名思义,就是将一篇文档归为已知类别中的一类或者几个类,为了实现自动分类的目标,通常有以下几个步骤:

  1. 构建分类类别体系
  2. 获取带有类别标签的训练数据
  3. 训练数据的文本表达及特征选择
  4. 分类器的选择与训练
  5. 分类应用数据

给定一篇待分类的文档,若对其进行自动分类,通常需要把文档表达成机器可以处理的数据类型。目前常用的文本表达方式有向量空间模型(VSM),即把文档映射为一个特征向量

其中ti为文档分词后的词条项,w(ti)为相应词条项的权重。

我们的自动文本分类系统,为用户提供自动文本分类服务,平台已对文本分类的模型算法进行了封装,用户只需提供待分类的文本数据,而不必关注具体的实现,通过平台就能得到提供文本的所属类别。目前平台能识别类别囊括了软件、影视、音乐、健康养生、财经、广告推广、犯罪、政治等40多个类别,且系统算法支持快速迭代更新已有类别及增加新类别。

二.自动文本分类系统

1.系统主要框架

目前我们的自动分类系统框架如图1.1所示。系统主要分为三大块:系统输入层、系统算法封装层和输出层。其中系统的输入可包含四个部分:包含文本的url、主标题和副标题及正文部分,其中前三个输入串可选;系统的算法封装层,封装了对文本目标进行分类的分类器及算法模型的迭代更新;系统的输出为该文档所属的类别。

图1.1 自动分类系统框图

2.系统关键技术

2.1 类别体系

目前我们系统构建的类别体系主要基于网页内容分类体系,主要类别涵盖了旅游资讯、游戏、人物访谈介绍、体育、音乐、影视、软件、文学、健康、美食、财经、教育、广告推广、犯罪类别、自然灾害、政治等40多个类别。每个类别体系下对应一个与类别相关的词特征文件。词特征文件的生成及挖掘更新,文章后面会有提及。此类别体系,易扩展,增加新的类别时,若与旧体系类别无交叉,则直接添加该类别及生成一个对应的词特征文件,原有类别体系不变。若为旧体系类别中的子类别时,只需分拆原有体系中对应的大类类别,即对该大类类别词特征文件分拆即可,别的类别词特征文件不变。图2.0为系统类别体系的一个缩略的层级结构。

图2.0 类别体系层级结构

2.2 分类相关技术

2.2.1 概述

从图1.1中可以看到,我们的分类系统输入支持四个维度的特征:

  • 包含输入文档内容的url网址(可选)
  • 文档的主标题(可选)
  • 文档的副标题(可选)
  • 文档的正文

直观上来说,url网址中的某些模式和类别呈现很强的正相关性。比如url包含“video”字符串,那么该url对应的文档分为影视类的概率就很大。同理,文档的标题所属的类别往往决定文档的最终类别。下图2.1为分类器分类的主要流程。其中数据预处理主要包括数据去噪、去重等,各个分类器请参见下节。

图2.1 分类器分类主要流程

2.2.2 分类模型

目前流行的分类算法有决策树、基于规则的分类、朴素贝叶斯、支持向量机SVM、逻辑回归、神经网络等。我们的自动分类系统根据目前类别体系及应用场景,最终采用了朴素贝叶斯+规则相结合的方法。

2.2.3 特征选择

从分类流程可看出,系统支持对url和文本内容分别分类,最后通过类别投票打分方式确定最终的类别输出。从系统的输入数据来看,提取的特征主要包括:url域特征和文本词特征。Url域特征通过简单的串分割即可得到,文本词特征可利用分词软件进行切分。文档通过分词之后,会包含大量的词。而有些词,如“的”、“很好”等对类别不具有区别性。因此需要通过特征选择方法来选择一批类别相关的词特征。常用的特征选择方法有基尼系数、互信息、信息增益、卡方统计等。通过比较,最终系统卡方统计方法来进行特征选择。图2.2为系统采用的特征选择流程。流程输入为类别的正样本和负样本。通过文档分词之后,可通过简单的词的idf及词性对词进行过滤。然后对于最后保留的词计算词与类别的卡方值,通过设置一个合理卡方值阈值及词个数阈值,选取大于阈值的词作为该类的特征词。对于最后选出的特征词,通过tf*idf及归一化后的卡方值来确定该词的权重。Url域特征文件生成方法亦类似。

图2.2 类别特征选择流程

2.2.4 类别在线预测与特征词的离线挖掘

通过上面特征选择方法之后,最终系统会为类别体系中的每个类别生成类别词特征文件。为了提高分类时的时间性能,系统会为特征文件生成trie-tree,这样能更快的匹配命中的特征,而无需对全文档进行分词。考虑到输入的正文的长度,在实际分类时,算法会对正文按一定长度进行切分分别分类,最后加权综合得到正文的分类类别。目前,针对输入的文档,系统提供4个预测器分别给出url、主标题、副标题、正文的分类类别结果。为了判别出输入文档的最终类别,算法采用加权各个分类结果,最后投票得出。公式如下式所示:

其中加权权重wi可通过ada-boost学习算法训练得到。系统最终输出的是文档分为系统所支持的各个类别的得分。

上述分类算法对文档进行分类后,得到带有类别标签的文档数据,这部分数据可作为类特征词更新补充离线挖掘流程的输入集。图2.3给出了类别在线预测与特征离线挖掘流程。

图2.3 在线预测与离线挖掘流程

图2.3可看出,离线挖掘流程复用在线预测的分类部分,得到挖掘流程的输入数据,通过离线挖掘,更新类别的词特征,进而反馈给输入端,用于改进下一次的分类模型,如此则形成预测、更新的闭环。

图2.3中的特征离线挖掘,系统主要采用以下两种方式完成:

方式一: 把经过分类后的文本数据,即带有类别标签的数据,经过图2.2所示的特征挖掘流程得到类增加的特征集。由于输入的数据为直接系统分类后的数据,非人工标注的样本数据,因此,为了增加挖掘的特征准确性和可用性,经算法挖掘后的特征需要经过人工进行标注,并与旧特征集排重合并,最终离线迭代更新类的特征集。

方式二: 选取大批量数据进行主题模型(topic model)聚类训练(如LDA/word2vec聚类),得到隐含主题及描述该主题的特征词文件。再把经过分类后的文本数据用训练得到的隐含主题进行表征描述,通过卡方检验方法选择与类别相关的top N个主题,合并这些主题下的特征文件,同样经过人工标注剔除噪声特征,并与旧特征集排重合并,最终离线迭代更新类的特征集。

图2.4类特征离线挖掘两种方式

方式一和上述讲到的特征选择方法类似。方式二则基于图2.5所示直观理解所实现,即一篇文档可由多个抽象主题进行表达,而每个主题可直接由词特征集来表示。比如说一个典型的交通事故类别文章,可能会命中很多汽车类别中的汽车类型名,如“宝马”、“大货车”,同时也可能命中犯罪类别中的经常出现的“伤亡”、“死亡”等特征词。语义层面上,把文档用主题进行表达,可用相关的主题模型算法得到。本系统使用开源工具word2vec把词按隐含主题进行聚类。在主题模型聚类过程中,需要指定训练语料的隐含主题数,鉴于当前的应用场景,设定主题数为5000。通过word2vec工具得到的词特征集,覆盖面全且语义相近,能很好解决类别词特征覆盖的长尾问题。

图2.5 文档、主题、特征集关系表示

3.系统关键指标

  • 分类时间性能:单进程、平均每条数据长度2kb,1500条/秒
  • 分类准确率:类别体系中分类准确率平均80%以上

4.系统应用

系统最初为网页抽取或转码时对网页进行分类。经过不断的迭代更新,目前系统适应的场景更加广泛,如微博等社交消息的分类处理与应用、网络热门话题识别与应用等。图4.1为系统分类的效果图示例。

图4.1 文本分类效果图

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一.自动文本分类
  • 二.自动文本分类系统
    • 1.系统主要框架
      • 2.系统关键技术
        • 2.1 类别体系
        • 2.2 分类相关技术
      • 3.系统关键指标
        • 4.系统应用
        相关产品与服务
        大数据
        全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
        领券
        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档