【学术】使用机器学习来进行自动化文本分类

数字化已经改变了我们处理和分析信息的方式。信息的在线可用性呈指数增长。从网页到电子邮件、科学期刊、电子书、学习内容、新闻和社交媒体都充满了文本数据。其理念是快速创建、分析和报告信息。这是自动文本分类的步骤。

自动化文本分类是文本分类的一种智能分类,而且,使用机器学习来实现这些任务的自动化,会使整个过程变得非常快速和高效。人工智能和机器学习可以说是近年来最热门的技术,而且到处都能找到相关的应用。正如Jeff Bezos在他的年度股东信中所说:“在过去的几十年里,计算机有着广泛的自动化任务,程序员可以用清晰的规则和算法来描述这些任务。现在的机器学习技术也将允许我们在描述精确规则要困难的多的任务上也这样做。”

特别是关于自动化文本分类。在本文中,我们将讨论与自动化文本分类API相关的技术、应用程序、自定义和细分。

文本数据的意图、情感和情绪分析是文本分类中最重要的部分。这些用例已经在机器智能爱好者中引起了极大地轰动。我们已经为每个类别开发了单独的分类器,因为他们的研究本身就是一个巨大的课题。文本分类器可以在各种文本数据集进行操作。你可以使用带标记的数据对分类器进行训练,也可以对原始的非结构化文本进行操作。这两个类别都包含许多应用。

监督文本分类

当你定义分类类别时,将对文本进行监督分类。它的工作原理是训练和测试。我们为机器学习算法提供标签数据。该算法在标记的数据集上进行训练,并给出所需的输出(预定义的类别)。在测试阶段,该算法使用未观察到的数据,并根据训练阶段对其进行分类。

垃圾邮件过滤是监督分类的一个例子。收到的电子邮件会根据其内容自动分类。语言检测、意图、情感和情绪分析都是基于监督系统。它可以对特殊的用例进行操作,例如通过分析数百万在线信息来识别紧急情况。这真是大海捞针的问题。我们提出了一个智能公共交通系统来识别这种情况。为了识别数百万在线会话中的紧急情况,分类器必须进行高精度的训练。它需要特殊的损失函数,在训练时采样,以及建立一个多分类器堆栈的方法,每个分类器都细化了前一个的结果来解决这个问题。

监督分类基本上是让电脑模仿人类。这些算法被赋予一组标记/分类文本(也称为训练集),基于它们生成AI模型,当进一步给定新的未标记文本时,这些模型可以自动对它们进行分类。我们的几个API,都是在监督系统下开发的。文本分类器目前训练了一套通用的150个类别。

无监督的文本分类

无监督分类是在不提供外部信息的情况下完成的。在这里,算法试图发现数据中的自然结构。请注意,自然结构可能不是人类所想象的逻辑划分。该算法在数据点中寻找相似的模式和结构,并将它们分组成簇。数据的分类是基于所形成的集群来完成的。以web搜索为例。该算法根据搜索词生成集群,并将其作为结果呈现给用户。

每个数据点都嵌入到超空间,你可以在TensorBoard上对其进行可视化。下图是我们在印度电信公司Reliance Jio上做的twitter研究。

数据挖掘是基于文本相似性来寻找相似的数据点。这些类似的数据点为最近的邻居群集。下面的图片显示了rs99上的“reliance jio prime会员”的最近邻居:这里是如何获得rs 100 cashback …

正如你所看到的,随附的推文与标签相似。这个集群如果有一类相似的tweet,无监督的分类在生成文本数据的洞察力时很有用。它是高度可定制的,因为不需要标记。它可以在任何文本数据上运行而无需进行训练和标记。因此,无监督分类是语言不可知的。

自定义文本分类

很多时候,使用机器学习的最大障碍是数据集的不可用性。有很多人想用人工智能来对数据进行分类,但这需要做一个数据集,从而产生类似于先有鸡还是先有蛋的问题。自定义文本分类是在没有任何数据集的情况下构建自己的文本分类器的最佳方法之一。

在ParallelDots的最新研究工作中,我们提出了一种对文本进行零点学习的方法,在这种方法中,训练学习在大型噪声数据集上学习句子及其类别之间关系的算法可以推广到新的类别,甚至是新的数据集。我们称这种模式为“一次训练,可在任何地方进行测试”。我们还提出了多种神经网络算法,可以利用这种训练方法,在不同的数据集上得到很好的结果。最好的方法是使用LSTM模型来完成学习关系。这个想法是,如果人们能够在句子和类之间建立“归属”的概念,那么这个知识对于看不见的类,甚至是看不见的数据集都很有用。

如何构建自定义文本分类器?

要构建自己的自定义文本分类器,你需要先注册一个ParallelDots帐户并登录到你的仪表板。

你可以通过点击仪表板上的“+”图标来创建你的第一个分类器。接下来,定义你想要对数据进行分类的一些类别。请注意,为了达到最好的效果,请保持你的类别互斥。

你可以通过分析文本的样本来检查分类的准确性,并在发布之前调整你的分类列表。一旦类别发布,你将获得一个应用程序ID,这将允许你使用自定义分类API。

考虑到数据标记和准备可能是一种限制,自定义分类器可以作为一种很好的工具,来构建文本分类器而无需大量的投资。我们也相信,这将降低构建实用的机器学习模型的门槛,这种机器学习模型可以跨行业应用于解决各种使用案例。文本分类就是这样一个有巨大潜力的技术。随着越来越多的信息被倾倒在互联网上,智能机器算法可以很容易地分析和表达这些信息。

原文发布于微信公众号 - ATYUN订阅号(atyun_com)

原文发表时间:2018-01-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技评论

学界 | ImageNet 带来的预训练模型之风,马上要吹进 NLP 领域了

AI 科技评论按:对于计算机视觉领域的研究人员、产品开发人员来说,在 ImageNet 上预训练模型然后再用自己的任务专用数据训练模型已经成了惯例。但是自然语言...

1003
来自专栏机器之心

OpenAI新研究发现无监督情感神经元:可直接调控生成文本的情感

选自OpenAI 作者:Alec Radford等 机器之心编译 参与:吴攀 近日 OpenAI 公布了一项新研究,介绍了一种可以学习情感表征的无监督式的系统,...

2965
来自专栏人工智能

《Deep Learning with Python》第一章 1.1 人工智能、机器学习和深度学习

第一章 什么是深度学习?本章涉及的知识点:基本概念的高层次(High-level)定义机器学习的发展历程深度学习兴起背后的关键因素以及未来的展望过去几十年,人工...

2096
来自专栏机器之心

资源 | 从语言建模到隐马尔可夫模型:一文详述计算语言学

机器之心整理 参与:路雪、蒋思源 计算语言学(computational linguistics)是一门跨学科的研究领域,它试图找出自然语言的规律,建立运算模型...

34110
来自专栏CreateAMind

重磅 | 开发能够"想象"与"推理"的机器 -深度学习暑期班 ppt及视频

911
来自专栏专知

【深度】专知主题链路知识推荐#8-机器学习中的变分推断方法(Variational Inference)简介01

【导读】主题链路知识是我们专知的核心功能之一,为用户提供AI领域系统性的知识学习服务,一站式学习人工智能的知识,包含人工智能( 机器学习、自然语言处理、计算机视...

2725
来自专栏机器之心

深度 | Yoshua Bengio AIWTB大会解读深度生成模型:让机器具备无监督学习能力

机器之心报道 演讲者:Yoshua Bengio 参与:吴攀、蒋思源 面向开发者的世界上最大的人工智能主题在线演讲与对话大会 AI WITH THE BEST(...

33812
来自专栏AI科技评论

微软IJCAI2016演讲PPT:深度学习在语音识别上不再难有用武之地

微软研究院在IJCAI2016第一天的Tutorial上讲述了自己将深度学习、深度神经网络应用于语义理解上的一些经验和收获。作为小娜和小冰的开发者,微软在自然预...

37212
来自专栏AI科技评论

学界 | 模型可解释性差?你考虑了各种不确定性了吗?

雷锋网 AI 科技评论按:本文作者是来自 Taboola 的数据科学家 Inbar Naor,她的研究领域是探索深度学习在推荐系统中的应用,在本文作者介绍了数据...

671
来自专栏大数据挖掘DT机器学习

李航博士:浅谈我对机器学习的理解

李航博士,华为技术有限公司 诺亚方舟实验室 首席科学家 ? 算算时间,从开始到现在,做机器学习算法也将近八个月了。虽然还没有达到融会贯通的地步,但至少在熟悉了算...

4009

扫码关注云+社区