基础入门:如何用自然语言分析大型数据集?

自然语言处理 (NLP) 是一项令人兴奋的前沿研究,Siri、Alexa 和谷歌 Home 等产品都在努力完善自然语言处理方面的能力。为了使用 NLP,我们必须了解这种处理方式的工作原理,我们可以用它来做哪些事情以及如何从原始数据到最终产品。

大数据中埋藏了很多洞察力,NLP 可以通过教授机器分析大型数据集来获取这些洞察力,本文作者给出了一些 NLP 基础入门须知,希望对该领域的新学员有所帮助。

从基础知识开始

我们正在研究的自然语言处理方法是将日常文本或语音转变为计算机可以理解的东西。从文本中,我们可以提取一些信息,比如专有名词、语气词甚至是一个人的说话风格。该处理的基础是使用 Unicode 字符,将文本分为单词、短语、句子和其他语言描述,比如标记化和 lemmatization 等。在建立使用语言之前,我们必须先把它分解并分析其组成部分,这样才能理解它是如何工作的。

划分确定范围

如果是一整块文本,我们很难确定它要表达的具体意思,即便是人类也很难短时间内快速确定其中心思想,这时,我们就需要清楚我们的目的,是只需要了解文本大意即可还是需要谨慎理解文本主体内容? 这就是宏观理解和微观理解的差异。由于 NLP 受到成本和时间因素的限制,所以,某些层次的处理是不可用的。一旦了解了目标范围,我们就可以继续进行提取。

提取处理内容

宏观理解使我们能够弄清楚正在处理的文档的大致要点是什么。我们可以用它来分类、提取主题、总结文件、语义搜索、重复检测、关键词或关键短语提取。如果是微观理解,我们可以使用 processing 深入阅读文本本身,并提取缩略词及其含义或人名、公司的专有名称。在微观理解中,语序是极其重要的,必须保证语序正确才可以得出正确的理解。

保留数据来源

当从特定文档提取数据时,我们应该确保知道这些数据的来源并保留下来,这时,有一个到源文档的链接可以节省大量时间。这种跟踪可以帮助快速修改文本中可能出现的错误,如果其中一个源文档被更新,那么更改就可以通过最少的处理反映在提取信息上,这将节省时间和处理成本。

人为训练

开发 NLP 的最好方法是教它学会倾听人类的反馈,通过这种人为数据进行训练是一切人工智能的基础。想让 NLP 系统按照我们想要的方向发展,我们就需要给它传递相应的数据。这一部分需要大量的数据才可以达到理想的效果,好在现在已经可以在网络中搜索到一些开放数据集,选择适合你训练所用的数据集,否则会适得其反。

错误反馈机制

持续的质量分析对于确保 NLP 发挥作用并适应周围的世界至关重要。创建一个 NLP 基本上是教计算机如何从错误中学习,如何识别反馈以提高自己。就其本身而言,大数据有很多洞察力。通过开发一个 NLP,你可以给计算机一个非常适合的任务,同时教它在提取过程中像人一样思考。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180526B15HA400?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券