前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >自然语言处理背后的数据科学

自然语言处理背后的数据科学

作者头像
AI研习社
发布2019-05-08 16:19:34
7320
发布2019-05-08 16:19:34
举报
文章被收录于专栏:AI研习社AI研习社

本文为 AI 研习社编译的技术博客,原标题 : The Data Science Behind Natural Language Processing 作者 | John Thuma 翻译 | luyao777 校对 | Pita 审核 | 酱番梨 整理 | 立鱼王 原文链接: https://medium.com/dataseries/the-data-science-behind-natural-language-processing-69d6df06a1ff

人类交流是能感知到的最迷人的特性之一。作为人类的一员,我知道人类之间如何互动是极其复杂的。我们经常发送和接收错误的信息,或者我们的信息会被他人误解。每天我们都理所当然地认为自己有能力向同事和家人传达意义。我们用各种各样的方式交流,包括交谈和书写符号。人与人之间的交流可以像隔着房间看一眼那么简单。斯坦福大学机器学习教授克里斯•曼宁将沟通描述为“一个离散的、符号的、分类的信号系统”。这是什么意思呢?我认为是我们的感官,如视觉、触觉、听觉,甚至是嗅觉,使我们能够交流。这让我想到了这篇博客的主题:当我们把计算纳入考虑范围时会发生什么?什么是自然语言处理?它是如何工作的?

自然语言处理 (NLP) 是计算机科学和人工智能领域的一门学科。NLP 是人与机器之间的沟通, 它既能解释我们的意思, 也能构建有效的反应。这个领域已经从上世纪50年代就存在了, 你可能听说过的艾伦图灵开发的"图灵测试" 。图灵测试衡量计算机对人类书面问题的反馈。如果一个独立的人不能分辨一个人和一台机器的区别, 那么计算系统就会被评为智能。从上世纪50年代以来, 我们取得了长足的进步, 数据科学和语言学领域也取得了很大进展。本文的其余部分详细介绍了这些算法在自然语言处理领域的一些基本功能,同时将包含一些使用 Python 的代码示例。

标记化

为了开始自然语言处理, 我们将从一些非常简单的文本解析开始。标记化是提取文本流的一个过程, 如一个句子, 并将其分解为其最基本的单词。例如, 取以下句子:“he red fox jumps over the moon .”每个单词都代表一个标记, 其中共有七个。

使用Python标记句子:

代码语言:javascript
复制
myText = ‘The red fox jumps over the moon.’
myLowerText = myText.lower()
myTextList = myLowerText.split()
print(myTextList)
OUTPUT:
[‘the’, ‘red’, ‘fox’, ‘jumps’, ‘over’, ‘the’, ‘moon’]

词性归类

词性归类用于确定句法功能。在英语中, 词性的主要部分是: 形容词、代词、名词、动词、副词、前置词、连词和感叹词。这是用来推断基于它的单词的意图。例如, PERMIT 一词可以是一个名词和一个动词。动词用法:“I permit you to go to the dance.” 名词用法:“Did you get the permit from the county.”

使用Python分析部分语音 :(使用 NLTK 库)

您可能需要安装 NLTK, 它是用于自然语言处理的 Python 库。关于 NLTK 的说明: https://www.geeksforgeeks.org/part-speech-tagging-stop-words-using-nltk-python/

代码语言:javascript
复制
import nltk
myText = nltk.word_tokenize(‘the red fox jumps over the moon.’)
print(‘Parts of Speech: ‘, nltk.pos_tag(myText))
OUTPUT:
Parts of Speech: [(‘the’, ‘DT’), (‘red’, ‘JJ’), (‘fox’, ‘NN’), (‘jumps’, ‘NNS’), (‘over’, ‘IN’), (‘the’, ‘DT’), (‘moon’, ‘NN’), (‘.’, ‘.’)]

因此, 您可以看到 NLTK 如何将句子分解为各个标记并解释语音的某些部分, 例如 ("fox"、"NN"):

NN 名词, 单数 "fox"

停止词删除

许多句子和段落中包含的单词几乎没有意义或价值。这些词包括 "a"、"and"、"an"和"the"。移除停止词是一个从句子或单词流中删除这些单词的过程。

使用 Python 和 NLTK 进行停止词删除: (点击原文阅读有关 NLTK 的说明)

代码语言:javascript
复制
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
example_sent = “a red fox is an animal that is able to jump over the moon.” stop_words = set(stopwords.words(‘english’)) word_tokens = word_tokenize(example_sent) filtered_sentence = [w for w in word_tokens if not w in stop_words] filtered_sentence = [] for w in word_tokens: if w not in stop_words: filtered_sentence.append(w) print(filtered_sentence)
OUTPUT:
[‘red’, ‘fox’, ‘animal’, ‘able’, ‘jump’, ‘moon’, ‘.’]

词干提取

词干提取是减少单词噪声的过程,也称为词典归一化。它减少了词形变化。例如, "钓鱼" 一词有一个词干 "鱼"。词干提取是用来把一个词简化为它的基本含义。另一个很好的例子是 "喜欢" 这个词, 它是许多词的词干, 比如: "likes"、"liked"、"likely"。搜索引擎使用词干分析就是这个原因。在许多情况下, 搜索其中一个词返回在集合中包含另一个单词的文档可能会很有用。

要使用 Python 和 NLTK 库执行词干提取, 请执行以下操作:

代码语言:javascript
复制
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize
ps = PorterStemmer()
for w in words:
print(w, ” : “, ps.stem(w))
OUTPUT:
(‘likes’, ‘ : ‘, u’like’)
(‘likely’, ‘ : ‘, u’like’)
(‘likes’, ‘ : ‘, u’like’)
(‘liking’, ‘ : ‘, u’like’)
words = [“likes”, “likely”, “likes”, “liking”]

词形还原

词干提取和词形还原是非常相似的, 因为它们能让你找到词根。这称为单词规范化, 两者都可以生成相同的输出结果。然而, 它们的工作方式却大不相同。词干提取试图将单词切分而词形还原给你提供观察单词是名词、动词还是其他词性。让我们以单词 "saw"为例。词干提取会返回 "saw", 词形还原可以返回"see" 或 "saw"。词形还原通常会返回一个可读的词, 而词干提取可能不会。有关差异的示例, 请参见下文。

让我们看一个 Python 示例, 它将词干提取与词形还原进行了比较:

代码语言:javascript
复制
from nltk.stem import PorterStemmer
# from nltk.tokenize import word_tokenizefrom nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()
ps = PorterStemmer()
words = [“corpora”, “constructing”, “better”, “done”, “worst”, “pony”]
for w in words:
print(w, ” STEMMING : “, ps.stem(w), ” LEMMATIZATION “, lemmatizer.lemmatize(w, pos=‘v’))
OUTPUT:
corpora STEMMING : corpora LEMMATIZATION corpora
constructing STEMMING : construct LEMMATIZATION constructing
better STEMMING : better LEMMATIZATION good
done STEMMING : done LEMMATIZATION done
worst STEMMING : worst LEMMATIZATION bad
pony STEMMING : poni LEMMATIZATION pony

总结

语言学是对语言、形态学、句法、语音和语义学的研究。包括数据科学和计算在内的这一领域在过去60年里已经进行了爆炸式的发展。我们刚刚在 NLP 中探索了一些非常简单的文本分析功能。Google、Bing 和其他搜索引擎利用这项技术帮助您在万维网上查找信息。想想看, 让 Alexa 播放你最喜欢的歌曲或者 Siri 是如何帮助你指路。这都是因为 NLP。计算中的自然语言不是噱头或玩具。NLP是我们生活中无缝计算的未来。

Arcadia Data刚刚发布了5.0 版, 其中包括我们称之为 Search Based BI的自然语言查询功能。它使用了之前描述的一些数据科学和文本分析。查看我们关于Search Based BI工具的视频可了解更多信息: SEARCH-BASED BI

原文转载:https://www.arcadiadata.com/blog/the-data-science-behind-natural-language-processing/

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-04-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI研习社 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 标记化
  • 词性归类
  • 停止词删除
  • 词干提取
  • 词形还原
  • 总结
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档