【新智元导读】自然语言处理是AI的一个子领域,从人们日常沟通所用的非结构化文本信息中提取结构化数据,以便计算机理解。本文用通俗易懂的语言深入浅出的介绍了自然语言处理,并用Python实现了几个非常有趣的实例。
在思考数据科学的时候,我们常常想起数字的统计分析。但是,各种组织机构越来越频繁地生成大量可以被量化分析的非结构文本。一些例子如社交网络评论、产品评价、电子邮件以及面试记录。
当我们提到数据科学时,我们经常想到的是针对数字的统计分析。但实际上,更为常见的是由机构所产生的大量非结构化文本数据,它们需要被量化和分析。其中的一些例子有社交网络评论,产品评价,电邮,采访稿。
本文介绍了自然语言处理中成分句法分析,包括定义、基本任务、常见方法以及短语结构和依存结构的关系,最后,分享了一些流行的工具以及工具实战例子。
【导读】我们从日常每天都会用到的推荐系统到现在研究火热的开放性聊天、对话机器人,越来越多的产品与应用的背后都需要自然语言处理(NLP)和知识图谱的技术。也有越来越多的学者与工作人员投身于 NLP 领域的研究。为什么要研究NLP呢?如果计算机想要更好的理解人类的语言,拥有更好的人机交互体验,都离不开 NLP。那么,计算机到底是如何理解人类语言的?接下来让我们跟着作者 Adam Geitgey ,和他一起体会自然语言处理技术里那些有意思的事情。
今年一月开始,我一直在从事一个从非结构化的文本中提取信息的项目。在开始这个项目之前,我对自然语言处理(NLP)领域一无所知。当我刚开始研究这个领域时,我很快就找了一本名为「Python 自然语言处理」的书(图书查阅地址:https://www.nltk.org/book/)。这本书对于我来说过于理论化了,但其中的知识基本是正确的,因此它对我来说仍然是无价的资源。接下来,我发现了 Dipanjan Sarkar 编写的「Python 文本分析」(图书查阅地址:https://www.apress.com/gp/book/9781484243534),并从头到尾通读了此书。这本书真的太棒了,它教会了我入门 NLP 项目所需的所有技术技能。最近,此书的第二版(https://www.apress.com/gp/book/9781484243534)也面世了,对上个版本进行了大量的扩充。
上次我们简单介绍了Spacy,学习了它的安装以及实体识别等基本的方法。今天我继续给大家介绍一下它的其他功能如何操作,主要有词性还原,词性标注,名词块识别,依存分析等内容。废话不多说,直接看代码。
中文主要有:NLTK,FoolNLTK,HanLP(java版本),pyhanlp(python版本),Ansj,THULAC,结巴分词,FNLP,哈工大LTP,中科院ICTCLAS分词,GATE,SnowNLP,东北大学NiuTrans,NLPIR,;
由于最近在做一些无监督的关键词短语(实体)抽取工作,其实最大的背景还是没有标注好的实体识别训练数据;所以想到采用无监督的关键短语抽取算法折中去抽取一些实体,于是调研了一波关键短语抽取算法和工具。目前无监督关键短语抽取算法和关键词抽取算法差不多:主要是TFIDF,Textrank 等特征为候选短语的打分。然后抽取得分高的候选短语。
梅西(Lionel Messi)无需介绍,甚至不喜欢足球的人都听说过,最伟大的球员之一为这项运动增光添彩。这是他的维基百科页面:
词性,也称为词类,是词汇的语法属性,是连接词汇到句法的桥梁。 词性标注(Part-of-Speech Tagging或POS Tagging),又称为词类标注,是指判断出在一个句子中每个词所扮演的语法角色。
spaCy是最流行的开源NLP开发包之一,它有极快的处理速度,并且预置了词性标注、句法依存分析、命名实体识别等多个自然语言处理的必备模型,因此受到社区的热烈欢迎。中文版预训练模型包括词性标注、依存分析和命名实体识别,由汇智网提供
https://www.lfd.uci.edu/~gohlke/pythonlibs/
丰色 发自 凹非寺 量子位 | 公众号 QbitAI 众所周知,BERT在预训练时会对某些单词进行拆分 (术语叫做“WordPiece”)。 比如把“loved”、“loving”和“loves”拆分成“lov”、“ed”、“ing”和”es”。 目的是缩减词表、加快训练速度,但这样一来,在某些时候反而会阻碍模型的理解能力。 比如把”lossless”分成”loss”和”less”的时候。 现在,来自哈工大和腾讯AI Lab的研究人员,尝试利用不做单词拆分的词汇表开发了一个BERT风格的预训练模型——Wor
ShowMeAI为斯坦福CS224n《自然语言处理与深度学习(Natural Language Processing with Deep Learning)》课程的全部课件,做了中文翻译和注释,并制作成了GIF动图!
作者 | Dipanjan (DJ) Sarkar 编译 | 姗姗 出品 | 人工智能头条(公众号ID:AI_Thinker) 【人工智能头条导读】在研究和处理自然语言处理的很多问题时,除了关注各种各样基础的数据,高级的深度学习模型、算法外,其实中间还涉及了很多处理技术,比如:词干提取、词形还原、句法分析、语义分析等,虽然不同的语言特征不同,但是这其中大部分步骤都是存在于大多数NLP领域任务中的。今天特别为大家准备了一篇包含NLP重要技术概念学习和实践的文章,希望无论是基础数据、技术理论还是代码实践大家都可
本文将讨论文本预处理的基本步骤,旨在将文本信息从人类语言转换为机器可读格式以便用于后续处理。此外,本文还将进一步讨论文本预处理过程所需要的工具。
最近正在用nltk 对中文网络商品评论进行褒贬情感分类,计算评论的信息熵(entropy)、互信息(point mutual information)和困惑值(perplexity)等(不过这些概念我其实也还理解不深...只是nltk 提供了相应方法)。 我感觉用nltk 处理中文是完全可用的。其重点在于中文分词和文本表达的形式。 中文和英文主要的不同之处是中文需要分词。因为nltk 的处理粒度一般是词,所以必须要先对文本进行分词然后再用nltk 来处理(不需要用nltk 来做分词,直接用分词包就可以
计算机非常擅长使用结构化数据,例如电子表格和数据库表。但是我们人类通常用文字交流,而不是使用电子表格来交流。这对计算机来说不是一件好事。
最近正在用nltk 对中文网络商品评论进行褒贬情感分类,计算评论的信息熵(entropy)、互信息(point mutual information)和困惑值(perplexity)等(不过这些概念我其实也还理解不深...只是nltk 提供了相应方法)。 我感觉用nltk 处理中文是完全可用的。其重点在于中文分词和文本表达的形式。 中文和英文主要的不同之处是中文需要分词。因为nltk 的处理粒度一般是词,所以必须要先对文本进行分词然后再用nltk 来处理(不需要用nltk 来做分词,直接用分词包就可以了。
序列标注(Sequence labeling)是我们在解决NLP问题时经常遇到的基本问题之一。在序列标注中,我们想对一个序列的每一个元素标注一个标签。一般来说,一个序列指的是一个句子,而一个元素指的是句子中的一个词。比如信息提取问题可以认为是一个序列标注问题,如提取出会议时间、地点等。
本文简要介绍了自然语言处理中极其重要的句法分析,并侧重对依存句法分析进行了重点总结,包括定义、重要概念、基本方法、性能评价、依存分析数据集,最后,分享了一些流行的工具以及工具实战例子。
语法分析(syntactic parsing )是自然语言处理中一个重要的任务,其目标是分析句子的语法结构并将其表示为容易理解的结构(通常是树形结构)。同时,语法分析也是所有工具性NLP任务中较为高级、较为复杂的一种任务。 通过掌握语法分析的原理、实现和应用,我们将在NLP工程师之路上跨越一道分水岭。 本章将会介绍短语结构树和依存句法树两种语法形式,并且着重介绍依存句法分析的原理和实现。
选自Analyticsvidhya 作者:Shivam Bansal 机器之心编译 参与:黄小天、李亚洲、Smith 近日,analyticsvidhya 上出现了一篇题为《30 Questions to test a data scientist on Natural Language Processing [Solution: Skilltest – NLP]》的文章,通过 30 道题的测试,帮助数据科学家了解其对自然语言处理的掌握水平。同时文章还附上了截至目前的分数排行榜,最高得分为 24(超过 25
NLTK、SpaCy与Hugging Face库作为Python自然语言处理(NLP)领域的三大主流工具,其理解和应用能力是面试官评价候选者NLP技术实力的重要标准。本篇博客将深入浅出地探讨Python NLP面试中与NLTK、SpaCy、Hugging Face库相关的常见问题、易错点,以及如何避免这些问题,同时附上代码示例以供参考。
原文链接:https://github.com/fighting41love/funNLP
本系列为斯坦福CS224n《自然语言处理与深度学习(Natural Language Processing with Deep Learning)》的全套学习笔记,对应的课程视频可以在 这里 查看。
作者:nlp初学者小吴 (清华大学) 已获授权 链接:https://zhuanlan.zhihu.com/p/565282216 编辑:深度学习自然语言处理 公众号 句法(Syntactic)分析是NLP的经典任务 Syntactic tasks: Word level Word level的句法分析任务有:形态分析、分词、序列标注 形态分析:Morphological analysis,指将一个词的词根(stem)和词缀(prefix & suffix)提取出来的任务 分词:Word segmentat
在前面我们介绍了Stanford CoreNLP, 自然语言处理之命名实体识别-tanfordcorenlp-NER(一)
授人以鱼不如授人以渔,今天的文章由作者Adam Geitgey授权在人工智能头条翻译发布。不仅给出了具体代码,还一步步详细解析了实现原理和思路。正所谓有了思路,无论是做英语、汉语的语言处理,才算的上有了指导意义。
spaCy 是一个是具有工业级强度的Python NLP工具包,完成了NLP领域的很多任务比如词性标注,命名实体识别,依存句法分析,归一化,停用词等等,支持Unix/Linux,macOS/os X和Windows操作系统,可以通过pip,conda方式安装。
自然语言处理是数据科学中的一大难题。在这篇文章中,我们会介绍一个工业级的python库。 自然语言处理(NLP)是数据科学中最有趣的子领域之一,越来越多的数据科学家希望能够开发出涉及非结构化文本数据的解决方案。尽管如此,许多应用数据科学家(均具有STEM和社会科学背景)依然缺乏NLP(自然语言处理)经验。 在这篇文章中,我将探讨一些基本的NLP概念,并展示如何使用日益流行的Python spaCy包来实现这些概念。这篇文章适合NLP初学者阅读,但前提是假设读者具备Python的知识。 你是在说spaCy
fastHan 是基于 fastNLP 与 PyTorch 实现的中文自然语言处理工具,像 spacy 一样调用方便。其内核为基于 BERT 的联合模型,其在 13 个语料库中进行训练,可处理中文分词、词性标注、依存句法分析、命名实体识别四项任务。
《复仇者联盟4:终极游戏》已经上映不短的时间,我,和世界上大多数人一样,在第一时间冲到电影院去看,体验《复仇4》是如何拯救世界并且结束第一个十年的故事的。为了平息我的紧张情绪,缓解等待,我想重温上一部电影《复联3:无限战争》,当然,由于我是一个搞技术的,我的回顾旅行将用到的是自然语言处理,简称NLP。
《复仇者联盟4:终局之战》仍在热映中。在看到大结局的同时,本文将带你通过数据科普的眼光来回顾《复仇者联盟3:无限战争》:看看这群世界上最强的超级英雄们最爱说的词汇是哪些?
“他山之石,可以攻玉”,站在巨人的肩膀才能看得更高,走得更远。在科研的道路上,更需借助东风才能更快前行。为此,我们特别搜集整理了一些实用的代码链接,数据集,软件,编程技巧等,开辟“他山之石”专栏,助你乘风破浪,一路奋勇向前,敬请关注。
Stanford CoreNLP是使用Java开发的进行自然语言处理的工具。支持多种语言接口,Stanfordcorenlp是它的一个python接口。
我们将介绍KB-QA传统方法之一的信息抽取(Information Extraction),我们以一个该方法的经典代表作为例,为大家进一步揭开知识库问答的面纱。该方法来自约翰·霍普金斯大学Yao X, Van Durme B.的 Information Extraction over Structured Data: Question Answering with Freebase(文章发表于2014年的ACL会议)
本文根据自己的学习过程以及查阅相关资料的理解,对自然语言基础技术之词性标注进行了相对全面的简绍,包括定义、目前的难点以及常见方法,还推荐了一大波 Python 实战利器,并且包括工具的用法。
在昨天的文章中,为了我的命题用spaCy自然语言处理复盘复联3中我们分析了电影中排名前十的动词、名词、副词和形容词以及由特定角色说出的动词和名词。今天我们继续聊聊排名前30的实体。
组合范畴语法(CCG; Steedman, 2000)是一种高度词汇化的形式主义。Clark 和 Curran 2007 年提出的标准解析模型使用了超过 400 个词汇语类(或超级标记(supertag)),典型的解析器通常只包含大约 50 个词性标注。
句法分析(Syntactic Parsing)是自然语言处理(NLP)中一个关键且不可或缺的任务。如果我们把自然语言看作一个庞大的建筑,那么句法分析就好比这座建筑的蓝图。正是因为有了这份蓝图,人们才能理解语言的结构,从而更准确地进行语义分析、情感分析或者机器翻译等高级任务。
本文简要介绍了如何使用spaCy和Python中的相关库进行自然语言处理(有时称为“文本分析”)。以及一些目前最新的相关应用。
GAIR 今年夏天,雷锋网将在深圳举办一场盛况空前的“全球人工智能与机器人创新大会”(简称GAIR)。大会现场,雷锋网将发布“人工智能&机器人Top25创新企业榜”榜单。目前,我们正在四处拜访人工智能、机器人领域的相关公司,从而筛选最终入选榜单的公司名单。如果你的公司也想加入我们的榜单之中,请联系:2020@leiphone.com 上周,谷歌发布了Parsey McParseface(对于一个挑战人工智能领域最难问题的尖端技术,这也真是迷之命名)。虽然过去的五年,计算机完成了许多了不起的壮举——从赢得“
本文根据自己的学习过程以及查阅相关资料的理解,对自然语言基础技术之词性标注进行了相对全面的简绍,包括定义、目前的难点以及常见方法,还推荐了一大波python实战利器,并且包括工具的用法。
领取专属 10元无门槛券
手把手带您无忧上云