首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

好文推荐 | 自然语言处理简介

什么是自然语言处理 简单地说,自然语言处理(Natural Language Processing,简称NLP)就是用计算机来处理、理解以及运用人类语言(如中文、英文等),它属于人工智能的个分支,是计算机科学与语言学的交叉学科...特别是中文文本通常由连续的字序列组成,词与词之间缺少天然的分隔符,因此中文信息处理比英文等西方语言多步工序,即确定词的边界,我们称为“中文自动分词”任务。...中文自动分词处于中文自然语言处理的底层,是公认的中文信息处理的第道工序,扮演着重要的角色,主要存在新词发现和歧义切分等问题。...我们注意到:正确的单词切分取决于对文本语义的正确理解,而单词切分又是理解语言的最初的道工序。这样的个“鸡生蛋、蛋生鸡”的问题自然成了(中文自然语言处理的第条拦路虎。...Related Posts 好文推荐 | 走近NLP学术界我觉得所有刚了解或者想进入NLP领域的学生以及学者,都应该先看下刘知远老师的这篇文章,可以让你在接…

1.1K20

中文NLP福利!大规模中文自然语言处理语料

---- 新智元推荐 来源:AINLP 作者:徐亮 【新智元导读】本文介绍中文自然语言处理语料库项目:nlp_chinese_corpus ,初步贡献了几个已经预处理好的中文语料,包括维基、...作者徐亮(实在智能算法专家) 创建了中文自然语言处理语料库项目:nlp_chinese_corpus ,初步贡献了几个已经预处理好的中文语料,包括维基、新闻和百科语料。...希望大家起为该项目贡献语料,感兴趣的同学可以直接关注该项目github地址,和作者直接联系,点击文末"阅读原文"直达github链接,可下载相关语料: 大规模中文自然语言处理语料 Large Scale...Chinese Corpus for NLP https://github.com/brightmart/nlp_chinese_corpus 为中文自然语言处理领域发展贡献语料 贡献中文语料,请联系...贡献语料/Contribution 贡献中文语料,请发送邮件至nlp_chinese_corpus@163.com 为了共同建立个大规模开放共享的中文语料库,以促进中文自然语言处理领域的发展,凡提供语料并被采纳到该项目中

6.9K30
您找到你想要的搜索结果了吗?
是的
没有找到

中文NLP笔记:中文自然语言处理般流程

图片发自简书App 今天开始起学习中文自然语言处理 ---- 中文NLP般流程 1....获取语料   语料,是NLP任务所研究的内容   通常用个文本集合作为语料库(Corpus)   来源:   已有语料     积累的文档   下载语料     搜狗语料、人民日报语料...语料预处理   1.语料清洗   留下有用的,删掉噪音数据   常见的数据清洗方式     人工去重、对齐、删除和标注等,或者规则提取内容、正则表达式匹配、根据词性和命名实体提取、编写脚本或者代码批处理等...特征工程   把分词表示成计算机能够计算的类型,般为向量   常用的表示模型   词袋模型(Bag of Word, BOW)     TF-IDF   词向量     One-hot...模型上线应用   第就是线下训练模型,然后将模型做线上部署   第二种就是在线训练,在线训练完成之后把模型 pickle 持久化 ---- 学习资料: 《中文自然语言处理入门实战》

4.1K30

中文NLP用什么?中文自然语言处理的完整机器处理流程

虽然同为人类自然语言,但是由于英文和中文其语言自身的特点,导致中文和英文分词是有差别的。 很多读者在后台留言,提到了结巴分词,并要求我们出些关于中文自然语言处理的内容。...,目前致力于中文自然语言处理的研究。...为什么会有分词 我们知道自然语言处理中词为最小的处理单元,当你的语料为句子、短文本、篇章时,我们要做的第步就是分词。 由于英语的基本组成单位就是词,分词是比较容易的。...语料预处理 这里重点介绍下语料的预处理,在个完整的中文自然语言处理工程应用中,语料预处理大概会占到整个50%-70%的工作量,所以开发人员大部分时间就在进行语料预处理。...这样做可以让文本在后面的处理中融入更多有用的语言信息。 词性标注是个经典的序列标注问题,不过对于有些中文自然语言处理来说,词性标注不是非必需的。

8.4K50

hanlp中文自然语言处理分词方法说明

image.png hanlp中文自然语言处理分词方法说明 自然语言处理在大数据以及近年来大火的人工智能方面都有着非同寻常的意义。那么,什么是自然语言处理呢?...换个通俗的说法,自然语言处理就是把我们人类的语言通过些方式或者技术翻译成机器可以读懂的语言。 人类的语言太多,计算机技术起源于外国,所以直以来自然语言处理基本都是围绕英语的。...中文自然语言处理当然就是将我们的中文翻译成机器可以识别读懂的指令。中文的博大精深相信每个人都是非常清楚,也正是这种博大精深的特性,在将中文翻译成机器指令时难度还是相当大的!...至少在很长段时间里中文自然语言处理都面临这样的问题。 Hanlp中文自然语言处理相信很多从事程序开发的朋友都应该知道或者是比较熟悉的。...Hanlp中文自然语言处理是大快搜索在主持开发的,是大快DKhadoop大数据体化开发框架中的重要组成部分。下面就hanlp中文自然语言处理分词方法做简单介绍。

2K20

干货 | 自然语言处理入门资料推荐

关键字全网搜索最新排名 【机器学习算法】:排名第 【机器学习】:排名第 【Python】:排名第三 【算法】:排名第四 源 | AI深入浅出 最近几个月小编遨游在税务行业的智能问答调研和开发中,里面涉及到了很多的自然语言处理...下面是与NLP相关的些书籍推荐、课件推荐和开源工具推荐。 主要是记录下入门的资料,由于资料的存储位置没有做规整,所以本文没有附带资源下载链接。...4、LDC上免费的中文信息处理资源 课件 1、哈工大刘挺老师的“统计自然语言处理”课件; 2、哈工大刘秉权老师的“自然语言处理”课件; 3、中科院计算所刘群老师的“计算语言学讲义“课件; 4、中科院自动化所宗成庆老师的...“自然语言理解”课件; 5、北大常宝宝老师的“计算语言学”课件; 6、北大詹卫东老师的“中文信息处理基础”的课件及相关代码; 7、MIT大牛Michael Collins的“Machine Learning...  第二卷  DjVuLibre阅读器(阅读前两卷书需要) 11、本利用Perl和Prolog进行自然语言处理的介绍书籍:《An Introduction to Language Processing

1.9K50

资料 | 统计自然语言处理基础(中文版)

统计自然语言处理基础(中文版) 近年来,自然语言处理中的统计学方法已经逐渐成为主流。本书是本全面系统地介绍统计自然语言处理技术的专著,被国内外许多所著名大学选为计算语言学相关课程的教材。...本书涵盖的内容十分广泛,分为四个部分,共16章,包括了构建自然语言处理软件工具将用到的几乎所以理论和算法。...同时,本书将理论与实践紧密联系在起,在介绍理论知识的基础上给出了自然语言处理技术的高层应用(如信息检索等)。在本书的配套网站上提供了许多相关资源和工具,便于读者结合书中习题,在实践中获得提高。...本书不仅适合作为自然语言处理方向的研究生的教材,也非常适合作为自然语言处理相关领域的研究人员和技术人员的参考资料。 ❖ 扫 码 即 可 查 看 收 藏 ❖ ?

1.5K20

自然语言处理中文语义分析模式介绍

随着计算机的使用范围更加广泛,社会信息化程度提高,计算机的使用频率增加,人们对自然语言理解也提出了更高的要求,而对于自然语言的理解,则基于中文语义分析的研究和分析。...自然语言中,语义是指篇章中所有句意的综合,句子的语义又由其组成单位词来确定。所以对中文语义的分析,其最后的落脚点是分析最小的基本单位-词,进而达到分析效果。...在对中文语义分析时也会面临技术难点。单词切分中,中文的多样性给中文分词带来了定难度,对中文的分词往往要建立在语义理解的基础上。...同时,中文现在并没有个公认的用于计算机处理的语法规则,这也就给中文分析带来了困难。现中文分词基于统计和词典的分词方法上,要统筹好分词精度和分词速度的关系。...现NLPIR大数据语义分析系统能够全方位多角度完成对大数据文本的处理需求,包括大数据完整的技术链条:网络抓取、正文提取、中英文分词、词性标注、实体抽取、词频统计、关键词提取、语义信息抽取、文本分类、情感分析

3.3K30

基于自然语言处理(语义情感)的香水推荐

自然语言处理(NLP)在推荐系统和信息检索中有许多有趣的应用。作为名香水爱好者和数据科学家,利基香水社区使用的不寻常且高度描述性的语言启发我使用NLP创建个模型,帮助我发现我可能想购买的香水。...我希望能够描述我不喜欢什么以及我喜欢什么,并且仍然能够收到相关的推荐。 数据 ? 我写了个python脚本,从个流行的沙龙香水网站上抓取数据。他们似乎并不介意。...最相关的五款香水将作为推荐返回。 下面是个与聊天机器人交互的例子。个简单的圣诞香水查询就会返回5种适合该季节的香水。第瓶香水的主题是没药(芳香液状树脂,用于制香水等)。 ?...考虑下聊天机器人的信息。“我喜欢桃子和梨。醉醺醺的香草味甜甜的味道。” ? 注意,第四种推荐香水有椰子和烟草的味道。如果我讨厌那些描述呢?我更新了查询以包含此信息,并得到了更新后的推荐列表。...第四款香水从推荐中消失了! 模型 ? 该模型的第步是从聊天机器人消息中识别每个句子的情感。

1.1K10

自然语言处理):RNN

「循环神经网络」(Recurrent Neural Network,RNN)是个非常经典的面向序列的模型,可以对自然语言句子或是其他时序信号进行建模。...使用公式表示 示例 下面我们举个例子来讨论下,如图所示,假设我们现在有这样句话:”我爱人工智能”,经过分词之后变成”我,爱,人工,智能”这4个单词,RNN会根据这4个单词的时序关系进行处理,在第1个时刻处理单词...”我”,第2个时刻处理单词”爱”,依次类推。...例如在第2个时刻,它的输入是”爱”和 ℎ_1 ,它的输出是 h_2 ;在第3个时刻,它的输入是”人工”和 h_2 , 输出是 h_3 ,依次类推,直到处理完最后个单词。...总结下,RNN会从左到右逐词阅读这个句子,并不断调用个相同的RNN Cell来处理时序信息,每阅读个单词,RNN首先将本时刻 t 的单词 X_t 和这个模型内部记忆的「状态向量」 h_{t-1}

30030

自然语言处理NLP(

本文链接:https://blog.csdn.net/github_39655029/article/details/82896028 NLP 自然语言:指种随着社会发展而自然演化的语言,即人们日常交流所使用的语言...; 自然语言处理:通过技术手段,使用计算机对自然语言进行各种操作的个学科; NLP研究的内容 词意消歧; 指代理解; 自动生成语言; 机器翻译; 人机对话系统; 文本含义识别; NLP...处理 语料读入 网络 本地 分词 ?...分割 断句 分词 规范化输出 中文分词及相应算法 基于字典、词库匹配; 正向最大匹配; 逆向最大匹配; 双向最大匹配; 设立切分表执法; 最佳匹配; 基于词频度统计; N-gram模型; 隐马尔科夫模型...; 基于字标注的中文分词方法; 基于知识理解; 分词方法比较 ?

1.2K30

自然语言处理】统计中文分词技术():1、分词与频度统计

二、分词的原因与基本原因 1、为什么要分词 汉语的机器自动分词是汉语信息处理系统的重要组成部分 正确的机器自动分词是正确的中文信息处理的基础 文本检索 和服 | 务 | 于三日后裁制完毕,...歧义切分字段在汉语书面文本中所占的比例并不很大,在实际的书面文本中,特别是在新闻类文本中,未登录词的处理是书面文本自动切分的个十分突出的问题。这是汉语书面语自动切分的另个难点。...如何识别未登录词 汉语自然语言处理的经典难题之 人们探索了多种方法,如互信息、期望方差法、语言模型法等等 基于最大熵、马尔科夫模型等统计分类模型是比较常用的方法 三、分词的般方法   中文词汇切分技术大体上可以分为...O(n),实现简单,效果尚可; 但对歧义和未登录词处理效果不佳 基本就是不处理~ 1....随着大规模语料库的建立,统计机器学习方法的研究和发展,基于统计的中文分词方法渐渐成为了主流方法。

11810

Awesome-Chinese-NLP:中文自然语言处理相关资料

推荐Github上个很棒的中文自然语言处理相关资料的Awesome资源:Awesome-Chinese-NLP ,Github链接地址,点击文末"阅读原文"可直达: https://github.com...DuReader中文阅读理解数据 中文语料小数据 包含了中文命名实体识别、中文关系识别、中文阅读理解等些小量数据 大规模中文自然语言处理语料 维基百科(wiki2019zh),新闻语料(news2016zh...ChineseNlpCorpus 情感/观点/评论 倾向性分析,中文命名实体识别,推荐系统 Organizations 中文NLP学术组织及竞赛 清华大学自然语言处理与人文计算实验室 北京大学计算语言学教育部重点实验室...中科院计算所自然语言处理研究组 哈工大智能技术与自然语言处理实验室 复旦大学自然语言处理组 苏州大学自然语言处理组 南京大学自然语言处理研究组 东北大学自然语言处理实验室 厦门大学智能科学与技术系自然语言处理实验室...云孚科技 NLP工具包、知识图谱、文本挖掘、对话系统、舆情分析等 智言科技 专注于深度学习和知识图谱技术突破的人工智能公司 追科技 主攻深度学习和自然语言处理 Learning Materials

5.6K12

自然语言处理()NLP概述

NLP概述 NLP是利用计算机为工具,对人类特有的书面形式和口头形式的自然语言的信息进行各种类型处理和加工的技术. NLP内容结构 ?...词法分析是很多中文信息处理任务的必要步骤. 自动分词 命名实体识别 词性标注 句法分析 句法分析是对句子和短语结构进行分析,如句子的形式结构:主语、谓语、宾语等....句法分析是语言学理论和实际的自然语言应用的个重要桥梁. 个实用的、完备的、准确的句法分析将是计算机真正理解自然语言的基础....短语结构分析(宾州树库) 依存分析 语义分析 解释自然语言句子或篇章各部分(词、词组、句子、段落、篇章)的意义. 目前语义计算的理论、方法、模型尚不成熟....Question-Answering system) 阅读理解(Machine Reading) 文档分类(Document categorization) 情感分类(Sentimental classification) 信息推荐与过滤

1.1K10

自然语言处理技术(NLP)在推荐系统中的应用

推荐系统中经常需要处理各种文本类数据,例如商品描述、新闻资讯、用户留言等等。具体来讲,我们需要使用文本数据完成以下任务: 候选商品召回。候选商品召回是推荐流程的第步,用来生成待推荐的物品集合。...歧义理解是自然语言处理中的重要研究课题,同时歧义也影响着我们在推荐系统中对文本数据的使用。...综上所述,文本数据是类量大、复杂、丰富的数据,对推荐系统起着重要的作用,本文将针对上面提到的几个方面,对推荐系统中常见的文本处理方法进行介绍。...总结和展望 我们从简单的文本关键词出发,沿着结构化、降维、聚类、概率、时序的思路,结合推荐系统中候选集召回、相关性计算、排序模型特征等具体应用,介绍了推荐系统中些常用的自然语言处理技术和具体应用方法。...自然语言处理技术借着深度学习的东风,近年来取得了长足的进步,而其与推荐系统的紧密关系,也意味着推荐系统在这方面仍然有着巨大的提升空间,让我们拭目以待。

3.6K100

自然语言处理实战课程》---- 第课:自然语言处理简介

本文章为为《自然语言处理实战课程》---- 第课:自然语言处理简介 讲稿 ---- 大家好,今天开始和大家分享,我在自然语言处理(Natural Language Processing,NLP...本小节课程主要内容分为2大部分: 第部分,自然语言处理简介,用认知思维的方法,结合发展历程总揽自然语言处理. 同时顺带介绍,本课程的主要内容,本课程的主要内容我们分成两个阶段 。...LTP制定了基于XML的语言处理结果表示,并在此基础上提供了整套自底向上的丰富而且高效的中文语言处理模块(包括词法、句法、语义等6项中文处理核心技术),以及基于动态链接库(Dynamic Link Library...“语言云” 以哈工大社会计算与信息检索研究中心研发的 “语言技术平台(LTP)” 为基础,为用户提供高效精准的中文自然语言处理云服务。...自然语言处理API可帮助用户搭建内容搜索、内容推荐、舆情识别及分析、文本结构化、对话机器人等智能产品, 也能够通过合作,定制个性化的解决方案。

2.2K40

自然语言处理(NLP)」良心推荐文了解注意力机制(Attention)

其实注意力模型最近几年在深度学习各个领域被广泛使用,无论是在图像处理、语音识别还是自然语言处理中,都很容易遇到注意力模型的身影。它其实是深度学习技术中最值得关注与深入了解的核心技术之。...这其实是人类利用有限的注意力资源从大量信息中快速筛选出高价值信息的手段,是人类在长期进化中形成的种生存机制。人类视觉注意力机制极大地提高了视觉信息处理的效率与准确性。 ?...Encoder-Decoder框架可以看作是种深度学习领域的研究模式,应用场景异常广泛。下图是是文本处理领域里常用的Encoder-Decoder框架最抽象的种表示。 ?...主要两大局限性 、最大的局限性就在于编码器和解码器之间的唯联系就是个固定长度的语义向量C。也就是说,编码器要将整个序列的信息压缩进个固定长度的向量中。...而是,编码器需要将输入编码成个向量的序列,在解码的时候,每步都会选择性的从向量序列中挑选个子集进行进处理。这样,在产生每个输出的时候,都能够做到充分利用输入序列携带的信息。

2.3K30
领券