首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

好文推荐 | 自然语言处理简介

什么是自然语言处理 简单地说,自然语言处理(Natural Language Processing,简称NLP)就是用计算机来处理、理解以及运用人类语言(如中文、英文等),它属于人工智能的一个分支,是计算机科学与语言学的交叉学科...中文自动分词处于中文自然语言处理的底层,是公认的中文信息处理的第一道工序,扮演着重要的角色,主要存在新词发现和歧义切分等问题。...这样的一个“鸡生蛋、蛋生鸡”的问题自然成了(中文自然语言处理的第一条拦路虎。 其他级别的语言单位也存在着各种歧义问题。...在其中的第句话中的“他”是指代“小明”还是“小亮”呢?要正确理解这句话,我们就要理解上句话“小明欺负小亮”意味着“小明”做得不对,因此第句中的“他”应当指代的是“小明”。...自然语言处理的计算模型. 中文信息学报, 2007, 21(3):3-7. 冯志伟. 《统计自然语言处理》序言. 1版. 北京: 清华大学出版社, 2008. 孙茂松.

1.1K20
您找到你想要的搜索结果了吗?
是的
没有找到

中文NLP福利!大规模中文自然语言处理语料

---- 新智元推荐 来源:AINLP 作者:徐亮 【新智元导读】本文介绍一个中文自然语言处理语料库项目:nlp_chinese_corpus ,初步贡献了几个已经预处理好的中文语料,包括维基、...作者徐亮(实在智能算法专家) 创建了一个中文自然语言处理语料库项目:nlp_chinese_corpus ,初步贡献了几个已经预处理好的中文语料,包括维基、新闻和百科语料。...希望大家一起为该项目贡献语料,感兴趣的同学可以直接关注该项目github地址,和作者直接联系,点击文末"阅读原文"直达github链接,可下载相关语料: 大规模中文自然语言处理语料 Large Scale...Chinese Corpus for NLP https://github.com/brightmart/nlp_chinese_corpus 为中文自然语言处理领域发展贡献语料 贡献中文语料,请联系...贡献语料/Contribution 贡献中文语料,请发送邮件至nlp_chinese_corpus@163.com 为了共同建立一个大规模开放共享的中文语料库,以促进中文自然语言处理领域的发展,凡提供语料并被采纳到该项目中

6.9K30

中文NLP用什么?中文自然语言处理的完整机器处理流程

虽然同为人类自然语言,但是由于英文和中文其语言自身的特点,导致中文和英文分词是有差别的。 很多读者在后台留言,提到了结巴分词,并要求我们出一些关于中文自然语言处理的内容。...,目前致力于中文自然语言处理的研究。...为什么会有分词 我们知道自然语言处理中词为最小的处理单元,当你的语料为句子、短文本、篇章时,我们要做的第一步就是分词。 由于英语的基本组成单位就是词,分词是比较容易的。...语料预处理 这里重点介绍一下语料的预处理,在一个完整的中文自然语言处理工程应用中,语料预处理大概会占到整个50%-70%的工作量,所以开发人员大部分时间就在进行语料预处理。...这样做可以让文本在后面的处理中融入更多有用的语言信息。 词性标注是一个经典的序列标注问题,不过对于有些中文自然语言处理来说,词性标注不是非必需的。

8.4K50

hanlp中文自然语言处理分词方法说明

image.png hanlp中文自然语言处理分词方法说明 自然语言处理在大数据以及近年来大火的人工智能方面都有着非同寻常的意义。那么,什么是自然语言处理呢?...中文自然语言处理当然就是将我们的中文翻译成机器可以识别读懂的指令。中文的博大精深相信每一个人都是非常清楚,也正是这种博大精深的特性,在将中文翻译成机器指令时难度还是相当大的!...至少在很长一段时间里中文自然语言处理都面临这样的问题。 Hanlp中文自然语言处理相信很多从事程序开发的朋友都应该知道或者是比较熟悉的。...Hanlp中文自然语言处理是大快搜索在主持开发的,是大快DKhadoop大数据一体化开发框架中的重要组成部分。下面就hanlp中文自然语言处理分词方法做简单介绍。...Hanlp中文自然语言处理中的分词方法有标准分词、NLP分词、索引分词、N-最短路径分词、CRF分词以及极速词典分词等。下面就这几种分词方法进行说明。

2K20

干货 | 自然语言处理入门资料推荐

下面是与NLP相关的一些书籍推荐、课件推荐和开源工具推荐。 主要是记录下入门的资料,由于资料的存储位置没有做规整,所以本文没有附带资源下载链接。...部分开源工具和语料资源 1、NLTK官方提供的语料库资源列表 2、OpenNLP上的开源自然语言处理工具列表 3、斯坦福大学自然语言处理组维护的“统计自然语言处理及基于语料库的计算语言学资源列表”...4、LDC上免费的中文信息处理资源 课件 1、哈工大刘挺老师的“统计自然语言处理”课件; 2、哈工大刘秉权老师的“自然语言处理”课件; 3、中科院计算所刘群老师的“计算语言学讲义“课件; 4、中科院自动化所宗成庆老师的...“自然语言理解”课件; 5、北大常宝宝老师的“计算语言学”课件; 6、北大詹卫东老师的“中文信息处理基础”的课件及相关代码; 7、MIT大牛Michael Collins的“Machine Learning...书籍 1、《自然语言处理综论》英文版第版 2、《统计自然语言处理基础》英文版 3、《用Python进行自然语言处理》,NLTK配套书 4、《Learning Python第三版》,Python入门经典书籍

1.9K50

资料 | 统计自然语言处理基础(中文版)

统计自然语言处理基础(中文版) 近年来,自然语言处理中的统计学方法已经逐渐成为主流。本书是一本全面系统地介绍统计自然语言处理技术的专著,被国内外许多所著名大学选为计算语言学相关课程的教材。...本书涵盖的内容十分广泛,分为四个部分,共16章,包括了构建自然语言处理软件工具将用到的几乎所以理论和算法。...同时,本书将理论与实践紧密联系在一起,在介绍理论知识的基础上给出了自然语言处理技术的高层应用(如信息检索等)。在本书的配套网站上提供了许多相关资源和工具,便于读者结合书中习题,在实践中获得提高。...本书不仅适合作为自然语言处理方向的研究生的教材,也非常适合作为自然语言处理相关领域的研究人员和技术人员的参考资料。 ❖ 扫 码 即 可 查 看 收 藏 ❖ ?

1.5K20

自然语言处理中文语义分析模式介绍

随着计算机的使用范围更加广泛,社会信息化程度提高,计算机的使用频率增加,人们对自然语言理解也提出了更高的要求,而对于自然语言的理解,则基于中文语义分析的研究和分析。...自然语言中,语义是指篇章中所有句意的综合,句子的语义又由其组成单位词来确定。所以对中文语义的分析,其最后的落脚点是分析最小的基本单位-词,进而达到分析效果。...在对中文语义分析时也会面临技术难点。单词切分中,中文的多样性给中文分词带来了一定难度,对中文的分词往往要建立在语义理解的基础上。...同时,中文现在并没有一个公认的用于计算机处理的语法规则,这也就给中文分析带来了困难。现中文分词基于统计和词典的分词方法上,要统筹好分词精度和分词速度的关系。...现NLPIR大数据语义分析系统能够全方位多角度完成对大数据文本的处理需求,包括大数据完整的技术链条:网络抓取、正文提取、中英文分词、词性标注、实体抽取、词频统计、关键词提取、语义信息抽取、文本分类、情感分析

3.3K30

基于自然语言处理(语义情感)的香水推荐

自然语言处理(NLP)在推荐系统和信息检索中有许多有趣的应用。作为一名香水爱好者和数据科学家,利基香水社区使用的不寻常且高度描述性的语言启发我使用NLP创建一个模型,帮助我发现我可能想购买的香水。...我想让这个模型做两件事: 1、我想描述一款香水,并根据我的描述得到相关的推荐。由于所使用的建模方法,以及香水的语言非常丰富,这个模型可以推荐与描述情绪、感觉、性格或度假等事件相匹配的香水。...属于我自己的海滩香水——汤姆·福特的淡太阳香水,出现在第名!我可以证明,这种香水闻起来确实像在热带度假的海滩上的一天! ? “我在找一种香水,想去意大利的一个小岛度假。”...注意,第四种推荐香水有椰子和烟草的味道。如果我讨厌那些描述呢?我更新了查询以包含此信息,并得到了更新后的推荐列表。“我喜欢桃子和梨。醉人的香草味甜甜的味道。我不喜欢烟草,也不喜欢椰子。” ?...第四款香水从推荐中消失了! 模型 ? 该模型的第一步是从聊天机器人消息中识别每个句子的情感。

1.1K10

自然语言处理) | Python对文本的简单处理

今天将接续上一篇《自然语言处理》, 为大家继续介绍一些用Python处理文本的方法。 NLP主要是对文本的处理。...在更深的应用中,我们可以根据我们的需要,去处理我们想要处理的文本(比如上次提到的“购物网站中的买家评论”)。...而在开始的时候,我们一般使用NLTK中提供的语料进行练习;NLTK不仅提供文本处理的工具,而且提供了一些文本材料。...操作如下: “concordance”是text类(可参考Python中“类”的概念)的一个方法(或函数;这里不对者作区分),在后面的括号中以字符串的形式输入我们想要查找的词语,就可以得到其上下文。...任务: 执行第一行代码得到的结果是在text2这个文本——《理智与情感》(Sense and Sensibility)——中,与“monstrous”这个词有着相似用法的词;在第行代码中,我们使用了

77220

Awesome-Chinese-NLP:中文自然语言处理相关资料

推荐Github上一个很棒的中文自然语言处理相关资料的Awesome资源:Awesome-Chinese-NLP ,Github链接地址,点击文末"阅读原文"可直达: https://github.com...DuReader中文阅读理解数据 中文语料小数据 包含了中文命名实体识别、中文关系识别、中文阅读理解等一些小量数据 大规模中文自然语言处理语料 维基百科(wiki2019zh),新闻语料(news2016zh...ChineseNlpCorpus 情感/观点/评论 倾向性分析,中文命名实体识别,推荐系统 Organizations 中文NLP学术组织及竞赛 清华大学自然语言处理与人文计算实验室 北京大学计算语言学教育部重点实验室...中科院计算所自然语言处理研究组 哈工大智能技术与自然语言处理实验室 复旦大学自然语言处理组 苏州大学自然语言处理组 南京大学自然语言处理研究组 东北大学自然语言处理实验室 厦门大学智能科学与技术系自然语言处理实验室...Martin 52nlp 我爱自然语言处理 hankcs 码农场 文本处理实践课资料 文本处理实践课资料,包含文本特征提取(TF-IDF),文本分类,文本聚类,word2vec训练词向量及同义词词林中文词语相似度计算

5.6K12

HanLP《自然语言处理入门》笔记--3.元语法与中文分词

元语法与中文分词 3.1 语言模型 3.2 中文分词语料库 3.3 训练与预测 3.4 HanLP分词与用户词典的集成 3.5 元语法与词典分词比较 3.6 GitHub项目 笔记转载于...我们人类确知道第种更加合理,只因为我们从小到大接触的都是第种分词,出现的次数多,所以我们判定第种是正确地选择。这就是利用了统计自然语言处理。...统计自然语言处理的核心话题之一,就是如何利用统计手法对语言建模,这一章讲的就是元语法的统计语言模型。...3.6 GitHub项目 HanLP何晗–《自然语言处理入门》笔记: https://github.com/NLP-LOVE/Introduction-NLP 项目持续更新中...6 章:条件随机场与序列标注 第 7 章:词性标注 第 8 章:命名实体识别 第 9 章:信息抽取 第 10 章:文本聚类 第 11 章:文本分类 第 12 章:依存句法分析 第 13 章:深度学习与自然语言处理

1.3K20
领券