首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

好文推荐 | 自然语言处理简介

什么是自然语言处理 简单地说,自然语言处理(Natural Language Processing,简称NLP)就是用计算机来处理、理解以及运用人类语言(如中文、英文等),它属于人工智能的一个分支,是计算机科学与语言学的交叉学科...在书面语中,中文等语言也没有词与词之间的边界。由于单词是承载语义的最小单元,要解决自然语言处理,单词的边界界定问题首当其冲。...中文自动分词处于中文自然语言处理的底层,是公认的中文信息处理的第一道工序,扮演着重要的角色,主要存在新词发现和歧义切分等问题。...这样的一个“鸡生蛋、蛋生鸡”的问题自然成了(中文自然语言处理的第一条拦路虎。 其他级别的语言单位也存在着各种歧义问题。...自然语言处理的计算模型. 中文信息学报, 2007, 21(3):3-7. 冯志伟. 《统计自然语言处理》序言. 1版. 北京: 清华大学出版社, 2008. 孙茂松.

1.1K20

中文NLP福利!大规模中文自然语言处理语料

---- 新智元推荐 来源:AINLP 作者:徐亮 【新智元导读】本文介绍一个中文自然语言处理语料库项目:nlp_chinese_corpus ,初步贡献了几个已经预处理好的中文语料,包括维基、...作者徐亮(实在智能算法专家) 创建了一个中文自然语言处理语料库项目:nlp_chinese_corpus ,初步贡献了几个已经预处理好的中文语料,包括维基、新闻和百科语料。...希望大家一起为该项目贡献语料,感兴趣的同学可以直接关注该项目github地址,和作者直接联系,点击文末"阅读原文"直达github链接,可下载相关语料: 大规模中文自然语言处理语料 Large Scale...Chinese Corpus for NLP https://github.com/brightmart/nlp_chinese_corpus 为中文自然语言处理领域发展贡献语料 贡献中文语料,请联系...贡献语料/Contribution 贡献中文语料,请发送邮件至nlp_chinese_corpus@163.com 为了共同建立一个大规模开放共享的中文语料库,以促进中文自然语言处理领域的发展,凡提供语料并被采纳到该项目中

6.9K30
您找到你想要的搜索结果了吗?
是的
没有找到

中文NLP用什么?中文自然语言处理的完整机器处理流程

虽然同为人类自然语言,但是由于英文和中文其语言自身的特点,导致中文和英文分词是有差别的。 很多读者在后台留言,提到了结巴分词,并要求我们出一些关于中文自然语言处理的内容。...,目前致力于中文自然语言处理的研究。...为什么会有分词 我们知道自然语言处理中词为最小的处理单元,当你的语料为句子、短文本、篇章时,我们要做的第一步就是分词。 由于英语的基本组成单位就是词,分词是比较容易的。...语料预处理 这里重点介绍一下语料的预处理,在一个完整的中文自然语言处理工程应用中,语料预处理大概会占到整个50%-70%的工作量,所以开发人员大部分时间就在进行语料预处理。...这样做可以让文本在后面的处理中融入更多有用的语言信息。 词性标注是一个经典的序列标注问题,不过对于有些中文自然语言处理来说,词性标注不是非必需的。

8.4K50

hanlp中文自然语言处理分词方法说明

image.png hanlp中文自然语言处理分词方法说明 自然语言处理在大数据以及近年来大火的人工智能方面都有着非同寻常的意义。那么,什么是自然语言处理呢?...中文自然语言处理当然就是将我们的中文翻译成机器可以识别读懂的指令。中文的博大精深相信每一个人都是非常清楚,也正是这种博大精深的特性,在将中文翻译成机器指令时难度还是相当大的!...至少在很长一段时间里中文自然语言处理都面临这样的问题。 Hanlp中文自然语言处理相信很多从事程序开发的朋友都应该知道或者是比较熟悉的。...Hanlp中文自然语言处理是大快搜索在主持开发的,是大快DKhadoop大数据一体化开发框架中的重要组成部分。下面就hanlp中文自然语言处理分词方法做简单介绍。...Hanlp中文自然语言处理中的分词方法有标准分词、NLP分词、索引分词、N-最短路径分词、CRF分词以及极速词典分词等。下面就这几种分词方法进行说明。

2K20

干货 | 自然语言处理入门资料推荐

下面是与NLP相关的一些书籍推荐、课件推荐和开源工具推荐。 主要是记录下入门的资料,由于资料的存储位置没有做规整,所以本文没有附带资源下载链接。...部分开源工具和语料资源 1、NLTK官方提供的语料库资源列表 2、OpenNLP上的开源自然语言处理工具列表 3、斯坦福大学自然语言处理组维护的“统计自然语言处理及基于语料库的计算语言学资源列表”...4、LDC上免费的中文信息处理资源 课件 1、哈工大刘挺老师的“统计自然语言处理”课件; 2、哈工大刘秉权老师的“自然语言处理”课件; 3、中科院计算所刘群老师的“计算语言学讲义“课件; 4、中科院自动化所宗成庆老师的...“自然语言理解”课件; 5、北大常宝宝老师的“计算语言学”课件; 6、北大詹卫东老师的“中文信息处理基础”的课件及相关代码; 7、MIT大牛Michael Collins的“Machine Learning...书籍 1、《自然语言处理综论》英文版第二版 2、《统计自然语言处理基础》英文版 3、《用Python进行自然语言处理》,NLTK配套书 4、《Learning Python第三版》,Python入门经典书籍

1.9K50

资料 | 统计自然语言处理基础(中文版)

统计自然语言处理基础(中文版) 近年来,自然语言处理中的统计学方法已经逐渐成为主流。本书是一本全面系统地介绍统计自然语言处理技术的专著,被国内外许多所著名大学选为计算语言学相关课程的教材。...本书涵盖的内容十分广泛,分为四个部分,共16章,包括了构建自然语言处理软件工具将用到的几乎所以理论和算法。...同时,本书将理论与实践紧密联系在一起,在介绍理论知识的基础上给出了自然语言处理技术的高层应用(如信息检索等)。在本书的配套网站上提供了许多相关资源和工具,便于读者结合书中习题,在实践中获得提高。...本书不仅适合作为自然语言处理方向的研究生的教材,也非常适合作为自然语言处理相关领域的研究人员和技术人员的参考资料。 ❖ 扫 码 即 可 查 看 收 藏 ❖ ?

1.5K20

自然语言处理中文语义分析模式介绍

随着计算机的使用范围更加广泛,社会信息化程度提高,计算机的使用频率增加,人们对自然语言理解也提出了更高的要求,而对于自然语言的理解,则基于中文语义分析的研究和分析。...自然语言中,语义是指篇章中所有句意的综合,句子的语义又由其组成单位词来确定。所以对中文语义的分析,其最后的落脚点是分析最小的基本单位-词,进而达到分析效果。...在对中文语义分析时也会面临技术难点。单词切分中,中文的多样性给中文分词带来了一定难度,对中文的分词往往要建立在语义理解的基础上。...同时,中文现在并没有一个公认的用于计算机处理的语法规则,这也就给中文分析带来了困难。现中文分词基于统计和词典的分词方法上,要统筹好分词精度和分词速度的关系。...现NLPIR大数据语义分析系统能够全方位多角度完成对大数据文本的处理需求,包括大数据完整的技术链条:网络抓取、正文提取、中英文分词、词性标注、实体抽取、词频统计、关键词提取、语义信息抽取、文本分类、情感分析

3.3K30

首次揭秘1112背后的云数据库技术!| Q推荐

从 2009 年到 2021 年,从千万交易额到千亿交易额, 11 已经开展了 12 年。如今,每年的 11 以及一个月后的 12,已经成为真正意义上的全民购物狂欢节。...是什么样的数据库撑起了 2021 年的 11 12 的稳定进行?...《数据 Cool 谈》第三期,阿里巴巴大淘宝技术部 12 队长朱成、阿里巴巴业务平台 11 队长徐培德、阿里巴巴数据库 11 队长陈锦赋与 InfoQ 主编王一鹏,一同揭秘了 11 12 背后的数据库技术...在 11 12,这种方式的弊端会被进一步放大。数据显示,在 11 秒杀系统中,秒杀峰值交易数据每秒超过 50 万笔,是一个非常典型的电商秒杀场景。...在水平扩展的集群中,每个节点服务数十个分区,每个分区使用单独线程响应的事务处理模型避免了锁竞争的开销。据悉,在大促场景下,Tair 提供了几乎直线般的 P99 访问延时。

31.7K50

基于自然语言处理(语义情感)的香水推荐

自然语言处理(NLP)在推荐系统和信息检索中有许多有趣的应用。作为一名香水爱好者和数据科学家,利基香水社区使用的不寻常且高度描述性的语言启发我使用NLP创建一个模型,帮助我发现我可能想购买的香水。...我想让这个模型做两件事: 1、我想描述一款香水,并根据我的描述得到相关的推荐。由于所使用的建模方法,以及香水的语言非常丰富,这个模型可以推荐与描述情绪、感觉、性格或度假等事件相匹配的香水。...注意,第四种推荐香水有椰子和烟草的味道。如果我讨厌那些描述呢?我更新了查询以包含此信息,并得到了更新后的推荐列表。“我喜欢桃子和梨。醉人的香草味甜甜的味道。我不喜欢烟草,也不喜欢椰子。” ?...第四款香水从推荐中消失了! 模型 ? 该模型的第一步是从聊天机器人消息中识别每个句子的情感。...但是要真正测试这样的模型,我将部署它并执行一个实时的A/B测试,以度量客户是否购买了推荐的产品。这能让我估算出这样的模式能给公司带来多少收入。 ?

1.1K10

Awesome-Chinese-NLP:中文自然语言处理相关资料

推荐Github上一个很棒的中文自然语言处理相关资料的Awesome资源:Awesome-Chinese-NLP ,Github链接地址,点击文末"阅读原文"可直达: https://github.com...DuReader中文阅读理解数据 中文语料小数据 包含了中文命名实体识别、中文关系识别、中文阅读理解等一些小量数据 大规模中文自然语言处理语料 维基百科(wiki2019zh),新闻语料(news2016zh...ChineseNlpCorpus 情感/观点/评论 倾向性分析,中文命名实体识别,推荐系统 Organizations 中文NLP学术组织及竞赛 清华大学自然语言处理与人文计算实验室 北京大学计算语言学教育部重点实验室...中科院计算所自然语言处理研究组 哈工大智能技术与自然语言处理实验室 复旦大学自然语言处理组 苏州大学自然语言处理组 南京大学自然语言处理研究组 东北大学自然语言处理实验室 厦门大学智能科学与技术系自然语言处理实验室...Martin 52nlp 我爱自然语言处理 hankcs 码农场 文本处理实践课资料 文本处理实践课资料,包含文本特征提取(TF-IDF),文本分类,文本聚类,word2vec训练词向量及同义词词林中文词语相似度计算

5.5K12

自然语言处理技术(NLP)在推荐系统中的应用

推荐系统中经常需要处理各种文本类数据,例如商品描述、新闻资讯、用户留言等等。具体来讲,我们需要使用文本数据完成以下任务: 候选商品召回。候选商品召回是推荐流程的第一步,用来生成待推荐的物品集合。...歧义理解是自然语言处理中的重要研究课题,同时歧义也影响着我们在推荐系统中对文本数据的使用。...综上所述,文本数据是一类量大、复杂、丰富的数据,对推荐系统起着重要的作用,本文将针对上面提到的几个方面,对推荐系统中常见的文本处理方法进行介绍。...总结和展望 我们从简单的文本关键词出发,沿着结构化、降维、聚类、概率、时序的思路,结合推荐系统中候选集召回、相关性计算、排序模型特征等具体应用,介绍了推荐系统中一些常用的自然语言处理技术和具体应用方法。...自然语言处理技术借着深度学习的东风,近年来取得了长足的进步,而其与推荐系统的紧密关系,也意味着推荐系统在这方面仍然有着巨大的提升空间,让我们拭目以待。

3.5K100

自然语言处理工具中的中文分词器介绍

中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块,不同于英文的是,中文句子中没有词的界限,因此在进行中文自然语言处理时,通常需要先进行分词,分词效果将直接影响词性,句法树等模块的效果...在人机自然语言交互中,成熟的中文分词算法能够达到更好的自然语言处理效果,帮助计算机理解复杂的中文语言。 基于词典分词算法 基于词典分词算法,也称为字符串匹配分词算法。...这类算法的优点:速度快,都是O(n)的时间复杂度,实现简单,效果尚可, 算法的缺点:对歧义和未登录的词处理不好。...算法优点:能很好处理歧义和未登录词问题,效果比前一类效果好 算法缺点: 需要大量的人工标注数据,以及较慢的分词速度 现行常见的中文词分类器 常见的分词器都是使用机器学习算法和词典相结合的算法,一方面能够提高分词准确率...斯坦福分词器:作为众多斯坦福自然语言处理中的一个包,目前最新版本3.7.0, Java实现的CRF算法。可以直接使用训练好的模型,也提供训练模型接口。 Hanlp分词:求解的是最短路径。

1.5K50

中文自然语言处理工具hanlp隐马角色标注详解

本文旨在介绍如何利用HanLP训练分词模型,包括语料格式、语料预处理、训练接口、输出格式等。...语料预处理 语料预处理指的是将语料加载到内存中,根据需要增删改其中部分词语的一个过程。...而Handler是一个处理逻辑(lambda函数),在此可以编写自己的预处理代码。...· CRF分词采用BMES标注集,从人民日报转换到CRF训练语料的完整预处理代码请参考com.hankcs.test.model.TestCRF#testPrepareCRFTrainingCorpus...· 若不使用上述预处理代码则请注意:由于在HanLP实现的CRF分词解码算法中,数词被转换为M,英文被转换为W;所以在训练CRF分词之前,需要用相同的逻辑预处理语料。

1.2K00

大规模中文自然语言处理语料(百科,问答、新闻,翻译)

,但如果想要获得大量的中文语料,却是不太容易,有时甚至非常困难。...笔者想要训练一个中文的词向量,在百度和github上上搜索了好久,收获却很少:要么语料的量级太小,要么数据过于成旧,或需要的处理太复杂。 不知道你是否也遇到了这样的问题?...如果要写小说,需要用到自然语言处理(NLP))中的自然语言生成技术,那是人工智能领域一个", "answer_id": 545576062, "answerer_tags": "人工智能@游戏业"}...每一个对,包含一个英文和对应的中文中文或英文,多数情况是一句带标点符号的完整的话。...可能的用途: 可以用于训练中英文翻译系统,从中文翻译到英文,或从英文翻译到中文; 由于有上百万的中文句子,可以只抽取中文的句子,做为通用中文语料,训练词向量或做为预训练的语料。

3.2K20

【重磅】3分钟,让你懂得中文自然语言处理(NLP)!!

今天给大家分享一下关于中文自然语言处理的一些基础知识,希望能够帮你快点“入坑”。...本文概述 本次推文主要讲述中文自然语言处理的基础,分词、词性标注、命名实体识别,以及深度学习为什么可以实现中文自然语言处理。...一、中文自然语言处理基础 自然语言处理中最基础的任务就是分词、词性标注以及命名实体识别识别。 分词,它是中文自然语言处理中最重要的基础性工作。即将未经过处理自然语言文本划分成词语的序列。...国外的很多自然语言处理算法做的都很好,国外的英语模型能否直接用到中文自然语言处理方面来呢?答案是不可以的。...,因此如果对于中文自然语言处理套用英文的方法得到中文自然语言处理模型的是非常不合理的。

1.2K10
领券