有句话叫:中文博大精深。 做自然语言处理(NLP)工作的同学对这几个字可能更加深有体会。自然语言,从字面意思上很好理解,就是我们平时在生活中常用的表达方式,常说的“讲人话”就是这个意思,举个例子: 一个人驼背,用自然语言会说:我背有点驼,而用非自然语言(文绉绉)则变成了:我的背部呈弯曲状。 这些话我们人很好懂,但是计算机不懂,它只懂二进制的 0 和 1。再加上中文语言错综复杂,没有什么规律可循,且同样的文字在不同语境下会有不同含义,要想让电脑正确理解就更困难了,比如: “冬天能穿多少穿多少,夏天能穿多少穿
对话系统是自然语言处理的一个热门话题,而自然语言理解则是对话系统的关键组成部分,现有的很多自然语言理解工具往往以服务的方式获取(Google 的 API.ai, Facebook 的 Wit.ai 等),使用这些服务往往需要向服务提供商提供自己的数据,并且根据自己业务调试模型很不方便。本文为大家介绍了一种新方法,即如何基于 rasa 搭建一个中文对话系统。 在近期 AI 研习社举办的线上免费公开课上,来自北京邮电大学网络技术研究院的张庆恒分享了基于 rasa nlu 构建自己的自然语言理解工具,并结合 r
导读:智能问答系统是自然语言处理的一个重要分支。今天我们将利用分词处理以及搜索引擎搭建一个智能问答系统。 本文经授权转自公众号CSDN(ID:CSDNnews)
自然语言处理是什么?谁需要学习自然语言处理?自然语言处理在哪些地方应用?相关问题一直困扰着不少初学者。针对这一情况,作者结合教学经验和工程应用编写此书。《自然语言处理理论与实战》讲述自然语言处理相关学科知识和理论基础,并介绍使用这些知识的应用和工具,以及如何在实际环境中使用它们。由于自然语言处理的特殊性,其是一门多学科交叉的学科,初学者难以把握知识的广度和宽度,对侧重点不能全面掌握。《自然语言处理理论与实战》针对以上情况,经过科学调研分析,选择以理论结合实例的方式将内容呈现出来。其中涉及开发工具、Python语言、线性代数、概率论、统计学、语言学等工程上常用的知识介绍,然后介绍自然语言处理的核心理论和案例解析,最后通过几个综合性的例子完成自然语言处理的学习和深入。《自然语言处理理论与实战》旨在帮助读者快速、高效地学习自然语言处理和人工智能技术。
nltk是一个python工具包, 用来处理和自然语言处理相关的东西. 包括分词(tokenize), 词性标注(POS), 文本分类, 等等现成的工具. 1. nltk的安装 资料1.1: 黄聪:Python+NLTK自然语言处理学习(一):环境搭建 http://www.cnblogs.com/huangcong/archive/2011/08/29/2157437.html 这个图文并茂, 步骤清晰, 值得一看. 我想我没必要再重新写一遍了, 因为我当时也是按照他这样做的. 资料1.2: 把py
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/wangyaninglm/article/details/88643645
大家好,今天开始和大家分享,我在自然语言处理(Natural Language Processing,NLP)的一些学习经验和心得体会。
作为国际最受关注的自然语言处理顶级会议,每年的 ACL 都吸引了大量华人学者投稿、参会。今年的 ACL 大会已是第 60 届,即将于 5 月 22-5 月 27 举办。受到疫情影响,国内 NLP 从业者参与大会受到很多限制。 为了给国内 NLP 社区的从业人员搭建一个自由轻松的学术交流平台,机器之心组织了「ACL 2022 线上论文分享会」,定档 5 月 21 日云端相聚。 本次 ACL 论文分享设置了 Keynote、 论文分享、企业招聘等环节,就业内关注的 Transformer、大规模预训练模型等
原文链接:https://github.com/fighting41love/funNLP
媒体报道、微博内容、消费者购买评价等文本信息,正在成为大数据重要的组成部分。然而,人类使用的语言对计算机而言是模糊的、非结构化的,要处理和分析这部分数据,就必须用到自然语言处理技术。
好几天没有写关于自然语言处理方面的内容,实在抱歉,不过还是感谢大家支持。今天给大家分享一下关于中文自然语言处理的一些基础知识,希望能够帮你快点“入坑”。
每天给你送来NLP技术干货! ---- 实验室窗外 上海人工智能实验室是我国人工智能领域新型科研机构,开展战略性、原创性、前瞻性的科学研究与技术攻关,目标建成国际一流的人工智能实验室,成为享誉全球的人工智能原创理论和技术的策源地。 实验室网址: www.shlab.org.cn 研究方向 人工智能基础理论、人工智能基础软件和基础硬件系统、人工智能核心技术、人工智能开放平台、人工智能应用、人工智能伦理与政策 我们的优势 全球顶尖的AI科研团队 由汤晓鸥、姚期智、陈杰领衔,通过全职、全时双聘等灵活合作方式,
自然语言处理在大数据以及近年来大火的人工智能方面都有着非同寻常的意义。那么,什么是自然语言处理呢?在没有接触到大数据这方面的时候,也只是以前在学习计算机方面知识时听说过自然语言处理。书本上对于自然语言处理的定义或者是描述太多专业化。换一个通俗的说法,自然语言处理就是把我们人类的语言通过一些方式或者技术翻译成机器可以读懂的语言。
随着人工智能的火热,AAAI、NeurIPS、CVPR 等顶级学术会议的影响力也愈来越大,每年接收论文、参会人数的数量连创新高。 ACL,作为国际最受关注的自然语言处理顶级会议,每年都吸引了大量华人学者投稿、参会,今年的 ACL 大会已是第 60 届,将于 5 月 22-5 月 27 举办。因为疫情原因,国内 NLP 从业者参与大会将受到很大的限制。 为了给国内 NLP 社区的从业人员搭建一个自由轻松的学术交流平台,机器之心组织了「ACL 2022 线上论文分享会」,定档 5 月 21 日云端相聚。 本次
在全球疫情背景下,国际间的线下学术交流变得十分困难。 这段时间以来,机器之心一直在围绕国际顶级学术会议在国内举办线下活动,促进国内 AI 领域的学术交流。 2020 年底,机器之心举办了 NeurIPS 2020 中国区 MeetUp,报名人数高达 1300 人,受到了国内 AI 社区的极大关注,众多高校、企业积极参与。 2021 年 6 月,机器之心又组织了 CVPR 2021 线下论文分享会,邀请到了虞晶怡(视频致辞)、陶大程、林达华、纪荣嵘、许春景这些业内顶级专家做主题演讲,同时也设置了 12 篇论文
人工智能大模型时代,评测基准成为大模型发展的风向标。从扁平到全面系统,从简化到多重维度,智源指数CUGE旨在尝试为大模型评测设计一张全面评估综合能力的新考卷。
传统的文本情感分类思路简单易懂,而且稳定性也比较强,然而存在着两个难以克服的局限性: 一、精度问题,传统思路差强人意,当然一般的应用已经足够了,但是要进一步提高精度,却缺乏比较好的方法; 二、背景知识问题,传统思路需要事先提取好情感词典,而这一步骤,往往需要人工操作才能保证准确率,换句话说,做这个事情的人,不仅仅要是数据挖掘专家,还需要语言学家,这个背景知识依赖性问题会阻碍着自然语言处理的进步。 庆幸的是,深度学习解决了这个问题(至少很大程度上解决了),它允许我们在几乎“零背景”的前提下,为某个领域的实际问
前几年曾经马少平老师的引荐,为某科普图书写过一篇短文介绍自然语言处理。如果只是介绍NLP的概念、任务和挑战,应该可以参考这篇小文。原文如下,仅供参考。 自然语言处理 Natural Language Processing 一、什么是自然语言处理 简单地说,自然语言处理(Natural Language Processing,简称NLP)就是用计算机来处理、理解以及运用人类语言(如中文、英文等),它属于人工智能的一个分支,是计算机科学与语言学的交叉学科,又常被称为计算语言学。由于自然语言是人类区别于其他动
摘自AMiner 机器之心整理 参与:李亚洲、思源 自然语言处理是现代技术最重要的组成部分之一,而最近清华大学和中国工程院知识智能联合实验室发布一份非常全面的 NLP 报告。该报告从 NLP 的概念介
地址 https://github.com/zibuyu/research_tao
2011年,日本多个机构发起的一项机器人项目,以东京大学入学考试难度为目标,以检验人工智能可在多大程度上模拟人类思考以及解决问题的能力。在去年和今年的考试中,机器人“Torobo-kun”分别获得了511分和525分,总分为950分。照着当前的成绩,Torobo-kun有80%的可能被512所私立大学和23所国立大学和公立大学录取,可惜的是,离东京大学至少获得 80% 分数的要求还差得很远。 根据对比,在两次考试中,Torobo-kun在数学和物理方面有了明显的进步,而英语和国语的成绩还是一团糟。在镁客君看
文章转自清华大学刘知远老师的github:https://github.com/zibuyu/research_tao/blob/master/00_nlp.md
2018年以来,以BERT、GPT等为代表的大规模预训练模型,带来了人工智能领域新的突破,由于其强大的通用性和卓越的迁移能力,掀起了预训练模型往大规模参数化发展的浪潮。其中微软、谷歌、Facebook、NVIDIA等诸多公司在预训练算法上持续大量投入。国内如百度、华为、阿里等公司也相继投入到大规模预训练模型算法的研究中。现阶段,在中文自然语言处理方向上,预训练也如雨后春笋一样涌现。现有算法主要依赖纯文本学习,缺少知识指导学习,模型能力存在局限。
每天给你送来NLP技术干货! ---- 团队介绍 NLP中心是美团人工智能技术研发的核心团队,致力于打造高性能、高扩展的搜索引擎和领先的自然语言处理核心技术和服务能力,依托搜索排序,NLP(自然语言处理)、Deep Learning(深度学习)、Knowledge Graph(知识图谱)等技术,处理美团海量文本数据,打通餐饮、旅行、休闲娱乐等本地生活服务各个场景数据,不断加深对用户、场景、查询和服务的理解,高效地支撑形态各样的生活服务搜索,解决搜索场景下的多意图、个性化,时效性问题,给用户良好的搜索
AI 科技评论按:2019 年 7 月 1 日,清华大学人工智能研究院自然语言处理与社会人文计算研究中心成立仪式暨学术报告与开元成功发布会在清华大学 FIT 楼举行。这是继知识智能研究中心、听觉智能研究中心、基础理论研究中心、智能机器人研究中心、智能人机交互研究中心、智能信息获取研究中心、视觉智能研究中心之后成立的第八个研究中心。清华大学副校长、清华大学人工智能研究院管委会主任尤政院士,清华大学人工智能研究院院长张钹院士出席成立仪式并共同为中心揭牌。清华大学人工智能研究院院长助理朱军教授主持了成立仪式。
推荐Github上一个很棒的中文自然语言处理相关资料的Awesome资源:Awesome-Chinese-NLP ,Github链接地址,点击文末"阅读原文"可直达:
最近我身边的后端小哥哥心态有点崩,女朋友控诉他老加班不回微信,闹分手!我给他出一招,找个聊天机器人啊,兄弟,加班恋爱两不误,皆大欢喜啊。小哥哥一听,嘿,有谱。
在中文文本中,由于词与词之间没有明显的界限符,如英文中的空格,因此分词是中文自然语言处理的一个基础且重要的步骤。分词的准确性直接影响到后续的语言处理任务,如词性标注、句法分析等。在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符。分词过程就是找到这样分界符的过程。
2018年7月,爱尔兰都柏林城市大学教授、自然语言处理和机器翻译领域专家刘群博士,正式加入华为诺亚方舟实验室,任语音语义首席科学家,主导语音和自然语言处理领域的前沿研究和技术创新。
AI 科技评论按:2018 全球人工智能与机器人峰会(CCF-GAIR)在深圳召开,峰会由中国计算机学会(CCF)主办,雷锋网、香港中文大学(深圳)承办,得到了深圳市宝安区政府的大力指导,是国内人工智能和机器人学术界、工业界及投资界三大领域的顶级交流盛会,旨在打造国内人工智能领域最具实力的跨界交流合作平台。
自然语言处理(Natural Language Processing,NLP)是一门融合了计算机科学、人工智能及语言学的交叉学科,它们的关系如下图所示。这门学科研究的是如何通过机器学习等技术,让计算机学会处理人类语言,乃至实现终极目标–理解人类语言或人工智能。
NLPCC 将在 2018 年 8 月 26 日-30 日于内蒙古呼和浩特举行。 📷 CCF 自然语言处理与中文计算国际会议 (NLPCC) 是由中国计算机学会主办的中文信息技术专业委员会年度学术会议,是专注于自然语言处理及中文计算领域的国际会议。会议旨在为来自学术界、工业界和政界的学者和研究者提供一个交流平台,促进学者和研究者分享研究和应用成果及创新思维。 NLPCC 将在 2018 年 8 月 26 日-30 日于内蒙古呼和浩特举行,致力于推动相关领域学术界和工业界研究、创新与应用的发展
News 新闻 4月18日,达观数据科学家团队再添专家,国内知名自然语言处理领军专家、复旦大学计算机教授黄萱菁博士正式受聘为达观数据高级顾问,达观数据在人工智能领域的研发实力又上新台阶,未来在深度学习
作者 | 陈彩娴 编辑丨岑峰1月6日,2021年ACL Fellow名单正式公布! 今年,一共有8位知名的自然语言处理学者入选,其中,华人学者有2位,占了1/4,分别是中国科学院自动化所的宗成庆教授与华为诺亚方舟实验室刘群博士。 根据官网消息,今年两位华人学者的入选理由分别是: 刘群:对机器翻译与中文自然语言处理作出了卓越贡献; 宗成庆:对机器翻译与情感分析的研究作出重大贡献,并不断促进中国自然语言处理的发展。 ACL Fellow计划始于2011年,旨在表彰对自然语言处理领域的科技研究与社区服务作出了杰出
近年来,深度学习方法极大的推动了自然语言处理领域的发展。几乎在所有的 NLP 任务上我们都能看到深度学习技术的应用,并且在很多的任务上,深度学习方法的表现大大超过了传统方法。可以说,深度学习方法给 NLP 带来了一场重要的变革。
SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和TextBlob不同的是,这里没有用NLTK,所有的算法都是自己实现的,并且自带了一些训练好的字典。
在自然语言处理(NLP)领域,预训练模型刷榜已经成为行业惯例。目前,面向英文任务的评测基准有 GLUE、SuperGLUE,面向中文任务的有 ChineseGLUE(简称 CLUE)。
2017年7月31日-8月4日,第55届国际计算语言学年会ACL 2017(Annual Meeting of the Association for Computational Linguistics)在加拿大温哥华召开。在这场计算语言学盛会期间,中国中文信息学会青年工作委员会(CIPSC青工委)和腾讯AI Lab联合举办了“犀牛鸟之夜”活动,邀请黄伟道、宗成庆、薛念文、夏飞、赵东岩、朱晓丹、陈博兴等30余位海内外学者交流学术研究心得,探讨产学合作模式。活动由中科院自动化所刘康老师主持。 首先,CIP
全球人工智能与机器人峰会(CCF-GAIR)将于 6 月底在深圳举办,其中哈尔滨工业大学刘挺教授 将担任自然语言处理专场主席。
摘要 机器翻译伴随着世界上第一台计算机的诞生而出现,随后成为人工智能领域最具挑战性的研究课题之一。70 多年来,以机器翻译、人机对话系统、文本自动分类、自动文摘和信息抽取等为代表性应用的人类语言技术所走过的曲折发展历程,从不同的侧面折射出人工智能领域的荣禄兴衰。本文在简要回顾人类语言技术发展历程的基础上,重点介绍当前该技术面临的主要挑战和研究现状,并对未来发展的趋势进行展望。 关键词
近年来随着大数据、深度学习等技术的快速发展,加之与自然语言处理技术密切结合,语言智能获得了持续的续发展和突破,并越来越多地应用于各个行业。百度在自然语言处理技术方面,已有了十几年的技术累积和前瞻探索,并且不断将核心技术高效落地产业实践。
本文简绍了SnowNLP的使用方法,这是一个处理中文文本内容的python类库,其主要功能包括分词、词性标注、情感分析、汉字转拼音、繁体转简体、关键词提取以及文本摘要等等。
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
在人工智能出现之前,机器智能处理结构化的数据(例如 Excel 里的数据)。但是网络中大部分的数据都是非结构化的,例如:文章、图片、音频、视频…
关键字全网搜索最新排名 【机器学习算法】:排名第一 【机器学习】:排名第一 【Python】:排名第三 【算法】:排名第四 源 | AI深入浅出 最近几个月小编遨游在税务行业的智能问答调研和开发中,里面涉及到了很多的自然语言处理NLP的功能点。虽然接触NLP也有近两年的时间了,现在真正要应用到问答中,避免不了还是需要再重新熟识并深入研究理解。 下面是与NLP相关的一些书籍推荐、课件推荐和开源工具推荐。 主要是记录下入门的资料,由于资料的存储位置没有做规整,所以本文没有附带资源下载链接。如果有同学需要其中的资
奉上:[chatai (taiyangyukeji.com)] 国内GPT指的是在中国境内搭建的GPT模型。这样做可以减少因网络延迟等因素而导致的数据传输时间和成本,从而提高访问速度和稳定性。目前有不少中国企业和机构都在搭建自己的chatGPT模型,以满足国内用户对于自然语言处理技术的需求。 国内目前GPT和原版并无太大差别,可能有些未公开的专业性科技公司做出了一些以chatgpt为基本模型接口然后对某一行业深度延申增加其专业能力的处理。 国内对接原版GPT的主要功能是为了提供高质量的自然语言处理服务,如文本生成、对话系统、文本分类等。因为GPT模型需要大量的计算资源和数据支持,所以搭建国内GPT可以在国内提供更快速、稳定和安全的服务。除此之外,国内GPT还可以用于以下方面:
《自然语言处理实战入门》 ---- 第4课 :中文分词原理及相关组件简介 之 语言学与分词技术简介
向AI转型的程序员都关注了这个号👇👇👇 机器学习AI算法工程 公众号:datayx 在自然语言处理领域中,预训练语言模型(Pretrained Language Models)已成为非常重要的基础技术,本仓库主要收集目前网上公开的一些高质量中文预训练模型。 NLU系列 BERT RoBERTa ALBERT NEZHA XLNET MacBERT WoBERT ELECTRA ZEN ERNIE RoFormer StructBERT Lattice-BERT Mengzi-BER
机器之心原创 机器之心编辑部 ChatGPT 军备赛开幕,哪些国内机构具备打造下一个 ChatGPT 的实力? 自从 2022 年底 ChatGPT 发布以来,海内外就掀起了一阵狂潮。推出仅两个月,ChatGPT 月活用户突破 1 亿,成为了史上用户增长速度最快的消费级应用程序。 ChatGPT 成为了搅动人工智能领域风云的新势力,其背后的 OpenAI 也因此成为了当下最热门的 AI 公司,甚至引发了科技巨头们的深度焦虑。 谷歌和微软两家科技巨头正在 ChatGPT 搜索上进行激烈竞争,先后宣布了将大
领取专属 10元无门槛券
手把手带您无忧上云