首页
学习
活动
专区
工具
TVP
发布

深度学习自然语言处理

专栏作者
1010
文章
1176508
阅读量
161
订阅数
文本分类之样本不均衡处理及模型鲁棒性提升trick总结
每天给你送来NLP技术干货! ---- 写在前面 文本分类是NLP中一个非常重要的任务,也是非常适合入坑NLP的第一个完整项目。 文本分类看似简单,但实则里面有好多门道。作者水平有限,只能将平时用到的方法和trick在此做个记录和分享,并且尽可能提供给出简洁、清晰的代码实现。希望各位看官都能有所收获。 本文主要讨论文本分类中处理样本不均衡和提升模型鲁棒性的trick。文章内容是根据平时阅读论文、知乎、公众号和实践得到的,若有表述不够清楚、详尽的地方可参考文末相关链接。 1. 缓解样本不均衡 样本不均衡现象
zenRRan
2022-10-11
1.4K0
NlPS2022 | 自然语言处理相关论文分类整理
每天给你送来NLP技术干货! ----   © 作者|王晓磊   机构|中国人民大学高瓴人工智能学院  研究方向 | 对话式信息获取 来自 | RUC AI Box 本文从NeurlPS 2022 的2000多篇接收论文中筛选出了与自然语言处理相关的论文200多篇,并按照研究主题进行分类整理,以供参考。 导读: NeurIPS 2022 是 CCF A 类会议,人工智能领域方向的顶级国际会议之一。第36届神经信息处理系统会议将于今年 11 月 28 日至 12 月 9 日举行。官方发布的接收论文列
zenRRan
2022-10-11
1.7K0
招聘 | 百度NLP部 - 对话算法实习生
每天给你送来NLP技术干货! ---- 百度自然语言处理部-对话算法实习生 【岗位职责】 - 研发领先的开放域对话技术,包括但不限于预训练技术、长期记忆对话、主动对话、知识对话等。 - 探索对话相关的技术,发表顶会论文(组内已发表多篇ACL、EMNLP、AAAI等顶会论文); 【职责要求】 - 熟练使用Python/C++任意一门语言。 - 对NLP相关技术如预训练技术、文本生成等有了解,有对话生成经验者优先。 - 具有较好的团队沟通和合作能力,有责任心和自驱力。 - 每周至少工作4个工作日,实习期至少3个
zenRRan
2022-09-20
2860
华为官宣:免费培养5000位Python+深度学习开发者,结营可领取证书
NLP中的算法复杂,应用场景多变,涉及数学、语言学、计算科学多门学科,理解起来很抽象,单靠自学、看课程难以理解晦涩难懂的逻辑。即使你已经看过很多深度学习、人工智能、自然语言处理理论知识,依然难以着手开发项目。 为此,华为云上线了Python+NLP实战营,帮助学习者掌握自然语言处理理论和应用,提升NLP相关编程能力,低门槛入门开发AI项目。重要的是,由华为专家授课教学,全程免费报名学习。 适 合 人 群 01 在校学生 ① 计算机、人工智能专业 ② 0门槛入门NLP领域知识 ③ 希望从事企业AI工程师 0
zenRRan
2022-07-18
5730
ACL2022 | 引入对比学习给生成的过程中加入负样本的模式使得模型能够有效地学习不同层级上的知识
每天给你送来NLP技术干货! ---- 作者:支付宝搜索团队 来自蚂蚁集团、北大等机构的研究者提出了一种多粒度对比生成方法,设计了层次化对比结构。 文本生成任务通常采用 teacher forcing 的方式进行训练,这种训练方式使得模型在训练过程中只能见到正样本。然而生成目标与输入之间通常会存在某些约束,这些约束通常由句子中的关键元素体现,例如在 query 改写任务中,“麦当劳点餐” 不能改成 “肯德基点餐”,这里面起到约束作用的关键元素是品牌关键词。通过引入对比学习给生成的过程中加入负样本的模式使得模
zenRRan
2022-06-09
1K0
ACL'22 | 关系抽取和NER等论文分类整理
每天给你送来NLP技术干货! ---- 整理:对白的算法屋 本文汇总了ACL2022信息抽取方向的论文,包括但不限于通用信息抽取、命名实体识别、关系抽取、事件抽取、事件关系抽取、基于事件的观点挖掘等。 一、信息抽取 Automatic Error Analysis for Document-level Information Extraction. Aliva Das, Xinya Du, Barry Wang, Kejian Shi, Jiayuan Gu, Thomas Porter, Claire
zenRRan
2022-04-26
1K0
一文了解NLP领域国内外主要学术组织、会议和论文
每天给你送来NLP技术干货! ---- 作者:刘知远老师 链接:https://github.com/zibuyu/research_tao 与老牌学科如物理学、化学等相比,计算机学科还非常年轻,学科体系长期处于剧烈变革之中。作为计算机应用的重要方向,人工智能和自然语言处理自然更不例外,与现实应用紧密相关,技术发展日新月异,常给人今是昨非之感。在这种情况下,传统学术期刊的那种投稿1-2年才能见刊的模式已经赶不上技术革新的速度,年度学术会议显然更符合计算机学科发展和交流的需求,可以看作是一种“小步快跑”的模
zenRRan
2022-04-22
1.6K0
【KDD20】深度图神经网络专题
图神经网络在处理基于图数据问题方面取得了巨大的成功,受到了广泛的关注和应用。GNNs通常是基于消息传递的方式设计的,本质思想即迭代地聚合邻居信息,而经过
zenRRan
2020-09-22
9620
【Linux】常用命令之 awk 常用实例
在Linux/UNIX系统中,awk是一个功能强大的编辑工具,逐行读取输入文本,并根据指定的匹配模式进行查找,对符合条件的内容进行格式化输出或者过滤处理,可以在无交互的情况下实现相当复杂的文本操作,被广泛应用于Shell脚本,完成各种自动化配置任务。
zenRRan
2020-03-03
2.5K0
【图文并茂】通过实例理解word2vec之Skip-gram
word2vec主要实现方法是Skip-gram和CBOW,CBOW的目标是根据上下文来预测当前词的概率,且上下文所有的词对当前词出现概率的影响的权重是一样的,因此叫做continuous bag-of-words模型。如在袋子中取词,去取出数量足够的词就可以了,与取出词的先后顺序无关。Skip-gram刚好相反,其是根据当前词来预测上下文概率的。在实际应用中算法并无高下之分,主要根据呈现的效果来进行算法选择。这里介绍Skip-gram,并通过例子来理解Skip-gram是如何实现预测上下文,并如何训练得到词向量。
zenRRan
2020-02-27
2.7K2
【NLTK基础】一文轻松使用NLTK进行NLP任务(附视频)
NLTK作为文本处理的一个强大的工具包,为了帮助NLPer更深入的使用自然语言处理(NLP)方法。本公众号开更Natural Language Toolkit(即NLTK)模块的“ Natural Language Processing”教程系列。
zenRRan
2020-02-25
1.1K0
【BERT】源码分析(PART I)
最近在看paddle相关,于是就打算仔细过一遍百度ERNIE的源码。之前粗看的时候还没有ERNIE2.0、ERNIE-tiny,整体感觉跟BERT也挺类似的,不知道更新了之后会是啥样~看完也会整理跟下面类似的总结,刚好也在研究paddle或ERNIE的同学可以加我一起讨论哈哈哈
zenRRan
2020-02-24
4230
【NLP】45个小众而实用的NLP开源字典和工具
随着BERT、ERNIE、XLNet等预训练模型的流行,解决NLP问题时不用上预训练模型似乎总显得自己有点过时。但是这显然是不对的。
zenRRan
2020-02-20
1.4K0
【python】59个Python使用技巧,从此你的Python与众不同(一)
你也许知道如何进行列表解析,但是可能不知道字典/集合解析。它们简单易用且高效。就像下面这个例子:
zenRRan
2020-02-18
5880
【python】59个Python使用技巧,从此你的Python与众不同(二)
注意最后一个参数:dict_setitem=dict.setitem。如果你仔细想就会感觉有道理。将值关联到键上,你只需要给__setitem__传递三个参数:要设置的键,与键关联的值,传递给内建dict类的__setitem__类方法。等会,好吧,也许最后一个参数没什么意义。最后一个参数其实是将一个函数绑定到局部作用域中的一个函数上。具体是通过将dict.__setitem__赋值为参数的默认值。这里还有另一个例子:
zenRRan
2020-02-18
4070
研究生最忌讳的几点是什么?读研期间你该主动做什么?
我不太喜欢语言啰嗦地写日志,可最近我一直很纳闷,好像不少研究生不知道怎么样做好自己研究生阶段的学习和研究,就此我结合自己的经历谈谈自己的看法,希望能对在读的各位研究生朋友有所帮助。
zenRRan
2020-01-13
5710
【概率论】深度学习必懂的13种概率分布
作为AI从业者,你需要知道概率分布相关的知识。这里有一份最常见的基本概率分布教程,大多数和使用 python 库进行深度学习有关。
zenRRan
2019-12-10
7110
【短文本聚类】TextCluster:短文本聚类预处理模块 Short text cluster
项目地址,阅读原文可以直达,欢迎参与和Star: https://github.com/RandyPen/TextCluster 这个项目的作者是AINLP交流群里的昭鸣同学,该项目开源了一个短文本聚类工具,内存友好,速度不错,还不用尝试隐变量个数,欢迎使用。
zenRRan
2019-12-09
1.7K0
超8千Star,火遍Github的Python反直觉案例集!
Python,是一个设计优美的解释型高级语言,它提供了很多能让程序员感到舒适的功能特性。
zenRRan
2019-11-20
7030
【收藏】从A到Z,26个实用Python模块/函数速览
作为一名数据科学家,使用Python称得上是我的家常便饭。一路走来,现在我已经搜集了不少有用的小技巧,是时候该把它们分享给大家了!
zenRRan
2019-11-20
7090
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档