NewBeeNLP

LV1
发表了文章

COIL:结合稠密检索和词汇匹配的更高效检索模型

今天分享来自 NAACL 2021的一篇文章,一种基于上下文倒排索引的信息检索模型:「COIL(COntextualized Inverted List)」。

NewBeeNLP
发表了文章

ACL2021 知识图谱、推荐系统相关论文

NewBeeNLP
发表了文章

浅谈 多任务学习 在推荐系统中的应用

不同任务间共用底部的隐层。这种结构由于全部的参数共享可以减少过拟合的风险(原因如上所述),但是效果上受到任务差异(optimization conflicts ...

NewBeeNLP
发表了文章

手把手!基于领域预训练和对比学习SimCSE的语义检索(附源码)

之前看到有同学问,希望看一些偏实践,特别是带源码的那种,安排!今天就手把手带大家完成一个基于领域预训练和对比学习SimCSE的语义检索小系统。

NewBeeNLP
发表了文章

NLP 预训练家族再思考

最近整理预训练模型,又复习看了几篇BERT变体的论文,无外乎都是从「模型架构、MASK方式、预训练目标」入手,实话实说,感觉没有太大的创新。而且这类模型大部分只...

NewBeeNLP
发表了文章

EMNLP 2021 | 百度:多语言预训练模型ERNIE-M

2021年伊始,百度发布多语言预训练模型ERNIE-M,通过对96门语言的学习,使得一个模型能同时理解96种语言,该项技术在5类典型跨语言理解任务上刷新世界最好...

NewBeeNLP
发表了文章

EMNLP杰出论文 | 当注意力遇到RNN,五倍以上训练加速!

作者 | 高斯定理 欢迎关注知乎"高斯定理"和专栏"边走边看" 整理 | NewBeeNLP

NewBeeNLP
发表了文章

KDD 2021 | 谷歌DHE:不使用embedding table的类别型特征embedding

作者 | Chilia 哥伦比亚大学 NLP搜索推荐 整理 | NewBeeNLP

NewBeeNLP
发表了文章

浅谈 NLP 细粒度情感分析(ABSA)

买家除了对这个商品进行整体打分外,还会针对一些商品aspect(属性)进行文字评价,例如某个评论『这条裤子的材质很好,但是拉链太拉跨了』。从find-grain...

NewBeeNLP
发表了文章

聊一聊搜索推荐中的 Position Bias

作者 | Chilia 哥伦比亚大学 NLP搜索推荐 整理 | NewBeeNLP

NewBeeNLP
发表了文章

字节跳动高伟豪:端到端深度召回算法

导读:传统的召回算法一般基于双塔结构并加以approximately nearest neighbor search (ANN) 或者maximum inner...

NewBeeNLP
发表了文章

一篇就够!数据增强方法综述

数据增强(Data Augmentation, DA)缓解了深度学习中数据不足的场景,在图像领域首先得到广泛使用,进而延伸到 NLP 领域,并在许多任务上取得效...

NewBeeNLP
发表了文章

关于逻辑回归,面试官都怎么问

最近准备开始如同考研一般的秋招复习了!感觉要复习的东西真的是浩如烟海;) 有2023届做算法的同学可以加入我们一起复习~

NewBeeNLP
发表了文章

打造自己的 PTM!新词挖掘+预训练

因此,大家常会使用开源的预训练模型,然后根据下游任务数据来fine tuning。其中最出名的就是哈工大讯飞实验室推出的一系列中文PTMs[1],他们是用维基百...

NewBeeNLP
发表了文章

KDD2021 | 华为AutoDis:连续特征的Embedding学习框架

目前大多数的CTR模型采用的是Embedding和Feature Interaction(以下简称FI)架构,如下图所示:

NewBeeNLP
发表了文章

继续!从顶会论文看对比学习的应用!

公众号作者@上杉翔二 悠闲会 · 信息检索 整理 | NewBeeNLP

NewBeeNLP
发表了文章

数据不平衡问题都怎么解?

类似bagging的思想,有多个基学习器,每个基学习器都抽取一部分majority class,并且使用全部的minority class。这样,每个major...

NewBeeNLP
发表了文章

一文速览 | 对话生成预训练模型

大规模预训练言模型在生成式对话领域近年来有非常多的工作,如百度PLATO系列(PLATO[1]/PLATO-2[2]/PLATO-XL[3]),微软DialoG...

NewBeeNLP
发表了文章

万字综述!从21篇最新论文看多模态预训练模型研究进展

在传统的NLP单模态领域,表示学习的发展已经较为完善,而在多模态领域,由于高质量有标注多模态数据较少,因此人们希望能使用少样本学习甚至零样本学习。最近两年出现了...

NewBeeNLP
发表了文章

百度 2021 Lic 机器阅读理解比赛有感

百度21年语言与智能技术竞赛落下帷幕,本人利用空余时间参加了机器阅读理解的赛道,虽然分数不高,但还是有很多想法想跟大家分享。主要的想法就是围绕「如果造更鲁棒的数...

NewBeeNLP

个人简介

个人成就

扫码关注云+社区

领取腾讯云代金券