首页
学习
活动
专区
工具
TVP
发布

程序生活

专栏作者
436
文章
464472
阅读量
57
订阅数
【NLP基础】英文关键词抽取RAKE算法
RAKE英文全称为Rapid Automatic keyword extraction,中文称为快速自动关键字提取,是一种非常高效的关键字提取算法,可对单个文档进行操作,以实现对动态集合的应用,也可非常轻松地应用于新域,并且在处理多种类型的文档时也非常有效。
致Great
2022-09-23
7240
芒果TV商品意图识别top3思路分享
主办方提供了商品名称和用户query数据供选手进行模型训练,希望选手能够设计出一套高效、精准的商品意图识别模型,以帮助提升电商搜索的效果,改善顾客的购买体验。
致Great
2022-06-15
1.1K0
基于Trie 树实现简单的中文分词
中文分词是中文自然语言处理的基础,中文分词的正确率如何直接影响后续的词性标注(也有些词性标注算法不需要事先分词,但标注效果往往比先分词后标注差),实体识别、句法分析、语义分析。常用的分词方法主要有依赖词典的机械分词和序列标注方法。
致Great
2022-05-13
7471
nlp-with-transformers实战-01_transformers简介
  2017年,谷歌的研究人员发表了一篇论文,提出了一种用于序列建模的新型神经网络架构。 被称为Transformer的这一架构在机器翻译任务上的表现优于循环神经网络(RNN),在翻译质量和训练成本方面都是如此。
致Great
2022-03-30
4700
【论文笔记】文本版的Mixup数据增强算法:SSMix
论文标题:SSMix: Saliency-Based Span Mixup for Text Classification
致Great
2022-03-16
8780
Bert预训练新法则!
论文简介:还应在遮蔽语言模型中使用 15% 的遮蔽概率吗? 论文标题:Should You Mask 15% in Masked Language Modeling? 论文链接:https://a
致Great
2022-03-11
8640
文本分类还停留在BERT?对偶对比学习框架也太强了
论文标题:Dual Contrastive Learning: Text Classification via Label-Aware Data Augmentation
致Great
2022-02-12
7610
【论文笔记】当Bert炼丹不是玄学而是哲学:Mengzi模型
论文标题:Mengzi: Towards Lightweight yet Ingenious Pre-trained Models for Chinese 论文链接:https://arxiv.org/pdf/2110.06696.pdf 论文代码:https://github.com/Langboat/Mengzi 论文作者:{Zhuosheng Zhang etc.}
致Great
2022-01-06
6600
中文语言能力评测基准「智源指数」
智源指数排行榜提供多层次维度的评测方案,提供数据集、任务、能力得分,以及智源指数总体得分。智源指数根据标准基线模型(mT5-small)的得分,对参与评测模型的得分进行归一化(括号中显示),最大程度消除不同数据集和评测指标的差异。
致Great
2022-01-06
7600
ERNIE 3.0 Titan:最强中文预训练模型
本文介绍了一个中文大语言模型。作者提出了名为ERNIE 3.0的统一框架,用于预训练大规模知识增强模型,并训练了一个具有 100 亿个参数的模型。 ERNIE 3.0 在各种 NLP 任务上的表现优于最先进的模型。为了探索扩展 ERNIE 3.0 的性能,作者在PaddlePaddle平台上训练了具有多达2600亿个参数的百亿参数模型 ERNIE 3.0 Titan。此外,作者设计了一个自监督的对抗损失和一个可控的语言建模损失,使ERNIE 3.0 Titan 生成可信且可控的文本。为了减少计算开销和碳排放,作者为 ERNIE 3.0 Titan 提出了一个在线蒸馏框架,其中教师模型将同时教授学生和自我训练。ERNIE 3.0 Titan是迄今为止最大的中文密集预训练模型。实证结果表明,ERNIE 3.0 Titan在 68 个NLP数据集上的表现优于最先进的模型。
致Great
2022-01-06
8920
【论文解读】文本分类上分利器:Bert微调trick大全
论文标题:How to Fine-Tune BERT for Text Classification? 中文标题:如何微调 BERT 进行文本分类? 论文作者:复旦大学邱锡鹏老师课题组 实验代码
致Great
2021-07-08
1.5K0
NLP数据集列表
【NLP数据集推荐】 CLUEDatasetSearch https://github.com/CLUEbenchmark/CLUEDatasetSearch 中英文NLP数据集。可以点击搜索。
致Great
2020-12-22
4850
中文分词工具 MiNLP-Tokenizer
MiNLP-Tokenizer是小米AI实验室NLP团队自研的中文分词工具,基于深度学习序列标注模型实现,在公开测试集上取得了SOTA效果。其具备以下特点:
致Great
2020-11-26
1.5K0
零基础入门NLP - 新闻文本分类 方案整理
比赛链接:https://tianchi.aliyun.com/forum/#raceId=531810 以下资料整理自比赛论坛,感谢这些无私开源的选手们,以下是整理TOP5方案的主要思路和模型,以便大家学习
致Great
2020-11-24
1.6K0
动手学深度学习(十一) NLP循环神经网络
本节介绍循环神经网络,下图展示了如何基于循环神经网络实现语言模型。我们的目的是基于当前的输入与过去的输入序列,预测序列的下一个字符。循环神经网络引入一个隐藏变量
致Great
2020-02-25
7070
动手学深度学习(十) NLP 语言模型与数据集
语言模型 一段自然语言文本可以看作是一个离散时间序列,给定一个长度为 的词的序列 ,语言模型的目标就是评估该序列是否合理,即计算该序列的概率: 本节我们介绍基于统计的语言模型,主要是 元语法( -gr
致Great
2020-02-25
4570
NLP系列(一)pkuseg-python:一个高准确度的中文分词工具包
pkuseg是由北京大学语言计算与机器学习研究组研制推出的一套全新的中文分词工具包。pkuseg具有如下几个特点:
致Great
2019-02-13
1.2K0
pyltp的使用教程
pyltp 是 LTP 的 Python 封装,提供了分词,词性标注,命名实体识别,依存句法分析,语义角色标注的功能。
致Great
2018-08-28
1.4K0
Sequence to Sequence学习资料
Sequence to Sequence学习资料 seq2seq学习笔记 - CSDN博客 深度学习方法(八):自然语言处理中的Encoder-Decoder模型,基本Sequence to Sequence模型 - CSDN博客 Sequence to Sequence学习简述 NELSONZHAO/zhihu: 知乎专栏源码 zhihu/basic_seq2seq at master · NELSONZHAO/zhihu 从Encoder到Decoder实现Seq2Seq模型 NELS
致Great
2018-07-06
8870
2017/6/9-Python文件读写的方法
# 使用斜杠“/”: "c:/test.txt"… 不用反斜杠就没法产生歧义了 # 将反斜杠符号转义: "c:\\test.txt"… 因为反斜杠是转义符,所以两个"\\"就表示一个反斜杠符号 # file=open('D:\\jupyter\\test.txt')# #file=open('D:/jupyter/test.txt') #file=open('test.txt')#和程序在一个同一路径下 file=open('test.txt') file.read() 'hi quincyqiang\
致Great
2018-04-11
7030
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档