腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

程序生活

专栏作者

436

文章

464472

阅读量

57

订阅数

【NLP基础】英文关键词抽取RAKE算法

编程算法 NLP 服务

RAKE英文全称为Rapid Automatic keyword extraction，中文称为快速自动关键字提取，是一种非常高效的关键字提取算法，可对单个文档进行操作，以实现对动态集合的应用，也可非常轻松地应用于新域，并且在处理多种类型的文档时也非常有效。

2022-09-23

7240

芒果TV商品意图识别top3思路分享

主办方提供了商品名称和用户query数据供选手进行模型训练，希望选手能够设计出一套高效、精准的商品意图识别模型，以帮助提升电商搜索的效果，改善顾客的购买体验。

2022-06-15

1.1K0

基于Trie 树实现简单的中文分词

数据结构编程算法中文分词 NLP 服务

中文分词是中文自然语言处理的基础，中文分词的正确率如何直接影响后续的词性标注（也有些词性标注算法不需要事先分词，但标注效果往往比先分词后标注差），实体识别、句法分析、语义分析。常用的分词方法主要有依赖词典的机械分词和序列标注方法。

2022-05-13

7471

nlp-with-transformers实战-01_transformers简介

NLP 服务迁移学习机器学习神经网络深度学习

2017年，谷歌的研究人员发表了一篇论文，提出了一种用于序列建模的新型神经网络架构。被称为Transformer的这一架构在机器翻译任务上的表现优于循环神经网络（RNN），在翻译质量和训练成本方面都是如此。

2022-03-30

4700

【论文笔记】文本版的Mixup数据增强算法：SSMix

编程算法图像处理 NLP 服务

论文标题：SSMix: Saliency-Based Span Mixup for Text Classification

2022-03-16

8780

Bert预训练新法则！

tcp/ip NLP 服务

论文简介：还应在遮蔽语言模型中使用 15% 的遮蔽概率吗？论文标题：Should You Mask 15% in Masked Language Modeling? 论文链接：https://a

2022-03-11

8640

文本分类还停留在BERT？对偶对比学习框架也太强了

论文标题：Dual Contrastive Learning: Text Classification via Label-Aware Data Augmentation

2022-02-12

7610

【论文笔记】当Bert炼丹不是玄学而是哲学：Mengzi模型

论文标题：Mengzi: Towards Lightweight yet Ingenious Pre-trained Models for Chinese 论文链接：https://arxiv.org/pdf/2110.06696.pdf 论文代码：https://github.com/Langboat/Mengzi 论文作者：{Zhuosheng Zhang etc.}

2022-01-06

6600

中文语言能力评测基准「智源指数」

中文分词 NLP 服务

智源指数排行榜提供多层次维度的评测方案，提供数据集、任务、能力得分，以及智源指数总体得分。智源指数根据标准基线模型（mT5-small）的得分，对参与评测模型的得分进行归一化（括号中显示），最大程度消除不同数据集和评测指标的差异。

2022-01-06

7600

ERNIE 3.0 Titan：最强中文预训练模型

NLP 服务神经网络深度学习人工智能

本文介绍了一个中文大语言模型。作者提出了名为ERNIE 3.0的统一框架，用于预训练大规模知识增强模型，并训练了一个具有 100 亿个参数的模型。 ERNIE 3.0 在各种 NLP 任务上的表现优于最先进的模型。为了探索扩展 ERNIE 3.0 的性能，作者在PaddlePaddle平台上训练了具有多达2600亿个参数的百亿参数模型 ERNIE 3.0 Titan。此外，作者设计了一个自监督的对抗损失和一个可控的语言建模损失，使ERNIE 3.0 Titan 生成可信且可控的文本。为了减少计算开销和碳排放，作者为 ERNIE 3.0 Titan 提出了一个在线蒸馏框架，其中教师模型将同时教授学生和自我训练。ERNIE 3.0 Titan是迄今为止最大的中文密集预训练模型。实证结果表明，ERNIE 3.0 Titan在 68 个NLP数据集上的表现优于最先进的模型。

2022-01-06

8920

【论文解读】文本分类上分利器:Bert微调trick大全

论文标题：How to Fine-Tune BERT for Text Classification? 中文标题：如何微调 BERT 进行文本分类？论文作者：复旦大学邱锡鹏老师课题组实验代码

2021-07-08

1.5K0

NLP数据集列表

【NLP数据集推荐】 CLUEDatasetSearch https://github.com/CLUEbenchmark/CLUEDatasetSearch 中英文NLP数据集。可以点击搜索。

2020-12-22

4850

中文分词工具 MiNLP-Tokenizer

NLP 服务腾讯云测试服务 api 深度学习

MiNLP-Tokenizer是小米AI实验室NLP团队自研的中文分词工具，基于深度学习序列标注模型实现，在公开测试集上取得了SOTA效果。其具备以下特点：

2020-11-26

1.5K0

零基础入门NLP - 新闻文本分类方案整理

NLP 服务 https 机器学习神经网络深度学习

比赛链接：https://tianchi.aliyun.com/forum/#raceId=531810 以下资料整理自比赛论坛，感谢这些无私开源的选手们，以下是整理TOP5方案的主要思路和模型，以便大家学习

2020-11-24

1.6K0

动手学深度学习(十一) NLP循环神经网络

NLP 服务神经网络机器学习深度学习人工智能

本节介绍循环神经网络，下图展示了如何基于循环神经网络实现语言模型。我们的目的是基于当前的输入与过去的输入序列，预测序列的下一个字符。循环神经网络引入一个隐藏变量

2020-02-25

7070

动手学深度学习(十) NLP 语言模型与数据集

语言模型一段自然语言文本可以看作是一个离散时间序列，给定一个长度为的词的序列，语言模型的目标就是评估该序列是否合理，即计算该序列的概率：本节我们介绍基于统计的语言模型，主要是元语法（ -gr

2020-02-25

4570

NLP系列（一）pkuseg-python：一个高准确度的中文分词工具包

中文分词 NLP 服务

pkuseg是由北京大学语言计算与机器学习研究组研制推出的一套全新的中文分词工具包。pkuseg具有如下几个特点：

2019-02-13

1.2K0

pyltp的使用教程

NLP 服务机器学习

pyltp 是 LTP 的 Python 封装，提供了分词，词性标注，命名实体识别，依存句法分析，语义角色标注的功能。

2018-08-28

1.4K0

Sequence to Sequence学习资料

深度学习 NLP 服务

Sequence to Sequence学习资料 seq2seq学习笔记 - CSDN博客深度学习方法（八）：自然语言处理中的Encoder-Decoder模型，基本Sequence to Sequence模型 - CSDN博客 Sequence to Sequence学习简述 NELSONZHAO/zhihu: 知乎专栏源码 zhihu/basic_seq2seq at master · NELSONZHAO/zhihu 从Encoder到Decoder实现Seq2Seq模型 NELS

2018-07-06

8870

2017/6/9-Python文件读写的方法

python NLP 服务

# 使用斜杠“/”: "c:/test.txt"… 不用反斜杠就没法产生歧义了 # 将反斜杠符号转义: "c:\\test.txt"… 因为反斜杠是转义符，所以两个"\\"就表示一个反斜杠符号 # file=open('D:\\jupyter\\test.txt')# #file=open('D:/jupyter/test.txt') #file=open('test.txt')#和程序在一个同一路径下 file=open('test.txt') file.read() 'hi quincyqiang\

2018-04-11

7030

点击加载更多

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态