首页
学习
活动
专区
工具
TVP
发布

机器之心

专栏作者
8914
文章
6248993
阅读量
277
订阅数
中文世界又多一个评测语言大模型能力的基准CUGE,覆盖17种主流NLP任务
在自然语言处理(NLP)领域,预训练模型刷榜已经成为行业惯例。目前,面向英文任务的评测基准有 GLUE、SuperGLUE,面向中文任务的有 ChineseGLUE(简称 CLUE)。
机器之心
2022-01-20
1.2K0
BERT适应业务遇难题?这是小米NLP的实战探索
近年来,预训练模型在自然语言处理(Natural Language Processing, NLP)领域大放异彩,其中最重要的工作之一就是 Google 于 2018 年发布的 BERT 预训练模型 [1]。自被发布以来,BERT 预训练模型就在多项自然语言理解任务上取得了优异的效果,并开启了预训练-微调的 NLP 范式时代,启发了 NLP 领域后续一系列的预训练模型工作。与此同时,BERT 模型在 NLP 相关工业领域也得到了广泛应用,并取得了良好的效果。但由于工业领域相关业务的数据格式的复杂性,以及工业应用对推理性能的要求,BERT 模型往往不能简单直接地被应用于 NLP 业务之中,需要根据具体场景和数据对 BERT 模型加以调整和改造,以适应业务的现实需求。
机器之心
2020-05-06
7760
复旦大学提出中文分词新方法,Transformer连有歧义的分词也能学
从不同的角度看待中文句子,可能使中文分词任务(CWS)的标准完全不同。例如「总冠军」既可以看成独立的词,也能理解为「总」和「冠军」两个词。以前这种情况非常难解决,我们只能定一些字典或规则来加强这些词的划分。
机器之心
2019-07-12
7580
北大开源全新中文分词工具包:准确率远超THULAC、结巴分词
pkuseg 是由北京大学语言计算与机器学习研究组研制推出的一套全新的中文分词工具包。它简单易用,支持多领域分词,在不同领域的数据上都大幅提高了分词的准确率。
机器之心
2019-04-30
1.3K0
达观数据:综述中英文自然语言处理的异和同
人类经过漫长的历史发展,在世界各地形成了很多不同的语言分支,其中汉藏语系和印欧语系是使用人数最多的两支。英语是印欧语系的代表,而汉语则是汉藏语系的代表。中英文语言的差异十分鲜明,英语以表音(字音)构成,汉语以表义(字形)构成,印欧和汉藏两大语系有很大的区别。
机器之心
2019-04-29
1.2K0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档