首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

技术干货 | 如何做好文本关键词提取?从三种算法说起

在自然语言处理领域,处理海量的文本文件最关键的是要把用户最关心的问题提取出来。而无论是对于长文本还是短文本,往往可以通过几个关键词窥探整个文本的主题思想。与此同时,不管是基于文本的推荐还是基于文本的搜索,对于文本关键词的依赖也很大,关键词提取的准确程度直接关系到推荐系统或者搜索系统的最终效果。因此,关键词提取在文本挖掘领域是一个很重要的部分。 关于文本的关键词提取方法分为有监督、半监督和无监督三种: 1 有监督的关键词抽取算法 它是建关键词抽取算法看作是二分类问题,判断文档中的词或者短语是或者不是关键词

014

广告行业中那些趣事系列18:RoBERTa-wwm-ext模型为啥能带来线上效果提升?

摘要:本篇主要分享能带来线上文本分类效果有效提升的RoBERTa-wwm-ext模型。首先介绍背景,RoBERTa-wwm-ext模型不管在公共数据集上还是在我们线上真实分布数据集上都能带来不错的效果提升,需要重点分析下效果提升的原因。RoBERTa-wwm-ext模型相比于BERT主要有两大方面的优化,第一是RoBERTa预训练模型,第二是基于全词掩码的中文训练方式;然后重点分析RoBERTa预训练模型的六大优化项,包括动态Mask、取消NSP任务、设置更大的batchsize训练、使用更多的数据同时训练更久、调整优化器Adam参数和使用Byte level构建词表等优化策略;最后分析了基于全词掩码的中文预训练方式。希望对文本分类优化感兴趣的小伙伴有所帮助,也欢迎大家分享一些项目实践中的优化策略。

04
领券