首页
学习
活动
专区
工具
TVP
发布

数据拾光者

专栏作者
64
文章
30557
阅读量
12
订阅数
广告行业中那些趣事系列60:详解超好用的无监督关键词提取算法Keybert
摘要:本篇从理论到实践介绍了超好用的无监督关键词提取算法Keybert。首先介绍了调研背景;然后重点介绍了什么是Keybert、KeyBERT提取关键词流程和如何通过MSS和MMR算法解决多样性问题;最后从实践的角度介绍了KeyBERT的安装、使用以及影响效果的因素。对于希望使用无监督学习算法抽取关键词的小伙伴可能有帮助。
数据拾光者
2023-03-08
1.2K0
广告行业中那些趣事系列59:详解当前大火的提示学习prompt learning
摘要:本篇主要从理论到实践介绍了当前超火的提示学习Prompt Learning。首先介绍了背景,从NLP四大范式引出预训练+微调和当前大火的提示学习Prompt Learning。相比于预训练+微调是让预训练模型适配下游任务,提示学习Prompt Learning则是让下游任务来适配预训练模型,将几乎所有NLP任务统一转化成语言模型问题,提升预训练模型的利用率;然后重点介绍了Prompt Learning,主要包括Prompt的作用、Prompt文本分类流程、Prompt形状、如何设计Prompt和Prompt Learning的优势;最后基于百度paddleNLP实战Prompt Learning,在小样本场景下的多分类任务中对比了预训练+微调和Prompt Learning的效果,使用同样的预训练模型Prompt Learning提升效果很明显。对于希望将Prompt Learning应用到实际业务中的小伙伴可能有帮助。
数据拾光者
2023-03-08
8040
广告行业中那些趣事系列58:当我们面对文本分类任务的时,可以使用哪些优化策略
摘要:本篇主要总结了一下我在实际项目中对于文本分类任务的优化策略,主要包括预训练模型优化、语义embedding优化、分类层优化、使用知识蒸馏优化、使用标签内容信息优化、优化损失函数、通过半监督和主动学习优化、通过样本增强技术优化。对于想要提升线上文本分类任务效果的小伙伴可能有所帮助。
数据拾光者
2023-03-08
2990
广告行业中那些趣事系列57:从理论到实战一网打尽Transformer中的位置编码
摘要:本篇从理论到实践介绍了Transformer中的位置编码。首先介绍了位置编码的作用以及主要实现方式;然后重点介绍了主流的位置编码方式,包括训练式位置编码、三角函数式位置编码和相对位置编码,同时基于开源项目bert4keras源码实践了各种位置编码。对Transformer中位置编码的知识和源码实践感兴趣的小伙伴可以多交流。
数据拾光者
2022-12-20
2K0
广告行业中那些趣事系列56:超实用的多模态学习模型VILT源码实践
摘要:本篇主要介绍了多模态学习模型VILT几个实用的源码实践,包括使用VILT预训练模型获取pretrain embedding、微调VILT、VILT模型预估Inference、VILT掩码模型、使用VILT根据图片找到语义匹配的文本和使用VILT根据两张图片和一条文本判断是否匹配。对于希望将VILT模型应用到业务实践的小伙伴可能有帮助。
数据拾光者
2022-12-20
5700
广告行业中那些趣事系列55:文本和图像领域大一统的UNIMO模型详解
摘要:本篇主要介绍了百度在多模态学习领域的成果UNIMO模型。首先是背景介绍,针对当前主流多模态学习模型存在训练语料少和模态缺失导致模型效果下降的问题,百度提出了UNIMO统一学习模型;然后重点介绍了UNIMO模型,主要包括UNIMO如何解决训练数据稀少和模态缺失问题、UNIMO模型输入、跨模态对比学习的UNIMO、UNIMO中视觉学习和文本学习以及UNIMO模型效果;最后介绍了UNIMO开源项目工程。对多模态学习感兴趣并且希望应用到项目实践的小伙伴可能有所帮助。
数据拾光者
2022-12-20
6010
广告行业中那些趣事系列54:从理论到实践学习当前超火的多模态学习模型
摘要:本篇从理论到实践介绍了当前超火的多模态学习模型。首先介绍了背景,将文本模态和图像模态在语义空间上对齐进行联合训练可以得到高质量的多模态embedding;然后介绍了多模态学习模型三种不同的划分方式;接着重点介绍了四种当前超火的多模态学习模型,包括VisualBERT、Unicoder-VL、VL-BERT和ViLT;最后基于Hugging Face的Transformer开源项目实践了多模态学习模型。想了解多模态学习模型并应用到业务实践的小伙伴可以多交流。
数据拾光者
2022-12-20
4270
读《浪潮之巅》-下篇
摘要:上一篇书中自有黄金屋系列6:读《浪潮之巅》-上篇 主要讲苹果、微软和雅虎的兴衰史。本篇主要讲下“不作恶”的谷歌以及IT行业中那些经典的定律,其中包括摩尔定律、安迪比尔定律、反摩尔定律、721定律、诺维格定律以及基因决定定律,这些都是帮助我们理解信息科技浪潮下这些大佬兴衰沉浮的关键。还是那句话,不管你是否从事IT行业,这是身处当今信息时代每个年轻人都应该拜读的佳作。
数据拾光者
2022-05-05
5210
读《浪潮之巅》-上篇
摘要:吴军博士的《浪潮之巅》作为记录全球信息科技产业发展最清晰、最完整也是阅读体验最棒的一本书,能拿到豆瓣9.1分可谓实至名归。信息科技浪潮奔涌了三十年,我们每个人都或多或少的被它影响和改变。通过这本《浪潮之巅》能帮助我们形成一张完整的全球信息科技产业地图。因为内容太过充实,所以分成上下两篇细细品读。本篇主要了解我们耳熟能详的苹果、微软和雅虎,这三家公司都曾经或者现在仍然是互联网巅峰的弄潮儿。不管你是否从事IT行业,这是身处当今信息时代每个年轻人都应该拜读的佳作。
数据拾光者
2022-05-05
3910
关于持续学习的一些思考
摘要:本篇主要是关于持续学习的一些思考。首先明确为什么要持续学习,因为可怕的熵增定律很多人会选择舒适躺平,而想不断进步成为二八定律中的20%头部人群必然需要逆趋势发展,通过持续学习可以帮助我们成为头部人群,更现实的意义在于持续学习可以帮助我们度过35岁职业危机;然后介绍了如何在繁忙的995工作下持续有效的学习和运动,主要包括量化学习目标、重视坚持的力量和善于利用工具。小伙伴们可以多交流。
数据拾光者
2022-05-05
5180
广告中那些趣事系列1:广告统一兴趣建模流程
摘要:这是广告系列的第一篇。广告的核心是服务广告主,为广告主圈定对应的人群从而达到好的广告转化效果。而在其中起到桥梁作用的就是标签。广告主会根据自身的性质选定一类或几类有明显特点的人群,这里用标签表示。而我们要做的就是给用户打上标签,然后提供给广告主使用。广告主选择标签,而标签后面则代表人群。本文基于实战项目介绍如何为广告主圈定人群以及如何刻画用户对标签的兴趣度得分。
数据拾光者
2022-05-05
3000
书中自有黄金屋系列:读《腾讯传》
摘要:这是书中自有黄金屋系列的第一篇:读《腾讯传》。吴晓波写的这本《腾讯传》很好的讲了腾讯从建立到现在成为互联网双雄之一的整个历程。本篇不仅仅是讲腾讯,更多的是关于我们自己青葱的回忆。胖企鹅陪伴着我从不谙世事的小毛孩,到现在步入中年成为油腻大叔,我们一起经历的太多。希望小伙伴们能从《腾讯传》有所感悟。
数据拾光者
2022-05-05
6230
广告行业中那些趣事系列53:多模态学习在CTR预估模型中的应用实践
摘要:本篇分享了多模态学习在CTR预估模型中的应用实践及效果展示。首先是背景介绍,通过多模态学习可以更好的处理多模态信息,从而得到更丰富的特征信息,可以更好的提升CTR模型效果;然后重点介绍了多模态学习在CTR模型中的应用实践及效果展示,主要包括多模态实验流程介绍、文本模态和图像模态的应用实践及效果展示和后续优化工作。对于想要将多模态学习应用到CTR预估模型中的小伙伴可能有所帮助。
数据拾光者
2022-05-05
5850
广告行业中那些趣事系列52:一个超好用的CTR开源项目FuxiCTR
摘要:本篇从理论到实践介绍了华为CTR开源项目FuxiCTR。首先是背景介绍,然后重点详解开源项目FuxiCTR,包括项目架构、支持的主流CTR算法以及在公共数据集上的效果和代码处理流程及源码介绍;最后分别简单介绍了传统CTR模型发展进程和深度学习CTR模型发展进程。对CTR模型感兴趣并希望快速应用到项目实践的小伙伴可以一起沟通交流。
数据拾光者
2022-05-05
3290
广告行业中那些趣事系列51:超牛的kaggle比赛Favorita Grocery Sales Forecasting冠军方案
摘要:本篇分享了kaggle比赛《Corporación Favorita Grocery Sales Forecasting》冠军方案。因为业务需要所以调研了商品销量预测比赛,重点学习了冠军方案的特征工程和模型构建,其中关于时间滑动窗口特征的构建非常巧妙,受益匪浅。对商品销量预测相关问题感兴趣的小伙伴可以一起沟通交流。
数据拾光者
2022-05-05
4300
广告行业中那些趣事系列50:一文看懂BERT知识蒸馏发展进程
摘要:本篇从理论上到实践介绍了BERT知识蒸馏发展进程。首先介绍了BERT类模型提升线上性能的方法以及知识蒸馏为什么有效;然后重点介绍了BERT蒸馏的主要发展进程,主要包括微调阶段蒸馏最后一层、微调阶段蒸馏中间层、预训练阶段蒸馏、预训练+微调两阶段蒸馏以及其他蒸馏方案;最后介绍了我们实际项目中BERT蒸馏实践。对BERT知识蒸馏感兴趣并希望应用到实际业务中的小伙伴可能有帮助。
数据拾光者
2022-05-05
2050
广告行业中那些趣事系列41:广告场景中NLP技术的业务应用及线上方案
摘要:本篇主要介绍了广告场景中NLP技术的业务应用和线上方案,主要介绍了三大类任务:第一类任务是文本分类任务,业务主要包括自然兴趣建模体系、搜索场景行业词包和在线分类以及商店/搜索/评论等舆情分析,同时介绍我们的线上方案以及在模型和样本上的优化实践;第二类任务是文本生成任务,介绍了头条巨量创意平台的妙笔以及我们自研的文案助手技术方案;第三类任务是相似文本召回任务,业务主要是广告算法词召回,线上主要使用基于对比学习simcse+faiss的相似文本召回方案。感兴趣的小伙伴可以多交流。
数据拾光者
2022-05-05
7320
广告行业中那些趣事系列49:oCTS:一个标注人员都可以优化分类器的训练系统
摘要:本篇主要介绍我们构建的oCTS分类器优化训练系统,一个标注人员都可以优化分类器的训练系统。首先介绍了项目背景和目标,oCTS主要针对人工可标注的数据场景又好又快的训练分类器;然后重点介绍了项目技术概要,涉及主动学习、弱监督学习、知识蒸馏等方面;接着展示了产品形态和效果;最后对项目进行了总结,并阐述未来优化方向。对于中小团队希望又快又好的训练分类器可能有所帮助。
数据拾光者
2022-05-05
3850
广告行业中那些趣事系列48:如何快速得到效果好性能快的文本分类器?
摘要:本篇主要总结了小X语音助手安全服务模型的优化实践。首先介绍了小X语音助手安全服务模型背景以及任务类型;然后重点介绍了在优化任务中的实践,包括线上算法服务介绍、第一阶段样本优化实践和第二阶段通过知识蒸馏的方式优化模型,最后分享了后续的优化思路。对于希望快速得到效果好性能快的文本分类模型的小伙伴可能有所帮助。
数据拾光者
2022-05-05
2290
广告行业中那些趣事系列47:NLP中对比学习SOTA必学模型ESimCSE
摘要:本篇从理论到实践分享了当前NLP中对比学习SOTA模型ESimCSE。首先回顾了无监督SimCSE以及存在的两个问题;然后重点详解了ESimCSE,包括ESimCSE介绍、通过词重复优化正例构建、通过动量对比优化负例构建和模型实验效果展示;最后源码实践了ESimCSE。对于想将对比学习应用到NLP场景的小伙伴可能有帮助。
数据拾光者
2022-05-05
3650
点击加载更多
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档