数据拾光者

从部署到实践，即刻拥有你的专属龙虾助手

OpenClaw开发者专区🦞🦞🦞

自行/邀约他人一键搬运博客，享价值百万资源包

腾讯云自媒体同步曝光计划

往期视频·干货材料·成员作品 最新动态

腾讯技术创作特训营知识专栏

新邀入驻腾讯云开发者社区，福利多多！

摘要：本篇从理论到实践介绍了超好用的无监督关键词提取算法Keybert。首先介绍了调研背景；然后重点介绍了什么是Keybert、KeyBERT提取关键词流程和如何通过MSS和MMR算法解决多样性问题；最后从实践的角度介绍了KeyBERT的安装、使用以及影响效果的因素。对于希望使用无监督学习算法抽取关键词的小伙伴可能有帮助。

广告行业中那些趣事系列60：详解超好用的无监督关键词提取算法Keybert

摘要：本篇主要从理论到实践介绍了当前超火的提示学习Prompt Learning。首先介绍了背景，从NLP四大范式引出预训练+微调和当前大火的提示学习Prompt Learning。相比于预训练+微调是让预训练模型适配下游任务，提示学习Prompt Learning则是让下游任务来适配预训练模型，将几乎所有NLP任务统一转化成语言模型问题，提升预训练模型的利用率；然后重点介绍了Prompt Learning，主要包括Prompt的作用、Prompt文本分类流程、Prompt形状、如何设计Prompt和Prompt Learning的优势；最后基于百度paddleNLP实战Prompt Learning，在小样本场景下的多分类任务中对比了预训练+微调和Prompt Learning的效果，使用同样的预训练模型Prompt Learning提升效果很明显。对于希望将Prompt Learning应用到实际业务中的小伙伴可能有帮助。

广告行业中那些趣事系列59：详解当前大火的提示学习prompt learning

摘要：本篇主要总结了一下我在实际项目中对于文本分类任务的优化策略，主要包括预训练模型优化、语义embedding优化、分类层优化、使用知识蒸馏优化、使用标签内容信息优化、优化损失函数、通过半监督和主动学习优化、通过样本增强技术优化。对于想要提升线上文本分类任务效果的小伙伴可能有所帮助。

广告行业中那些趣事系列58：当我们面对文本分类任务的时，可以使用哪些优化策略

摘要：本篇从理论到实践介绍了Transformer中的位置编码。首先介绍了位置编码的作用以及主要实现方式；然后重点介绍了主流的位置编码方式，包括训练式位置编码、三角函数式位置编码和相对位置编码，同时基于开源项目bert4keras源码实践了各种位置编码。对Transformer中位置编码的知识和源码实践感兴趣的小伙伴可以多交流。

广告行业中那些趣事系列57：从理论到实战一网打尽Transformer中的位置编码

摘要：本篇主要介绍了多模态学习模型VILT几个实用的源码实践，包括使用VILT预训练模型获取pretrain embedding、微调VILT、VILT模型预估Inference、VILT掩码模型、使用VILT根据图片找到语义匹配的文本和使用VILT根据两张图片和一条文本判断是否匹配。对于希望将VILT模型应用到业务实践的小伙伴可能有帮助。

广告行业中那些趣事系列56：超实用的多模态学习模型VILT源码实践

摘要：本篇主要介绍了百度在多模态学习领域的成果UNIMO模型。首先是背景介绍，针对当前主流多模态学习模型存在训练语料少和模态缺失导致模型效果下降的问题，百度提出了UNIMO统一学习模型；然后重点介绍了UNIMO模型，主要包括UNIMO如何解决训练数据稀少和模态缺失问题、UNIMO模型输入、跨模态对比学习的UNIMO、UNIMO中视觉学习和文本学习以及UNIMO模型效果；最后介绍了UNIMO开源项目工程。对多模态学习感兴趣并且希望应用到项目实践的小伙伴可能有所帮助。

广告行业中那些趣事系列55：文本和图像领域大一统的UNIMO模型详解

摘要：本篇从理论到实践介绍了当前超火的多模态学习模型。首先介绍了背景，将文本模态和图像模态在语义空间上对齐进行联合训练可以得到高质量的多模态embedding；然后介绍了多模态学习模型三种不同的划分方式；接着重点介绍了四种当前超火的多模态学习模型，包括VisualBERT、Unicoder-VL、VL-BERT和ViLT；最后基于Hugging Face的Transformer开源项目实践了多模态学习模型。想了解多模态学习模型并应用到业务实践的小伙伴可以多交流。

广告行业中那些趣事系列54：从理论到实践学习当前超火的多模态学习模型

摘要：上一篇书中自有黄金屋系列6：读《浪潮之巅》-上篇 主要讲苹果、微软和雅虎的兴衰史。本篇主要讲下“不作恶”的谷歌以及IT行业中那些经典的定律，其中包括摩尔定律、安迪比尔定律、反摩尔定律、721定律、诺维格定律以及基因决定定律，这些都是帮助我们理解信息科技浪潮下这些大佬兴衰沉浮的关键。还是那句话，不管你是否从事IT行业，这是身处当今信息时代每个年轻人都应该拜读的佳作。

读《浪潮之巅》-下篇

摘要：吴军博士的《浪潮之巅》作为记录全球信息科技产业发展最清晰、最完整也是阅读体验最棒的一本书，能拿到豆瓣9.1分可谓实至名归。信息科技浪潮奔涌了三十年，我们每个人都或多或少的被它影响和改变。通过这本《浪潮之巅》能帮助我们形成一张完整的全球信息科技产业地图。因为内容太过充实，所以分成上下两篇细细品读。本篇主要了解我们耳熟能详的苹果、微软和雅虎，这三家公司都曾经或者现在仍然是互联网巅峰的弄潮儿。不管你是否从事IT行业，这是身处当今信息时代每个年轻人都应该拜读的佳作。

读《浪潮之巅》-上篇

摘要：本篇主要是关于持续学习的一些思考。首先明确为什么要持续学习，因为可怕的熵增定律很多人会选择舒适躺平，而想不断进步成为二八定律中的20%头部人群必然需要逆趋势发展，通过持续学习可以帮助我们成为头部人群，更现实的意义在于持续学习可以帮助我们度过35岁职业危机；然后介绍了如何在繁忙的995工作下持续有效的学习和运动，主要包括量化学习目标、重视坚持的力量和善于利用工具。小伙伴们可以多交流。

关于持续学习的一些思考

摘要：这是广告系列的第一篇。广告的核心是服务广告主，为广告主圈定对应的人群从而达到好的广告转化效果。而在其中起到桥梁作用的就是标签。广告主会根据自身的性质选定一类或几类有明显特点的人群，这里用标签表示。而我们要做的就是给用户打上标签，然后提供给广告主使用。广告主选择标签，而标签后面则代表人群。本文基于实战项目介绍如何为广告主圈定人群以及如何刻画用户对标签的兴趣度得分。


广告中那些趣事系列1：广告统一兴趣建模流程

摘要：本篇分享了多模态学习在CTR预估模型中的应用实践及效果展示。首先是背景介绍，通过多模态学习可以更好的处理多模态信息，从而得到更丰富的特征信息，可以更好的提升CTR模型效果；然后重点介绍了多模态学习在CTR模型中的应用实践及效果展示，主要包括多模态实验流程介绍、文本模态和图像模态的应用实践及效果展示和后续优化工作。对于想要将多模态学习应用到CTR预估模型中的小伙伴可能有所帮助。 

广告行业中那些趣事系列53：多模态学习在CTR预估模型中的应用实践

摘要：本篇从理论到实践介绍了华为CTR开源项目FuxiCTR。首先是背景介绍，然后重点详解开源项目FuxiCTR，包括项目架构、支持的主流CTR算法以及在公共数据集上的效果和代码处理流程及源码介绍；最后分别简单介绍了传统CTR模型发展进程和深度学习CTR模型发展进程。对CTR模型感兴趣并希望快速应用到项目实践的小伙伴可以一起沟通交流。 

广告行业中那些趣事系列52：一个超好用的CTR开源项目FuxiCTR

摘要：本篇分享了kaggle比赛《Corporación Favorita Grocery Sales Forecasting》冠军方案。因为业务需要所以调研了商品销量预测比赛，重点学习了冠军方案的特征工程和模型构建，其中关于时间滑动窗口特征的构建非常巧妙，受益匪浅。对商品销量预测相关问题感兴趣的小伙伴可以一起沟通交流。


广告行业中那些趣事系列51：超牛的kaggle比赛Favorita Grocery Sales Forecasting冠军方案

摘要：本篇从理论上到实践介绍了BERT知识蒸馏发展进程。首先介绍了BERT类模型提升线上性能的方法以及知识蒸馏为什么有效；然后重点介绍了BERT蒸馏的主要发展进程，主要包括微调阶段蒸馏最后一层、微调阶段蒸馏中间层、预训练阶段蒸馏、预训练+微调两阶段蒸馏以及其他蒸馏方案；最后介绍了我们实际项目中BERT蒸馏实践。对BERT知识蒸馏感兴趣并希望应用到实际业务中的小伙伴可能有帮助。

广告行业中那些趣事系列50：一文看懂BERT知识蒸馏发展进程

摘要：本篇主要介绍了广告场景中NLP技术的业务应用和线上方案，主要介绍了三大类任务：第一类任务是文本分类任务，业务主要包括自然兴趣建模体系、搜索场景行业词包和在线分类以及商店/搜索/评论等舆情分析，同时介绍我们的线上方案以及在模型和样本上的优化实践；第二类任务是文本生成任务，介绍了头条巨量创意平台的妙笔以及我们自研的文案助手技术方案；第三类任务是相似文本召回任务，业务主要是广告算法词召回，线上主要使用基于对比学习simcse+faiss的相似文本召回方案。感兴趣的小伙伴可以多交流。

广告行业中那些趣事系列41：广告场景中NLP技术的业务应用及线上方案

摘要：本篇主要介绍我们构建的oCTS分类器优化训练系统，一个标注人员都可以优化分类器的训练系统。首先介绍了项目背景和目标，oCTS主要针对人工可标注的数据场景又好又快的训练分类器；然后重点介绍了项目技术概要，涉及主动学习、弱监督学习、知识蒸馏等方面；接着展示了产品形态和效果；最后对项目进行了总结，并阐述未来优化方向。对于中小团队希望又快又好的训练分类器可能有所帮助。


广告行业中那些趣事系列49：oCTS：一个标注人员都可以优化分类器的训练系统

摘要：本篇主要总结了小X语音助手安全服务模型的优化实践。首先介绍了小X语音助手安全服务模型背景以及任务类型；然后重点介绍了在优化任务中的实践，包括线上算法服务介绍、第一阶段样本优化实践和第二阶段通过知识蒸馏的方式优化模型，最后分享了后续的优化思路。对于希望快速得到效果好性能快的文本分类模型的小伙伴可能有所帮助。

广告行业中那些趣事系列48：如何快速得到效果好性能快的文本分类器？

摘要：本篇从理论到实践分享了当前NLP中对比学习SOTA模型ESimCSE。首先回顾了无监督SimCSE以及存在的两个问题；然后重点详解了ESimCSE，包括ESimCSE介绍、通过词重复优化正例构建、通过动量对比优化负例构建和模型实验效果展示；最后源码实践了ESimCSE。对于想将对比学习应用到NLP场景的小伙伴可能有帮助。


广告行业中那些趣事系列47：NLP中对比学习SOTA必学模型ESimCSE

摘要：本篇重点介绍了Transformer中attention的来龙去脉。首先回顾了Transformer中注意力机制的计算流程；然后通过图解的方式详细介绍了self-attention，剖析公式理解self-attention核心是经过注意力机制加权求和；最后对比了Transformer中attention和self-attention的区别和联系，不仅要理解注意力机制的计算流程，而且要明白注意力机制背后的意义。对于希望进一步了解Transformer中attention机制的小伙伴可能有所帮助。


广告行业中那些趣事系列46：一文看懂Transformer中attention的来龙去脉

文章

问答

视频

教程

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云智能顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

EdgeOne AI 安全实战专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋

腾讯云代码助手

云原生构建

TAPD 敏捷项目管理

Cloud Studio

SDK中心

API中心

命令行工具

涵盖代码开发、场景应用、自动测试全流程，助你从零构建专属AI助手

一站式MCP教程库，解锁AI应用新玩法

聚焦“写作效率、视觉美观与运行性能”三方面进行全面升级，为您提供更高效、稳定的创作环境

社区富文本&Markdown编辑器全新改版上线，欢迎大家体验!

诚挚邀请您参与本次调研，分享您的真实使用感受与建议。您的反馈至关重要，感谢您的支持与参与！

社区新版编辑器体验调研

腾讯云开发者社区推出了数据拾光者专栏，为你提供了数据拾光者的相关文章，致力于帮助开发者快速成长与发展。

数据拾光者

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐