学习
实践
活动
工具
TVP
写文章

炼丹笔记

LV1
举报
发表了文章

微信大数据挑战赛:第1周周星星方案汇总

多模态短视频分类是视频理解领域的基础技术之一,在安全审核、推荐运营、内容搜索等领域有着十分非常广泛的应用。一条短视频中通常包含有三种模态信息,即文本、音...

炼丹笔记
发表了文章

Prompt:Fine-tune之后的新范式

全监督学习,即仅在目标任务的输入输出样本数据集上训练特定任务模型,长期以来在许多机器学习任务中发挥着核心作用,同样的,全监督学习在 NLP 领域也非常重要。但是...

炼丹笔记
发表了文章

有趣的知识点:深度学习和互联网行业「黑话」指南

炼丹笔记
发表了文章

阿里天池算法大赛:中医药领域的问题生成冠军方案

UniLM也是一个多层Transformer网络,跟bert类似,但是UniLM能够同时完成三种预训练目标,如上述表格所示,几乎囊括了上述模型的几种预训练方式,...

炼丹笔记
发表了文章

降低数据大小的四大绝招。

在非常多的问题中,例如商品推荐数据存储(大量的用户和商品,还有购买金额等信息),金融数据存储(大量的标的,价格等),我们不可避免的都会碰到数据过大的问题,如果对...

炼丹笔记
发表了文章

优化PyTorch速度和内存效率的技巧汇总

深度学习模型的训练/推理过程涉及很多步骤。在有限的时间和资源条件下,每个迭代的速度越快,整个模型的预测性能就越快。我收集了几个PyTorch技巧,以最大化内存使...

炼丹笔记
发表了文章

年龄不是上限!我只是按照自己的兴趣专注于机器学习

我只是按照自己的兴趣,尽可能多地专注于学习机器学习。年龄只是一个数字,何时开始以及可以实现多少没有上限。 Philip是Kaggle Competitions ...

炼丹笔记
发表了文章

ICLR 2022:软标签情况下如何设计主动学习策略?

ICLR (International Conference on Learning Representation) 国际表征学习大会是公认的深度学习领域国际顶...

炼丹笔记
发表了文章

重新审视半监督学习的伪标签

Curriculum Labeling (CL),在每个自训练周期之前重新启动模型参数,优于伪标签 (PL)。

炼丹笔记
发表了文章

暴力特征工程汇总

特征工程的问题往往需要具体问题具体分析,当然也有一些暴力的策略,可以在竞赛初赛前期可以带来较大提升,而很多竞赛往往依赖这些信息就可以拿到非常好的效果,剩余的则需...

炼丹笔记
发表了文章

XGBoost如何用2GB内存训练100GB的数据!

在大规模数据集进行读取进行训练的过程中,迭代读取数据集是一个非常合适的选择,在Pytorch中支持迭代读取的方式。接下来我们将介绍XGBoost的迭代读取的方式...

炼丹笔记
发表了文章

ACL 2022:融合标签语义的双塔BERT模型

这是一篇来自于 ACL 2022 的文章,总体思想就是在 meta-learning 的基础上,采用双塔 BERT 模型分别来对文本字符和对应的label进行编...

炼丹笔记
发表了文章

一篇适合新手的深度学习综述!

论文地址:https://arxiv.org/pdf/1807.08169v1.pdf

炼丹笔记
发表了文章

短视频推荐视频时长bias问题

短视频(比如快手、抖音和视频号等)日益成为人们日常生活中最重要娱乐方式。短视频推荐需要解决的一个基础问题是,如何准确地预估用户对某个视频的观看时长。观看时长建模...

炼丹笔记
发表了文章

PyTorch 常用 Tricks 总结

设置当前使用的GPU设备为0, 1号两个设备,名称依次为 /gpu:0、/gpu:1: os.environ["CUDA_VISIBLE_DEVICES"] ...

炼丹笔记
发表了文章

防止模型过拟合的方法汇总

其实正则化的本质很简单,就是对某一问题加以先验的限制或约束以达到某种特定目的的一种手段或操作。在算法中使用正则化的目的是防止模型出现过拟合。一提到正则化,很多同...

炼丹笔记
发表了文章

ACL最佳论文奖得主给新入行研究者的一点建议

接下来我应该做什么项目呢?对于从本科生到博士生及从事更深研究的任何人来说,这是一个反复出现的问题。其实,这个问题可以分解成以下几步走:第一步提出想法,第二步组织...

炼丹笔记
发表了文章

树之尽头,炁体源流

目前已经存在非常多可视化树模型的策略,此处我们给出另外一种最新的树模型可视化工具包--pybaobabdt,该工具包提供了可视化分析方法的双重示例。可以通过交互...

炼丹笔记
发表了文章

基于有效样本的类别不平衡损失CB-Loss

本文综述了康奈尔大学、康奈尔科技、谷歌Brain和Alphabet公司的基于有效样本数的类平衡损失(CB损失)。在本文中,设计了一种重新加权的方案,利用...

炼丹笔记
发表了文章

一石二鸟:推荐算法多目标建模技巧

在做推荐系统时,在系统刚刚搭建时,针对业务目标我们可能只需要去优化CTR或者CVR即可,但是不同的推荐场景下的优化目标不同。同时,随着系统的不断迭代,我们希望...

炼丹笔记

个人简介

个人成就

扫码关注腾讯云开发者

领取腾讯云代金券