首页
学习
活动
专区
工具
TVP
发布

海边的拾遗者

专栏作者
49
文章
61778
阅读量
19
订阅数
技术经理眼中的从零搭建推荐体系—全链路
随着信息技术的迅速发展和信息内容的日益增长,“信息过载”问题愈来愈严重,愈发带来很大的信息负担。推荐系统可以有效缓解此难题,从而得到推崇并加以广泛应用。 简单来说:推荐系统是通过挖掘用户与项目之间的二元关系,帮助用户从大量数据中发现其可能感兴趣的项目如网页、服务、商品、人等,并生成个性化推荐以满足个性化需求。目前市场上对于电子商务的推荐系统有亚马逊、阿里巴巴、豆瓣网、当当网等,信息检索的有谷歌、雅虎、百度等,以及在其它周边领域广泛运用如移动应用、电子旅游、互联网广告等。本文只阐述网页内容,特制新闻方面的项目体系搭建。
guichen1013
2022-09-22
3300
KDD21 | 如何纠正推荐系统中的流行度偏差
题目:Model-Agnostic Counterfactual Reasoning for Eliminating Popularity Bias in Recommender System
guichen1013
2022-09-22
1.5K0
领英推荐系统优化:为用户带来更平等的人脉
最近十年来,个性化推荐技术可能是互联网世界中发展最快、影响最深远的技术种类之一。从流媒体视频到电商购物,从新闻浏览到私房音乐,个性化推荐已经深入到了社会生活的诸多领域,极大改变了人们的生活方式与行为习惯。
guichen1013
2022-09-22
2920
「我」做算法工作的小反思!
本文是作者在算法岗位上的工作反思,含算法篇和成长篇两部分,希望为在学习或在工作的大家提供一个经验参考。
guichen1013
2022-09-22
2450
一文了解预训练语言模型!
现有的神经网络在进行训练时,一般基于后向传播(Back Propagation,BP)算法,先对网络中的参数进行随机初始化,再利用随机梯度下降(Stochastic Gradient Descent,SGD)等优化算法不断优化模型参数。
guichen1013
2022-09-22
7930
算法工程师的核心竞争力——落地能力
大家好,这里是桔了个仔,目前是一名Data Scientist(不太想翻译成数据科学家,毕竟感觉自己就是个工程师),过去几年在做基于机器学习的风控与合规系统,参与了一些算是成功的项目,和团队一起,成功在几个跨国银行那里落地了我们开发的系统。
guichen1013
2022-09-22
4860
我的一年数据科学学习之旅
Eric Weber(没错,就是那个养着一条可爱小狗的帅哥)最近在 LinkedIn 上发表了一篇文章,讲了十件他希望开始数据科学职业时能少做的事情。本文就是我对这十件事所经历的过程。你应该先读读他的文章。下面是截图。
guichen1013
2022-09-22
2410
【资源推荐】图神经网络(GNN)近年论文分类集锦
由于微信平台算法改版,公号内容将不再以时间排序展示,如果大家想第一时间看到我们的推送,强烈建议星标我们和给我们多点点【在看】。星标具体步骤为:
guichen1013
2021-02-19
1K0
元学习综述 | 进入Meta Learning的世界(一)
Meta learning也经常被称为是learning to learn,也就是学习学习的方法。
guichen1013
2021-02-15
1.3K0
深度好文 | 重返研一,你会怎么过?
假设你是2020年9月入学的研究生,那么,2023年6月是你的理论毕业时间,但你的实际毕业时间应该是2023年1月,因为从2023年2月第六学期开始的时候你就要准备毕业论文的答辩和盲审了,因此你的毕业论文初稿应该在2023年1月写完。
guichen1013
2021-01-26
5080
广告行业中那些趣事系列:从理论到实战BERT知识蒸馏
摘要:本篇主要分享从理论到实战知识蒸馏。首先讲了下为什么要学习知识蒸馏。一切源于业务需求,BERT这种大而重的模型虽然效果好应用范围广,但是很难满足线上推理的速度要求,所以需要进行模型加速。通常主流的模型加速方法主要包括剪枝、因式分解、权值共享、量化和知识蒸馏等;然后重点讲解了知识蒸馏,主要包括知识蒸馏的作用和原理、知识蒸馏的流程以及知识蒸馏的效果等;最后理论联系实战,讲解了实际业务中主要把BERT作为老师模型去教作为学生模型的TextCNN来学习知识,从而使TextCNN不仅达到了媲美BERT的分类效果,而且还能很好的满足线上推理速度的要求。对知识蒸馏感兴趣的小伙伴可以一起沟通交流。
guichen1013
2021-01-26
5740
广告行业中那些趣事系列20:GPT、GPT-2到GPT-3,你想要的这里都有
摘要:本文是广告系列第二十篇,主要介绍了GPT系列模型的发展流程。首先介绍了NLP中超强但不秀的GPT模型。GPT属于典型的预训练+微调的两阶段模型,将Transformer作为特征抽取器,使用单向语言模型,属于NLP中非常重要的工作,同时还介绍了GPT模型下游如何改造成不同的NLP任务;然后介绍了有点火的GPT-2。相比于GPT来说GPT-2使用了更多更好的训练数据,同时直接使用无监督的方式来完成下游任务;最后介绍了巨无霸GPT-3。相比于GPT-2,GPT-3直接把模型的规模做到极致,使用了45TB的训练数据,拥有175B的参数量,真正诠释了暴力出奇迹。GPT-3模型直接不需要微调了,不使用样本或者仅使用极少量的样本就可以完成下游NLP任务,尤其在很多数据集中模型的效果直接超越了最好效果的微调模型,真正帮助我们解决了下游任务需要标注语料的问题。对GPT系列模型感兴趣的小伙伴可以一起沟通交流。
guichen1013
2021-01-21
7450
Papers with Code 2020 全年回顾
2020年Papers with Code 中最顶流的论文,代码和benchmark。
guichen1013
2021-01-08
3960
一文带你详尽 Lifelong Learning —— 终生学习
Lifelong learning终生学习,又名continuous learning,increment learning,never ending learning。通常机器学习中,单个模型只解决单个或少数几个任务。对于新的任务,我们一般重新训练新的模型。而LifeLong learning,则先在task1上使用一个模型,然后在task2上仍然使用这个模型,一直到task n。Lifelong learning探讨的问题是,一个模型能否在很多个task上表现都很好。如此下去,模型能力就会越来越强。这和人类不停学习新的知识,从而掌握很多不同知识,是异曲同工的。
guichen1013
2021-01-08
5.4K1
哥大读博五年总结
「 开始写这边总结的时候是三月,纽约成了疫情震中,看着新闻报道里的中央公园,中国城,第五大道,往事浮现,于是开始写这篇回顾。。陆陆续续一直没写完,转眼年底了,加州疫情更糟。。前几天看新闻说Cathedral教堂发生枪击案,震惊。。这教堂就在我当时住的学校公寓旁边,每天出门都可以看到。。遂又忆起每天上学的时光,于是决定把这篇总结写完,会分几个part放出来。快圣诞了,希望疫情早日控制住,一切安好 」
guichen1013
2021-01-08
7570
广告行业中那些趣事系列:从理论到实践解决文本分类中的样本不均衡问题
摘要:本篇主要从理论到实践解决文本分类中的样本不均衡问题。首先讲了下什么是样本不均衡现象以及可能带来的问题;然后重点从数据层面和模型层面讲解样本不均衡问题的解决策略。数据层面主要通过欠采样和过采样的方式来人为调节正负样本比例,模型层面主要是通过加权Loss,包括基于类别Loss、Focal Loss和GHM Loss三种加权Loss函数;最后讲了下其他解决样本不均衡的策略,可以通过调节阈值修改正负样本比例和利用半监督或自监督学习解决样本不均衡问题。需要说明下上面解决样本不均衡问题的策略不仅仅适用于文本分类任务,还可以扩展到其他的机器学习任务中。对于希望解决样本不均衡问题的小伙伴可能有所帮助。
guichen1013
2021-01-08
8560
硬核干货之EM算法推导
EM算法到底是什么,公式推导怎么去理解?本文从调查学校学生的身高分布的案例为切入口讲解极大似然估计,然后过渡到EM算法,讲解EM算法的概念以及核心idea,最后根据吴恩达的课程笔记讲解EM算法的推导公式。
guichen1013
2021-01-08
6780
综述系列 | 多模态深度学习中的网络结构设计和模态融合方法汇总
多模态深度学习主要包含三个方面:多模态学习表征,多模态信号融合以及多模态应用,而本文主要关注计算机视觉和自然语言处理的相关融合方法,包括网络结构设计和模态融合方法(对于特定任务而言)。本文讲述了三种融合文本和图像的方法:基于简单操作的,基于注意力的,基于张量的方法。
guichen1013
2020-12-23
3.7K0
一个真实数据集的完整机器学习解决方案(上)
我们到底应该怎么学会、灵活使用机器学习的方法?技术宅做过小小的调研,许多同学会选择一本机器学习的书籍,或是一门机器学习的课程来系统性地学习。而在学完书本、课程后,并不清楚如何将这些理论、技术应用到实际的项目流程中。
guichen1013
2020-12-22
1.3K0
【综述笔记】Graph Neural Networks in Recommender Systems
如今推荐系统的研究非常火热,GNN也在很多领域表现优异。推荐系统主要的挑战是从历史交互(historical interactions)和边信息(side information)中学习有效的用户(user)和物品(item)表示,由于很多信息具有图结构,而且GNN擅长表示学习,所以很多工作将GNN应用到推荐系统中。
guichen1013
2020-12-22
1.4K0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档