首页
学习
活动
专区
工具
TVP
发布

小小挖掘机

专栏作者
516
文章
866543
阅读量
237
订阅数
2021年,还能入坑NLP吗?
最近有粉丝私信我,NLP很难学,这条路能坚持走吗?有相同困惑的朋友可以一起探讨一下:
石晓文
2021-11-04
8940
为什么机器学习算法难以优化?一文详解算法优化内部机制
在机器学习中,损失的线性组合无处不在。虽然它们带有一些陷阱,但仍然被广泛用作标准方法。这些线性组合常常让算法难以调整。
石晓文
2021-05-24
9530
10大算法工程师炼丹Tricks
针对类别不平衡问题,用预测概率对不同类别的loss进行加权。Focal loss对CE loss增加了一个调制系数来降低容易样本的权重值,使得训练过程更加关注困难样本。
石晓文
2021-03-24
9150
机器学习最强调参方法!高斯过程与贝叶斯优化
机器学习模型中有大量需要事先进行人为设定的参数,比如说神经网络训练的batch-size,XGBoost等集成学习模型的树相关参数,我们将这类不是经过模型训练得到的参数叫做超参数(Hyperparameter)。人为的对超参数调整的过程也就是我们熟知的调参。
石晓文
2021-03-24
3.1K0
机器学习领域读博这段旅程的一些感悟
一位来自Cornell大学的博士给出了他6年博士旅程的一些个人的经验和建议:小步迭代、策略性阅读、主动、专注、坚持、记笔记、重视社区、拓展视野,无论是工程还是研究,都很有用。
石晓文
2021-01-08
4580
怎样将Embedding融入传统机器学习框架?
LR本身是一个经典的CTR模型,广泛应用于推荐/广告系统。输入的特征大多数是离散型/组合型。那么对于Embedding技术,如何在不使用深度学习模型的情况下(假设就是不能用DNN),融入到LR框架中呢?让我们来看看清华大学的博士石塔西大佬是如何解答的。
石晓文
2020-12-23
1.7K0
比监督学习做的更好:半监督学习
监督学习是人工智能领域的第一种学习类型。从它的概念开始,无数的算法,从简单的逻辑回归到大规模的神经网络,都已经被研究用来提高精确度和预测能力。
石晓文
2020-12-08
1.2K0
【时空序列】TKDE2020-时空图数据挖掘深度学习技术全面综述
Deep learning for Spatio-Temporal Data Mining: A Survey
石晓文
2020-12-08
3.1K0
推荐系统遇上深度学习(一零二)-[百度]展示广告中的样本优化
本文介绍的是CIKM20上百度发表的一篇有关展示广告召回阶段样本优化的文章,论文名称是《Sample Optimization For Display Advertising》。文章提出了多种样本优化的方法,极大提升了线上广告收入,一起来学习一下。
石晓文
2020-11-24
1.4K0
Batch Normalization的诅咒
Batch Normalization确实是深度学习领域的重大突破之一,也是近年来研究人员讨论的热点之一。Batch Normalization是一种被广泛采用的技术,使训练更加快速和稳定,已成为最有影响力的方法之一。然而,尽管它具有多种功能,但仍有一些地方阻碍了该方法的发展,正如我们将在本文中讨论的那样,这表明做归一化的方法仍有改进的余地。
石晓文
2020-11-09
8330
多目标学习在推荐系统中的应用
一般来说在搜索和推荐等信息检索场景下,最基础的一个目标就是用户的 CTR,即用户看见了一篇内容之后会不会去点击阅读。但其实用户在产品上的行为是多种多样的。比如在微信的订阅号中,用户可以对某个内容进行点赞,可以收藏这个内容,可以把它分享出去,甚至某篇文章如果他觉得比较符合他的兴趣,也可以进行留言。
石晓文
2020-11-09
3.4K0
重磅盘点:过去8年中深度学习最重要的想法汇总
原文:Deep Learning’s Most Important Ideas[1]
石晓文
2020-11-09
6610
真正想做算法的,不要害怕内卷
也不知道从啥时候开始,内卷这个词就火起来了。具体到数据和算法等技术岗位方面,内卷可以理解为一年比一年高的入行门槛以及愈发激烈的同行竞争。比如说前段时间知乎上的一个“如何看待2021年秋招算法岗灰飞烟灭?”问题,就引发了将近500万人的围观。
石晓文
2020-11-09
7110
推荐系统中的排序学习
“ 本文首先介绍排序学习的三种主要类别,然后详细介绍推荐领域最常用的两种高层排序学习算法框架:BPR和LambdaMART。因为排序学习的算法和实践大都来源于信息检索,一些理论也必须从信息检索的领域说起,所以本文也会涉及一些的信息检索、搜索方面的理论知识,但重点依然会放在推荐领域排序学习的应用思路。”
石晓文
2020-10-09
2.4K0
one-hot encoding不是万能的,这些分类变量编码方法你值得拥有
one-hot encoding 是一种被广泛使用的编码方法,但也会造成维度过高等问题。因此,medium 的一位博主表示,在编码分类变量方面,我们或许还有更好的选择。
石晓文
2020-10-09
1.2K0
什么样的模型是好的模型?
导读:什么样的模型是好的模型?相信这是每一个数据分析师和大数据AI算法工程师都曾经默默思考过的问题。
石晓文
2020-10-09
1.5K0
秋招系列 | 推荐岗史上最强面经来袭(上)
背景为985本硕&计算机科班,研究生期间方向主要为推荐算法,投递的方向主要为推荐/广告/机器学习。目前国内已从A收割到Z。本科做工程相关,研究生期间转算法,发表过CCF A类论文一作1篇,有过大厂实习经验、开源项目和机器学习比赛“划水“经历。
石晓文
2020-09-15
1.2K0
【时间序列】DA-RNN: 基于双阶段注意力机制的循环神经网络
论文题目为《基于双阶段注意力机制的循环神经网络》,文章本质上还是基于Seq2Seq的模型,结合了注意力机制实现的时间序列的预测方法,文章的一大亮点是:不仅在解码器的输入阶段引入注意力机制,还在编码器阶段引入注意力机制,编码器的阶段的注意力机制实现了特征选取和把握时序依赖关系的作用。
石晓文
2020-09-15
1.5K0
KDD 2020 | 多任务保量优化算法在优酷视频场景的实践
导读:今天分享一下阿里优酷视频在KDD 2020上的一篇关于新热视频保量分发上的实践,建立了新热内容曝光敏感模型并给出了一种多目标优化保量的算法,推荐工业界实战干货论文,值得细读。
石晓文
2020-09-15
2.1K0
机器学习模型什么时候需要做数据标准化?
这个问题笔者也思考过,只不过不够系统,观点也比较单一,所以才有了上图中的【变量单位之间数量级差异过大】的回答。就着这个话题,笔者查阅相关资料,相对这个问题进行一个详细的阐述。
石晓文
2020-09-07
2.4K0
点击加载更多
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档