首页
学习
活动
专区
工具
TVP
发布

小小挖掘机

专栏作者
516
文章
859502
阅读量
237
订阅数
推荐系统遇上深度学习(一二八)-深度交叉注意力乘积网络DCAP
本文是2022年的第一篇文章,给大家带来CIKM2021上中稿的一篇文章,提出了Deep Cross Attentional Product Network(以下简称DCAP),在显式建模高阶特征交互的基础上,引入自注意力机制来刻画不同交叉特征对于预测的重要性,一起来看一下。
石晓文
2022-01-05
6040
【时空序列】TKDE2020-时空图数据挖掘深度学习技术全面综述
Deep learning for Spatio-Temporal Data Mining: A Survey
石晓文
2020-12-08
3K0
one-hot encoding不是万能的,这些分类变量编码方法你值得拥有
one-hot encoding 是一种被广泛使用的编码方法,但也会造成维度过高等问题。因此,medium 的一位博主表示,在编码分类变量方面,我们或许还有更好的选择。
石晓文
2020-10-09
1.2K0
什么样的模型是好的模型?
导读:什么样的模型是好的模型?相信这是每一个数据分析师和大数据AI算法工程师都曾经默默思考过的问题。
石晓文
2020-10-09
1.4K0
不要再对类别变量进行独热编码了
独热编码,也称为dummy变量,是一种将分类变量转换为若干二进制列的方法,其中1表示属于该类别的行。
石晓文
2020-09-07
2K0
ML&DEV[16] | 算法工程师内功修炼
所谓算法,所谓人工智能,很多媒体,或者是一些教程,甚至是现在的主流论文,很容易地会把大家的思路带入到各种深度学习(没错,机器学习都已经out那种)等之类所谓比较高端的东西去了,于是大家会花很多时间在模型上,无论是学习本身,还是在日常工程中,在一些实践中,我逐步想明白,模型固然重要,但只学模型,翻翻论文,读读博客,只能让缓解我们对知识的焦虑,能让自己觉得“我的水平提升了”,但是是否真的提升了,这个事情要好好想想。
石晓文
2020-07-03
5280
算法工程师如何应对业务方和老板的灵魂拷问?
潘乱老师的文章中有一段叙述,描述了 Robin 经常反馈 badcase 的情况:
石晓文
2020-06-17
5180
一文详解数据归约的四种途径
数据归约是在保证数据信息量的基础上,尽可能精简数据量。筛选和降维是数据归约的重要手段,尤其在数据量大且维度高的情况下,可以有效地节约存储空间和计算时间。反之,当数据量不多,或者现有存储和计算资源能满足分析和预测时不一定需要降维,因为任何的归约都会造成数据损失。
石晓文
2020-05-26
2K0
深度学习100问-12:深度学习有哪些经典数据集?
很多朋友在学习了神经网络和深度学习之后,早已迫不及待要开始动手实战了。第一个遇到的问题通常就是数据。作为个人学习和实验来说,很难获得像工业界那样较高质量的贴近实际应用的大量数据集,这时候一些公开数据集往往就成了大家通往AI路上的反复摩擦的对象。
石晓文
2020-03-24
6870
终极PK:数据分析 VS 数据挖掘 VS 数据科学家
一直以来有人问:“ 数据分析 VS 数据挖掘 VS 数据科学家,它们到底有什么不同?入行大数据的话该怎么选?” 估计 90% 程序员,包括一些数据相关工作的⼩伙伴,都给不出准确回答。最近整理了这张对比长图,来回答这个问题!PS. 被问次数太多了,实属无奈
石晓文
2020-03-06
1K0
推荐系统与精细化运营
随着大数据与人工智能(AI)技术的发展与成熟,国家政策层面对大数据与人工智能技术、创新、创业层面的支持,企业越来越意识到数据和AI技术的价值,并逐步认可数据是企业的核心资产。怎么利用大数据和AI技术从这些价值密度低、源源不断地产生的海量数据中挖掘商业价值,提升公司的决策力和竞争力,是每个提供产品/服务的公司(特别是toC互联网公司)必须思考和探索的问题。
石晓文
2020-03-05
1.3K0
时空循环卷积神经网络用于交通速度预测
《Spatiotemporal Recurrent Convolutional Networks for Traffic Prediction in Transportation Networks》。
石晓文
2020-02-25
8000
31个惊艳的数据可视化作品,让你感受“数据之美”!
在一个信息大爆炸的时代,每天都有很多的新消息、新发现、新趋势向我们狂轰乱炸而来。在这个过程中,我们既是数据的生产者,也是数据的使用者,然而初次获取和存储的原始数据总是杂乱无章的。
石晓文
2019-12-04
8150
基于 Python 的 11 种经典数据降维算法
网上关于各种降维算法的资料参差不齐,同时大部分不提供源代码。这里有个 GitHub 项目整理了使用 Python 实现了 11 种经典的数据抽取(数据降维)算法,包括:PCA、LDA、MDS、LLE、TSNE 等,并附有相关资料、展示效果;非常适合机器学习初学者和刚刚入坑数据挖掘的小伙伴。
石晓文
2019-12-02
7670
easyeda,一个简单实用的探索性数据分析工具
在算法工程师的日常工作中,探索性数据分析(Exploratory Data Analysis)是一种常见的任务。通过分析数据的缺失情况,分布情况,以及和标签的相关性等,数据EDA可以帮助算法工程师评估数据的质量,了解数据的特点,为特征工程提供方向指引,并对后续建立的模型能够达到的效果上限形成初步预期。
石晓文
2019-11-21
6710
Pandas中文官档 ~ 基础用法1
head() 与 tail() 用于快速预览 Series 与 DataFrame,默认显示 5 条数据,也可以指定要显示的数量。
石晓文
2019-10-31
2.8K0
增删改查!sql2pandas方法手册
作为一名数据分析师,利用SQL熟练的取数是一项必备的基础能力。除了SQL以外,Python的pandas也为我们提供了SQL的大多数功能。自从从事算法之后就很少写SQL了,今天在整理印象笔记时趁机复习了一下,也花了点时间把SQL中主要的增删改查方法用pandas对应实现一遍。可以说是非常实用了。
石晓文
2019-10-28
6170
机器学习工程师第一年的12点体会
机器学习和数据科学都是广义上的术语,它们涉及超级多的领域以及知识,一位数据科学家所做的事情可能与另一位有很大的不同,机器学习工程师也是如此。通常使用过去(数据)来理解或预测(构建模型)未来。
石晓文
2019-10-24
5690
总结100个Pandas中序列的实用函数
本期将分享我认为比较常规的100个实用函数,这些函数大致可以分为六类,分别是统计汇总函数、数据清洗函数、数据筛选、绘图与元素级运算函数、时间序列函数和其他函数。
石晓文
2019-10-13
6020
pandas_profiling:一行代码生成你的数据分析报告
笔者最近发现一款将pandas数据框快速转化为描述性数据分析报告的package——pandas_profiling。一行代码即可生成内容丰富的EDA内容,两行代码即可将报告以.html格式保存。笔者当初也是从数据分析做起的,所以深知这个工具对于数据分析的朋友而言极为方便,在此特地分享给大家。
石晓文
2019-10-11
7380
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档