首页
学习
活动
专区
工具
TVP
发布

小小挖掘机

专栏作者
516
文章
861584
阅读量
237
订阅数
基于Spark的大规模推荐系统特征工程
导读:特征工程在推荐系统中有着举足轻重的作用,大规模特征工程处理的效率极大的影响了推荐系统线上的性能。第四范式作为国际领先的机器学习和人工智能技术与平台服务提供商,面向大规模特征工程问题开发了下一代离线在线一致性特征抽取引擎FESQL,针对AI场景支持SQL接口,兼容Spark 3.0同时提供高性能的Native执行引擎。本次分享题目为基于Spark的大规模推荐系统特征工程及优化,主要内容包括:
石晓文
2020-09-07
1.2K0
ML&DEV[16] | 算法工程师内功修炼
所谓算法,所谓人工智能,很多媒体,或者是一些教程,甚至是现在的主流论文,很容易地会把大家的思路带入到各种深度学习(没错,机器学习都已经out那种)等之类所谓比较高端的东西去了,于是大家会花很多时间在模型上,无论是学习本身,还是在日常工程中,在一些实践中,我逐步想明白,模型固然重要,但只学模型,翻翻论文,读读博客,只能让缓解我们对知识的焦虑,能让自己觉得“我的水平提升了”,但是是否真的提升了,这个事情要好好想想。
石晓文
2020-07-03
5290
数据分析EPHS(11)-详解Hive中的排序函数
本篇主要来介绍一下hive中三个常用的排序函数row_number(),rank()和dense_rank()。
石晓文
2020-03-25
1.9K0
数据团队思考:数据人的通用技能要求
最近经常遇到有朋友问下面这类问题,结合最近的一些思考,本篇聊一下,数据人该具备哪些通用的技能。
石晓文
2019-11-21
4690
增删改查!sql2pandas方法手册
作为一名数据分析师,利用SQL熟练的取数是一项必备的基础能力。除了SQL以外,Python的pandas也为我们提供了SQL的大多数功能。自从从事算法之后就很少写SQL了,今天在整理印象笔记时趁机复习了一下,也花了点时间把SQL中主要的增删改查方法用pandas对应实现一遍。可以说是非常实用了。
石晓文
2019-10-28
6170
推荐收藏 | 100个数据分析常用指标和术语
有个朋友是金融行业产品经理,最近在对已有的站内用户做分层与标签分类,需要对用户进行聚类分析。一般从事数据分析行业的朋友对这类词并不陌生,但是像市场运营人员就会把这类些名词概念搞混,导致结果不准确。数据分析相关概念多且杂,容易搞混。为了便于大家区分,今天小编就来盘点一下数据分析常用的术语解释。建议大家收藏起来方便查看。
石晓文
2019-09-29
9830
算法人必懂的Hive知识-四道Hive面试&笔试题解析
近期在不同群里有小伙伴们提出了一些在面试和笔试中遇到的Hive SQL问题,Hive作为算法工程师的一项必备技能,在面试中也是极有可能被问到的,所以有备无患,本文将对这四道题进行详细的解析,还是有一定难度的,希望你看完本文能够有所收获。
石晓文
2019-08-09
1.6K0
数据分析EPHS(6)-使用Spark计算数列统计值
前两篇中咱们分别介绍了使用Excel、Python和Hive SQL计算统计值,这次咱们使用Spark SQL来计算统计值。
石晓文
2019-07-30
1.3K0
来学习几个简单的Hive函数啦
咳咳,今天来介绍一下几个Hive函数吧,先放一张我登哥划水的照片,希望大家也做一只自由的鱼儿,在知识的海洋里游呀游,嘻嘻! 今天我们来介绍几个Hive常用的函数吧! 1、数据介绍 首先我们产生我们的数
石晓文
2018-04-11
1.3K0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档