首页
学习
活动
专区
工具
TVP
发布

SAMshare

专栏作者
271
文章
290932
阅读量
38
订阅数
特征锦囊:如何把“年龄”字段按照我们的阈值分段?
我们在进行特征处理的时候,也有的时候会遇到一些变量,比如说年龄,然后我们想要按照我们想要的阈值进行分类,比如说低于18岁的作为一类,18-30岁的作为一类,那么怎么用Python实现的呢?
Sam Gor
2020-02-17
8000
推荐系统特征工程的万字理论
推荐系统是机器学习的一个子领域,并且是一个偏工程化、在工业界有极大商业价值的方向。大量应用于提供toC类产品的互联网企业服务中,通过推荐系统为用户提供精准的个性化服务。推荐系统通过推荐算法来为用户生成个性化推荐结果,而推荐算法依赖数据输入来构建算法模型。
Sam Gor
2020-01-15
2.8K0
BigData | 大数据处理基本功(下)
指的是将多个不同的处理模块连接在一起,最后得出一个自己需要的结果的有向无环图(Directed Acyclic Graph/DAG)的系统。
Sam Gor
2019-08-22
5940
BigData | Beam的基本操作(PCollection)
在一开始接触到PCollection的时候,也是一脸懵逼的,因为感觉这个概念有点抽象,除了PCollection,还有PValue、Transform等等,在学习完相关课程之后,也大致有些了解。
Sam Gor
2019-08-09
1.3K0
Big Data | 流处理?Structured Streaming了解一下
上一篇文章里,总结了Spark 的两个常用的库(Spark SQL和Spark Streaming),可以点击这里进行回顾。其中,SparkSQL提供了两个API:DataFrame API和DataSet API,我们对比了它们和RDD:
Sam Gor
2019-07-08
1.1K0
BigData | 优秀的流处理框架 Flink
Apache Flink就是其中的翘楚,它采用了基于操作符(operator)的连续流模型,可以做到微秒的延迟。Flink最核心的数据结构是Stream,它代表一个运行在多个分区上的并行流,它没有边界,随着时间的增长而不断变化,而且它是逐条进行操作的,每当有新数据进行就会被执行,这也是Flink低延迟的根本。
Sam Gor
2019-07-08
8930
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档