首页
学习
活动
专区
工具
TVP
发布

SAMshare

专栏作者
271
文章
290603
阅读量
38
订阅数
我用特征工程+LR超过了xDeepFM!
之前对于特征工程的了解知之甚少,后来和杰少,峰少等朋友聊完之后,也自己跑了一些竞赛,深受启发,之前一直认为特征工程是艺术,但现在我个人更倾向于认为它是一门技术,它与模型相辅相成,特征工程要做的事情就是帮助模型,模型预测不好的地方,那么我们人为的用经验或者构建的特征来帮助它,使得模型能把自己做不好的地方能做好。所以特征工程师95%的技术+5%的艺术(很多真的太难想到了)。
Sam Gor
2021-01-05
1.4K0
想学习Spark?先带你了解一些基础的知识
之前也学习过一阵子的Spark了,是时候先输出一些知识内容了,一来加深印象,二来也可以分享知识,一举多得,今天这篇主要是在学习实验楼的一门课程中自己记下来的笔记,简单梳理了一下,当做是需要了解得基础知识,让不熟悉Spark的同学也有一些简单的认识,里面若有写错的地方也希望大伙们指出哈。
Sam Gor
2020-07-28
2.1K0
BigData | 大数据处理基本功(下)
指的是将多个不同的处理模块连接在一起,最后得出一个自己需要的结果的有向无环图(Directed Acyclic Graph/DAG)的系统。
Sam Gor
2019-08-22
5940
BigData | 大数据处理基本功(上)
SLA,即Service-Level Agreement,中文名称为服务等级协议,就是系统服务提供者(Provider)对客户(Customer)的一个服务承诺,主要承诺的内容有4个:可用性(Availability)、准确性(Accuracy)、系统容量(Capacity)以及延迟(Latency)。
Sam Gor
2019-08-22
5660
BigData |述说Apache Spark
Spark是一个Apache项目,被标榜为"Lightning-Fast"的大数据处理工具,它的开源社区也是非常活跃,与Hadoop相比,其在内存中运行的速度可以提升100倍。Apache Spark在Java、Scale、Python和R语言中提供了高级API,还支持一组丰富的高级工具,如Spark SQL(结构化数据处理)、MLlib(机器学习)、GraphX(图计算)、SparkR(统计分析)以及Spark Streaming(处理实时数据)。
Sam Gor
2019-08-21
6650
BigData | Beam的基本操作(PCollection)
在一开始接触到PCollection的时候,也是一脸懵逼的,因为感觉这个概念有点抽象,除了PCollection,还有PValue、Transform等等,在学习完相关课程之后,也大致有些了解。
Sam Gor
2019-08-09
1.3K0
BigData | Apache Beam的诞生与发展
Paper1: https://research.google.com/pubs/archive/35650.pdf
Sam Gor
2019-07-08
1.3K0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档