首页
学习
活动
专区
工具
TVP
发布

木东居士的专栏

专栏作者
222
文章
402679
阅读量
177
订阅数
​想转型数据驱动,ETL是拦路虎?十年来的传统工作模式,该升升级了
第一个趋势,是在任何一个公司,甚至是垂直领域的公司,数据量正在剧烈增长,而且数据类型越来越复杂。
木东居士
2020-03-06
6170
小数据的大价值,在DT时代不容忽视的话题
随着大数据的日益普及,笔者一直在思考一个问题:什么是小数据?当人们在谈论小数据的时候,认为在大数据的话语体系里,应该有小数据的说法。但至于如何认识小数据,如何界定小数据,如何理清小数据跟大数据的关系,以及这个小数据会对目前的大数据产业发展以及管理制度建设方面带来哪些影响,一直一来没有相关专业的文章著作或研究成果。
木东居士
2019-09-29
4280
特征工程系列:数据清洗
关于作者:JunLiang,一个热爱挖掘的数据从业者,勤学好问、动手达人,期待与大家一起交流探讨机器学习相关内容~
木东居士
2019-08-01
2.1K0
数据分析师做成了提数工程师,该如何破局?
上面这些情形不管是在大公司还是小公司都是很常遇见的,如果你经常处于类似的工作状态下,那么一定时间后,你将失去两项核心竞争力:技术深度和业务深度。
木东居士
2019-06-18
1.1K0
数据质量监控
随着大数据时代的带来,数据的应用也日趋繁茂,越来越多的应用和服务都基于数据而建立,数据的重要性不言而喻。而且,数据质量是数据分析和数据挖掘结论有效性和准确性的基础,也是这一切的数据驱动决策的前提!如何保障数据质量,确保数据可用性是每一位数据人都不可忽略的重要环节。
木东居士
2019-04-24
5.6K1
简单介绍数据采集中的数据埋点
每个人都会走路跑步,但是并不是人人都能成为专业的运动员那么出色。产品经理就是一种这样的职业,我们都可以站在产品的角度思考问题,但我们并不是都能够成为一名出色的产品经理。
木东居士
2019-02-28
2.6K0
数据仓库表的标准和规范关注点
标准和规范总不像一个数学公式那样黑白分明,它的概念总是显得抽象和模糊。因此,并不存在真正意义上的标准和规范,而是指的从业人员相互之间的约定积累,以及在工作中达成共识的结论。
木东居士
2019-02-28
1.8K0
数据仓库实践之业务数据矩阵的设计
数据仓库的设计不能完全依赖于业务的需求,但又必须服务于业务的价值。那么,该如何地从业务的角度出发,设计一套切实可行的数据仓库呢?
木东居士
2019-02-28
2K0
DataTalk:迟到的数据该怎样处理?
0x00 前言 本篇是关于数据延迟的处理,这种问题在处理的时候首先应该考虑的事业务场景的特性,因为业务的特性以及业务方对数据的容忍度才是最终决定数据方案的因素。 这个主题参与讨论者比较多,因此有比较多的对话环节。 0x01 讨论 问题: 一般的app数据采集可能会存在数据上报延时,因此数据会存在两个时间:数据生成的时间和服务器收到的时间。 由于我们底层数据都是按时间来做天的分区,那么该用数据生成的时间还是服务器收到的时间? 回答: 服务器收到时间。 问: 如若用服务器时间。那么面对查询某app或者某用户某天
木东居士
2018-05-25
1.2K0
你了解你的数据吗(练气篇):数据接入和常见的坑
0x00 前言 数据一道,可深可浅,可大可小。同为数据人,新手和老鸟亦有很大差别。本篇是了解数据的入门篇,包含两部门内容: 数据接入,你的掌控力如何?主要聊一聊数据接入人员对自己接入数据的了解的程度。 数据的坑,你总结了多少规律?在数据接入和基本的数据处理中,会遇到很多数据异常,这些异常你是否已经总结出了规律并纳入到了自己的知识体系。 0x01 数据接入量,你知道多少? 如果你只是闷着头,来一个需求就接一个,而对于自己接入的数据一无所知,那就值得尽早做好打算了,因为不管是面试、汇报工作、亦或是老大们的好奇心
木东居士
2018-05-25
1K0
机器学习经典开源数据集
"数据为王,使用相同机器学习算法,不同质量的数据能训练出不同效果的模型。本文将分享数据科学领域中经典的几个开源数据集。
木东居士
2018-05-25
2.3K8
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档