首页
学习
活动
专区
工具
TVP
发布

ThoughtWorks

专栏作者
907
文章
737061
阅读量
114
订阅数
数据仓库项目从来不是技术项目
数据仓库是什么? 还是得先从定义开始:数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。这里的“支持决策”往往是面向分析的,需要能够对业务系统的数据进行大批量的、多维度的数据探索和分析,从而帮助最终的业务决策。此文是我对于数据仓库项目的一点点感悟,不涉及具体的技术实现。 但它从来都不是(纯)技术项目 数据仓库项目上用到了很多技术组件,相信很多人都可以用报菜
ThoughtWorks
2022-08-26
1680
3月直播回放
使用Python处理数据科学计算 随着大数据时代的来临和Python编程语言的火爆,Python数据分析早已成为现在职场人的必备核心技能。那么利用Python数据分析可以做什么呢?简单来说,可以做到的内容有很多,比如检查数据表、数据表清洗、数据预处理、数据提取和数据筛选汇总等等。本次直播将带领大家走入数据分析的大门。 了解 Python 中的整数、浮点数、逻辑、字符串和其他类型 如何创建直方图、KDE 图、小提琴图和完美的图表样式 如何在 Seaborn 中可视化数据 机器学习初探 👇👇扫描下方二维码,观看
ThoughtWorks
2022-03-29
3090
直播回放|使用Python处理数据科学计算,数据平台项目的测试之痛与最佳测试实践
使用Python处理数据科学计算 随着大数据时代的来临和Python编程语言的火爆,Python数据分析早已成为现在职场人的必备核心技能。那么利用Python数据分析可以做什么呢?简单来说,可以做到的内容有很多,比如检查数据表、数据表清洗、数据预处理、数据提取和数据筛选汇总等等。本次直播将带领大家走入数据分析的大门。 了解 Python 中的整数、浮点数、逻辑、字符串和其他类型 如何创建直方图、KDE 图、小提琴图和完美的图表样式 如何在 Seaborn 中可视化数据 机器学习初探 👇👇扫描下方二维码,观看
ThoughtWorks
2022-03-24
2470
本周三|使用Python处理数据科学计算
使用Python处理数据科学计算 3月16日(本周三)19:30-21:00 📷 👆👆扫描上方二维码,免费报名直播,永久获取会议资料 随着大数据时代的来临和Python编程语言的火爆,Python数据分析早已成为现在职场人的必备核心技能。那么利用Python数据分析可以做什么呢?简单来说,可以做到的内容有很多,比如检查数据表、数据表清洗、数据预处理、数据提取和数据筛选汇总等等。本次直播将带领大家走入数据分析的大门。 了解 Python 中的整数、浮点数、逻辑、字符串和其他类型 如何创建直方图、KDE 图、小
ThoughtWorks
2022-03-15
2940
浅谈企业数据能力建设
随着市场的逐步成熟,要想保持企业的长期竞争力,运营和产品改进工作需要越来越精细化。 比如,在游戏行业,玩家留存率是一个关键指标,为提升·留存率,需要精细化地分析玩家是哪一步流失的,根据游戏进程推进过程,按照先后顺序设置关键节点,分析各个节点流失情况数据,可以形成一个玩家流失漏斗。有了玩家流失漏斗,我们可以选择流失率高的环节进行进一步精细化分析,找到流失原因,比如机器适配问题,引导缺乏吸引力问题,数值设计问题等,根据这些原因就可以针对性的在产品和运营侧做改进了。 又比如保险行业,为了提高销售效率,可以先通过
ThoughtWorks
2022-03-04
5380
浅谈数据流水线
当下我们听过很多热门的技术名词,例如:机器学习模型、推荐系统、高管驾驶舱、BI等等,在这些技术背后一个关键的角色就是:数据。这些数据通常不是单一的,原始的数据,而是需要从多个数据源获取,并经过复杂的提取、清洗、处理、加工等过程才能最终提供真正的价值。我们常说“数据是未来的石油”,其实也就是在说,数据并不是“开采”出来就可以直接提供价值的,而是要经过若干流程的“加工”和“提纯”才可以产生价值。而对于数据的加工和处理流程,我们通常将其称为数据流水线,也就是 Data Pipeline。
ThoughtWorks
2021-09-15
3590
那些数据工作中的角色
数据工作中有一类非常重要的角色,那就是数据分析师。为什么这个角色这么重要呢?因为要是没有这个角色,不管一个企业中的数据管理做得有多么好都没用,都无法带来实际的价值。这些数据就像是藏在海底的石油,而数据分析师就是开采海底石油的油井设备。要想让石油用于汽车轮船,需要通过这些设备先将海底的石油抽取出来,经过加工处理,提纯。
ThoughtWorks
2021-07-02
4400
演进式数据架构
本文借助于《演进式架构》这本书中关于演进式架构体系的描述,探索我们如何在数据这个领域,设计出演进式数据架构。
ThoughtWorks
2021-02-08
3290
机器学习下的持续交付
机器学习在行业中的应用变得越来越流行,然而相对于传统软件开发,例如Web服务或者Mobile应用来说,这类程序的开发、部署和持续改进也变得更加的复杂。它们的功能改变通常由以下三个维度驱动:
ThoughtWorks
2020-03-13
5080
数据质量管理的一些思考
在近期的项目当中,我们为客户落地实施了数据资产平台。随后,在数据平台中接入了客户子公司的一个业务系统的明细数据。客户希望在我们的数据平台上通过数据探索和数据分析,来挖掘一些业务价值和业务创新点。
ThoughtWorks
2018-07-23
2.1K0
成都活动 | 5月19日「DnA数字不会说谎:精益数据分析」
然而,在如今的互联网时代,我们所面对的不是数据匮乏,而是数据过剩。如何能在纷繁复杂的数据中抽丝剥茧,读懂数据背后的真实意义?
ThoughtWorks
2018-07-23
5800
给NGO的IT解决手册
一个故事 某跨国机构的中国区负责人非常苦恼,他们每年会新增至少5万条业务数据,所有原始数据都记载在纸质文件上,一条数据有十多页,包含100多项内容,而且其中大部分是描述性的文字。这些数据都要手动录入到总部的信息化系统里去,纯英文界面,繁琐的操作流程,再加上老旧的系统设计导致录入的效率极其低下,以资深员工的速度估计,平均每录入一条数据需要花费20分钟,这意味着,每年新增的业务数据需要10人团队工作整整十个月才能全部录完。基于这种现状,该负责人决定将下一年度20%的预算投入到本地化的信息系统建设中。终于,第二年
ThoughtWorks
2018-04-20
8360
半个世纪前的大数据时代|洞见
马云在最近的一次公开演讲中谈到市场经济与计划经济的比较:“我们过去的一百多年来一直觉得市场经济非常之好,我个人看法是未来三十年会发生很大的变化,计划经济将会越来越大。为什么?因为数据的获取,我们对一个
ThoughtWorks
2018-04-17
6720
数字化企业的数据自服务
什么是数据自服务 数据在企业中的处理过程,能清晰地映射出康威定律对IT系统的影响。在各个部门分别建设IT系统、组织内部大量存在信息筒仓(silo)的年代,数据的操作由OLTP应用系统的开发团队同步开发
ThoughtWorks
2018-04-17
8120
常用的几种大数据架构剖析 | 洞见
数据分析工作虽然隐藏在业务系统背后,但是具有非常重要的作用,数据分析的结果对决策、业务发展有着举足轻重的作用。随着大数据技术的发展,数据挖掘、数据探索等专有名词曝光度越来越高,但是在类似于Hadoop
ThoughtWorks
2018-04-17
1.3K0
数字化平台中的客户触点技术
什么是客户触点技术 图1 企业的线上线下多样化触点 随着科技的发展,客户与企业的互动过程中产生了线上线下非常多样化的触点。图1展示了一个啤酒企业在客户生命周期的获知、考虑、购买、留存、传播不同阶段的线
ThoughtWorks
2018-04-13
1.7K0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档