首页
学习
活动
专区
工具
TVP
发布

ThoughtWorks

专栏作者
907
文章
737418
阅读量
114
订阅数
1个小时,1个实际案例,手把手教你构建预测模型
👆👆👆识别二维码,免费报名 手把手教你构建预测模型 5月19日 周四 用1小时的时间,带领大家一步一步体验数据处理的全生命周期。通过一个实际的例子来说明如何训练一个预测模型与如何评估一个预测模型的效果,手把手教会大家「模型预测」的实用技能。 内容包含但不限于 如何进行数据预处理? 如何训练一个预测模型? 如何评估一个预测模型的效果? ---- 扫码查看更多直播预告/回放👇👇👇
ThoughtWorks
2022-05-17
2790
Thoughtworks第26期技术雷达——技术象限
采纳 交付核心四指标为了度量软件交付的效能,越来越多的组织默认采用由DORA 研究项目定义的交付核心四指标,即:更改前置时间、部署频率、平均恢复时间(MTTR)和变更失败率。这项研究及其统计分析展示了高效能交付团队和这些指标的高度相关性,它们为衡量整个交付组织的表现提供了极佳的领先指标。虽然我们依然是这些指标的坚定拥护者,但我们也吸取了一些教训。我们持续看到被误导的度量方式,这些方式使用的工具单纯基于持续交付(CD)流水线。尤其在衡量稳定性指标(MTTR和变更失败率)时,仅依赖CD流水线数据提供的信息并不
ThoughtWorks
2022-04-08
7340
浅谈数据流水线
当下我们听过很多热门的技术名词,例如:机器学习模型、推荐系统、高管驾驶舱、BI等等,在这些技术背后一个关键的角色就是:数据。这些数据通常不是单一的,原始的数据,而是需要从多个数据源获取,并经过复杂的提取、清洗、处理、加工等过程才能最终提供真正的价值。我们常说“数据是未来的石油”,其实也就是在说,数据并不是“开采”出来就可以直接提供价值的,而是要经过若干流程的“加工”和“提纯”才可以产生价值。而对于数据的加工和处理流程,我们通常将其称为数据流水线,也就是 Data Pipeline。
ThoughtWorks
2021-09-15
3590
从滴滴出行下架看数据平台的隐私数据问题
7月4日晚,一则震惊互联网的消息在各媒体平台传播。这则消息是关于"滴滴出行"app的通告,由国家互联网信息办公室颁布,大意是“滴滴出行”App存在严重违法违规收集使用个人信息问题,依据相关法律规定,通知应用商店下架“滴滴出行”App,要求滴滴出行科技有限公司严格按照法律要求,参照国家有关标准,认真整改存在的问题。不久之前,《网络安全法》以及《个人信息处理法案》的重要补充——《数据安全法》于6月10日颁布。该法案9月1日开始正式实施,作为安全相关的法律,《数据安全法》规范的是数据处理活动中的数据安全,通过保障数据安全,来促进数据的进一步开发和利用,保护个人,组织的合法权益,维护国家主权及安全。数字经济蓬勃发展的今天,《网络安全法》将在其中扮演越来越重要的角色,防范国家数据安全风险,维护国家安全,保障公共利益。在进入正式问题讨论之前,我们先分析一下为什么数据安全会成为当下最重要的安全问题。主要是由于以下两点:
ThoughtWorks
2021-07-27
6050
数据仓库项目中的数据建模和ETL日志体系
数据仓库项目跨功能需求开发不够完善,导致的各种问题,就我个人经验来说,主要体现在数据建模不够标准和ETL日志体系不够完善两个方面,本文会详细介绍一下,如何从跨功能需求的角度,构建标准的数据建模和完善的ETL日志体系。
ThoughtWorks
2021-01-12
6960
健壮的数据仓库项目搭建
数据仓库是伴随着企业信息化发展起来的,在企业信息化的过程中,随着信息化工具的升级和新工具的应用,数据量变的越来越大,数据格式越来越多,决策要求越来越苛刻,数据仓库技术也在不停的发展。
ThoughtWorks
2020-12-08
7480
大数据项目中的QA需要迎接新的挑战
根据IDC全球半年度大数据和分析支出指南的最新预测,到2022年全球大数据和业务分析解决方案的收入将达到2600亿美元。在大数据和业务分析解决方案上投资增长最快的行业包括银行(复合年增长率13.3%)、医疗、保险、证券和投资服务、电信,每个行业复合年增长率都是12.8%。由此可见,大数据类项目在未来的地位将会越发重要,而作为QA,在大数据项目急速扩张的大背景下,也将迎来新的机遇和挑战。
ThoughtWorks
2020-02-19
4160
揭秘⼤数据安全
2018年8月28日,网传华住旗下多个连锁酒店开房信息数据遭泄露售卖。泄露的数据包含汉庭、美爵、禧玥、漫心、诺富特、美居、CitiGo、桔子等酒店用户详细信息。涉及53G华住官网注册资料,大约1.23亿条记录;22.3G酒店入住登记资料,约1.3亿人身份证信息;66.2G酒店开房记录,约2.4亿条。随后华住集团发布申明已开始核实事件真实性,并已报警处理。
ThoughtWorks
2019-07-30
7140
2015.5 技术雷达 | 平台篇
(点击图片可查看大图) Apache Spark(spark.apache.org)作为一种快速和通用的大规模数据处理引擎已取得稳步进展。该引擎基于Scala实现,非常适合于那些在多并行操作之间重用数据工作集的应用程序。它即可以作为一个独立集群,也可以作为Hadoop的YARN集群的一部分来工作。它可以从不同的源来访问数据,比如 HDFS,Cassandra,S3 等。不仅如此,Spark还提供了许多更高级的操作符,以便简化数据并行应用程序的开发。作为一种通用的数据处理平台,它使许多更高级别的工具的开发
ThoughtWorks
2018-04-20
1.2K0
在线系统数据服务的迁移策略
成都办公室的张耀丹是去年毕业的,只是他的职业生涯一开始就面对一个复杂的遗留系统。好在遗留系统的复杂并没有让他退却,而是从中学习到了解决遗留系统的思考之道。 他写了篇《在线系统数据&服务的迁移策略》。 如果不说,嘿,还真看不出这个内容出自一个毕业生的文笔。 当需要在正在运行的在线系统中进行数据或服务的迁移时,有很多问题需要考虑,如何设计迁移策略以保证数据正确迁移,如何处理系统间的依赖,如何保证服务持续可用等等。本文将从一个服务提供者的角度,讨论如何进行数据迁移才能保证对外提供的服务接口前后一致且持续可用,
ThoughtWorks
2018-04-18
1K0
Spring Batch在大型企业中的最佳实践|洞见
在大型企业中,由于业务复杂、数据量大、数据格式不同、数据交互格式繁杂,并非所有的操作都能通过交互界面进行处理。而有一些操作需要定期读取大批量的数据,然后进行一系列的后续处理。这样的过程就是“批处理”。
ThoughtWorks
2018-04-17
2.7K0
Web App性能优化之亮剑|洞见
自计算机诞生以来,系统性能问题亘古未变,从指令级优化到集成系统的优化,可谓愈来愈复杂。每种类型的性能问题即便出现的场景不尽相同,但依然有一些性能优化模式,久经沙场考验,不断被积累下来。性能问题本质上是一个可观的问题,对于Web App我们更多地可能是谈论与“唯心”相关的问题,最简单的司空见惯的对性能的描述就是,“这系统慢的要死”。接下来,我将以我的经历,谈谈如何对Web App的性能优化亮剑。 1 性能指标 既然,系统需要优化,那么我们必须有一种方法能够量化性能。响应性、响应时间、网络延迟、单位时间内处理的
ThoughtWorks
2018-04-17
7210
Serverless架构实践初探|洞见
随着云计算技术的进步,软件系统的架构方式也因此发生着一些变化,其中Serverless架构就是这里的一个典型的例子。 (图片来自:http://t.cn/RadEFqr) 什么是Serverless架
ThoughtWorks
2018-04-17
1.4K0
数字化企业的数据自服务
什么是数据自服务 数据在企业中的处理过程,能清晰地映射出康威定律对IT系统的影响。在各个部门分别建设IT系统、组织内部大量存在信息筒仓(silo)的年代,数据的操作由OLTP应用系统的开发团队同步开发
ThoughtWorks
2018-04-17
8120
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档