TiDB 在零氪科技(LinkDoc)大数据医疗系统的实践

公司介绍

零氪科技作为全球领先的人工智能与医疗大数据平台,拥有国内最大规模、体量的医疗大数据资源库和最具优势的技术支撑服务体系。多年来,零氪科技凭借在医疗大数据整合、处理和分析上的核心技术优势,依托先进的人工智能技术,致力于为社会及行业、政府部门、各级医疗机构、国内外医疗器械厂商、药企等提供高质量医疗大数据整体解决方案,以及人工智能辅助决策系统(辅助管理决策、助力临床科研、AI 智能诊疗)、患者全流程管理、医院舆情监控及品牌建设、药械研发、保险控费等一体化服务。

LinkDoc 的主要应用场景

LinkDoc 通过将患者真实的病例数据和算法模型应用于肿瘤治疗,构建精准的诊疗模型并提供数据支持,从而辅助医院管理决策、辅助科研、辅助临床诊疗。目前 Hubble 系统“肺癌淋巴结跳跃转移风险预测”模块可避免肺癌病人由于误判而导致提前 8-10 个月的复发,每年能让近两万病人的生命再延长 8-10 个月。Hubble 系统“ AI - 肺结节智能诊断”模块全自动地识别 CT 影像中所有的结节,识别率达 91.5%。LinkDoc 希望凭借医疗大数据整合、处理和分析上的核心技术优势,以互联网人工智能上的创新研发,提升中国医师的全球医学水准,并通过支持药物研发与医疗保险行业的发展,让每一位患者享有普惠、精准的医疗服务。

支撑 LinkDoc 业务的底层数据库平台也面临着医疗行业新领域的技术 & 业务挑战,如数据量的快速增长(亿级别)、大数据量下的清洗逻辑的数据擦写、分析型事物对数据库的读压力都要求我们在数据库平台进行重新探索,选择一款适合医疗大数据业务的数据库解决方案。

选择 TiDB

  1. 业务痛点
  • 数据量大,单实例 MySQL 扩容操作复杂;
  • 写入量大,主从延时高,由于业务对数据有低延时的要求,所以传统的 MySQL 主从架构在该项目下不能满足需求,大量数据写入下主库成为性能瓶颈;
  • 随着数据量越来越大,部分统计查询速度慢;
  • 分库分表业务开发和维护成本高。
  1. 需求
  • 高可靠性 & 稳定性;
  • 可扩展性,可随数据量 & 请求量增长快速提升存储 & 请求处理能力;
  • 更低的延时。
  1. 方案调研

未选择 TiDB 之前我们调研了 MyCAT、Cobar、Atlas 等中间件解决方案,这些中间件整体来说就是让使用者觉得很 “拧巴”,从社区支持、MySQL 功能兼容、系统稳定性上都不尽人意,需要业务做大量改造,对于快速发展的公司来说切换成本太高。

在 LinkDoc 首席架构师王晓哲的推荐下我们调研了 TiDB, TiDB 的如下特性让我们眼前一亮:

  • 兼容绝大部分 SQL 功能(意味着业务可以简单改造后平滑迁移至 TiDB);
  • 水平扩展能力;
  • 分布式事务;
  • 故障快速恢复能力;
  • 监控指标覆盖度。

上线 TiDB

  1. 兼容性测试

经过兼容性测试后我们对业务做了如下简单改造:

  • Blob 类型数据迁移至 HBase 做 key-value 存储;
  • Batch delete 改成小批量多次操作,一批删除 1000 条。
  1. 灰度上线

由于业务对于主从同步延时要求较高,我们采用业务双写的方案切换了我们的第一个应用。灰度第一阶段业务同时写 MySQL、TiDB,读走 MySQL,并验证数据一致性,经过2周的验证后我们灰度第二阶段。灰度第二阶段业务双写 TiDB、MySQL,读业务走 TiDB。经过一个月的业务验证后我们彻底下掉了 MySQL。

  1. 系统架构

上线过程中也遇到一个小坑,之前用的阿里云普通实例 + SSD 云盘跑 TiDB,在该配置下经常会遇到性能抖动问题,在 PingCAP 同学的建议下我们更换了阿里云本地 SSD 型机型,目前系统运行良好。

系统配置 & 架构如下:

生产集群部署情况(机器基于阿里云):

目前现状和下一步规划

目前 TiDB 在 LinkDoc 已承载数据量最大的两个业务。平时 QPS 6K,峰值 12K。

后续将使用 TiDB 承载更多大数据量业务库, 并调研 TiSpark。通过 TiDB 构造成一个兼容分析型和事务型的统一数据库 HTAP 平台。

致 PingCAP

非常感谢 PingCAP 小伙伴们的大力支持,从硬件选型、业务优化、系统培训到上线支持 PingCAP 都展现了热情的服务态度、专业的技术能力,帮助 LinkDoc 顺利上线 TiDB,解决系统难题,支持业务快速发展。相信在这样一群小伙伴的努力下 TiDB 会越来越成熟、承载更多的业务场景,用技术创造奇迹。

作者介绍:杨浩 现任零氪科技 运维&安全负责人,曾就职于阿里巴巴-技术保障部-CDN。专注 CDN、安全、自动化运维、大数据等领域。

原创声明,本文系作者授权云+社区-专栏发表,未经许可,不得转载。

如有侵权,请联系 zhuanlan_guanli@qq.com 删除。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏BestSDK

龙芯CPU将开源,全民挑战英特尔?

开源的CPU核性能如何? 目前,除了龙芯、申威、飞腾等老牌设计单位拥有自己设计的高性能CPU核之外,国内大多数IC设计公司依旧处于购买国外的IP“攒”出一个SO...

28210
来自专栏养码场

一周播报| 实体零售正迈向大数据和O2O的DT时代:阿里224亿拿下大润发、欧尚超市!

求教各位老铁们,用户中心项目某一功能在压测下到达4000的TPS,这算是什么水准?薪资可以拿到20K+吗?

531
来自专栏养码场

限时领取!Flink学习资料包+上海站门票+定制背包,阿里、携程等大厂专家的独家分享!

场主认为:Flink=风口趋势所在!而技术人就是追风的人,stay hungry,stay young!

581
来自专栏浮生的专栏

为什么大数据对企业如此重要

在当今世界,社交媒体和其他来源的数据大量涌现。企业会仔细收集这些数据并将其存储起来,以便在需要时可以重复使用。处理如此大量的数据需要专门的工具和技术。因此,大数...

1484
来自专栏BestSDK

2018云、大数据、人工智能将上演“三国鼎立”?

虽然我们喜欢新技术,但一般的企业所有者、IT买家和软件开发人员对这一巨大的创新不太了解,不知道如何将其转化为商业价值。我们将在2018年看到一些趋势,他们的重点...

3727
来自专栏CDA数据分析师

数据分析软件市场的8大苗头,告诉你真正的大势所趋!

紧张精彩的2015年已经结束了,现在是时候回过头来看一看数据分析软件市场的潮流。 已经有几个趋势继续变得壮大(比如开源,云托管,基于Hadoop的SQL解决方案...

1778
来自专栏人称T客

SAP与Oracle战火从未停止 看SAP如何反击?

这是SAP HANA曾经反击的文章,今天再次翻出来阅读觉得意味深远。由于过于技术对于两家到底谁优谁劣一直没有定论,不过从SAP HANA问世起至今,SAP和Or...

3146
来自专栏企鹅号快讯

FPGA在其他领域的应用二

计算机和存储领域: 计算机技术和存储技术发展迅猛。如今,云计算正在实现对传统 IT 功能和全新功能的整合。例如,许多大型数据中心目前正在同时提供传统的 IT 服...

1860
来自专栏Rainbond开源「容器云平台」

真正的开源技术是靠玩出来的

945
来自专栏云计算D1net

云计算“双刃剑”如何影响企业IT架构

尽管云计算逐渐被行业所接受,但对于云计算的困惑,可能更多的还是围绕它对IT组织架构方面的影响。很多人都认为云计算仅仅是一种影响企业某些方面的技术进步。比如,CI...

2495

扫描关注云+社区