我们早在 TapData Cloud 开放免费试用之初就接触到了这款数据 CDC 产品,同时也在调研一些开源方案,综合分析后,考虑到创业团队起步阶段的研发资源分配,最终决定在成熟的商业化方案中做选择。随着C端业务启动,数据需求也在不断加大,横向对比下来,TapData 整体更加轻量、灵活,有明确的 MySQL→Clickhouse 场景支持,页面逻辑清晰,操作简单,支持半私有化部署,稳定性不断优化的同时,在售后服务方面响应快速,性价比也更高。——心识宇宙。
人工智能时代,AI 逐渐渗透到我们生产生活的方方面面,AI 应用的“生产者”和“消费者”都越来越多。
国内外科技巨头纷纷入局,正在以惊人的速度推动技术的发展以及智能化进程。与此同时,大量人工智能初创企业也在几年时间里加速涌现,越来越多技术创新和应用在全球范围内生根发芽,并在各行业中推动自动化、提升效率、优化用户体验。这些企业不仅在研发和产品创新上投入大量资源,还积极探索新兴市场,以保持竞争优势。
而作为人工智能发展的核心和基础,数据不仅驱动算法训练和模型优化,还决定了 AI 系统的准确性和性能。高质量、丰富的数据使得人工智能能够识别模式、做出预测,并在复杂任务中表现出色。数据量的增长和数据处理技术的进步,在某种程度上直接推动了人工智能的创新和应用扩展。
左手是 AI 技术发展基因上对于数据的依赖,右手是企业管理、运营团队在 AI 产品或服务优化升级、分析决策等问题上所需的数据参考依据。因此,随着企业的发展,产品线的拓展,AI 行业对于数据资源的需求只增不减。
大中小型企业百舸争流的背景下,作为国内较早一批投入 AI 市场的“领先者”之一,心识宇宙正在用数据辅助智慧运营。
创立于2022年1月,坐标新加坡,心识宇宙(Mindverse.ai)的定位是一家通用人工智能(AGI)公司。创始人兼 CEO 陶芳波博士深耕 AI 领域多年,先后在美国微软研究院、Facebook Research、NASA、阿里达摩院神经符号实验等从事研发工作。
在意识到大模型的应用价值后,陶博士选择独立创业,便有了今天的心识宇宙。其愿景是通过人工智能赋能虚拟人大脑,让虚拟人具有思维、意识和人格,成为元宇宙的原住民,陪伴、服务每一个用户。 早在 ChatGPT 上线之前,心识宇宙就一直专注于在大模型上构造虚拟心智,并在国内外尝试了多种业务形式。创业至今,其核心产品 mindos.com,主要能力是帮助用户及客户构建基于大模型的应用层,主打以下两个产品形态:
在不断优化产品,与用户共同探索更多 AI 应用场景的过程中,心识宇宙各部门都提出了更多数据聚合分析的需求,且各有侧重:
针对这些需求,心识宇宙依靠数仓来进行数据整合和分析。然而,在变更数据捕获(CDC)环节的实现上遇到了一些挑战。作为关乎数仓项目可用性及数仓数据质量的关键技术,CDC 用于实时捕获并处理数据源中的变更。这对于确保数据的及时性和一致性至关重要,但其实现过程复杂,尤其在处理高频率、大规模的数据变更时,技术难度和资源需求较高。 因此,心识宇宙开始寻找能够承担这一关键环节的 CDC 工具。
心识宇宙的数据特点: ① 数据需求旺盛:全体部门都重视数据的价值和数据分析的力量,涉及多个数据来源 ② 覆盖系统多样:包括用户行为分析、用户量统计、成本管控等 BI 系统,A/B 实验系统,财务系统,以及监控告警系统等 ③ 数据类型不一:数仓项目完全自建,底座为 Clickhouse,数据源为在线数据库 MySQL,异构数据库数据同步压力大
为了满足 CDC 链路的需求,心识宇宙最先把目光投向了以 Debezium+Kafka 为代表的众多开源工具。在实际应用场景中,其优势和不足都比较明显,尤其是对于初创团队而言:
优点
1. 实时性:
2. 高可靠性和容错性:
3. 扩展性:
4. 开源社区和生态系统:
不足
1. 复杂性:
2. 延迟问题:
3. 资源消耗:
4. 数据一致性和完整性:
首先,作为业界常用的 CDC 开源方案,其在实时性、可靠性以及可扩展性上的表现都有保障。但考虑到小型创业团队的属性,二次开发及后续运维所需的人力成本都必须综合纳入评估。对于宝贵的技术资源而言,虽然数据的重要性不可否认,但终归只是众多基础模块之一,与其耗时耗力将开源方案打磨到可以满足自身业务需求的程度,不如将专业的事情交给靠谱的供应商来完成,释放开发资源供核心产品迭代优化。
成熟的商业化方案如何选择?
① 全链路、一站式的数据分析工具:以神策、友盟等为代表
放弃开源思路后,心识宇宙开始寻找合适的商业化方案。鉴于数据分析的终极需求,类似于神策、友盟这样的的全链路数据分析工具率先被纳入评估。
一方面,此类产品功能完备,集数据整合、BI、埋点等模块于一体,几乎可以满足数据分析相关的全部数据需求。但从另一方面来看,作为一套放之四海而皆准的通用标准产品,“全面”也不全然是优势:
除此之外,由于诞生于 PC 互联网时代,这一类工具使用的方法论更多是满足上一个时代需求的产物。而随着 ChatGPT 引流新的技术风向,众多 AI 领域的新公司出现,无论是侧重模型层的企业还是类似于心识宇宙这样的 AI 应用层企业,都更倾向于采用自建方案而非外部工具的大包大揽,过程中可能会用到一些现代化的小工具,来更灵活、更稳定地解决更小的问题。
② 现代化数据栈工具:以 TapData Cloud 为代表
以小工具解决 CDC 特定需求的小问题为目标,心识宇宙充分考虑自身规模和业务发展情况, 找到了 TapData Cloud 这样一款以 CDC 能力为核心特性的兼具云原生优势的轻量数据同步工具。
技术场景:
作为一组用于数据集成、存储、处理和分析的技术和平台,以 Fivetran、Airbyte、TapData 等为数据集成层面代表的现代数据栈工具旨在实现高效、灵活、可扩展的数据管理和分析。其各司其职的组合拳逻辑,恰好与心识宇宙的需求吻合,其优势主要体现在:
1. 高效的数据捕获与传输:
2. 弹性与可扩展性:
3. 简化的运维与管理:
4. 数据质量与一致性:
5. 灵活的集成与扩展:
综合上述因素,心识宇宙最终选定配备中文支持团队的 TapData Cloud 作为与其需求恰好匹配的数据基础工具。
经过一年多的使用,以 TapData Cloud 为数据 CDC 组件的数仓方案在心识宇宙的数据分析项目实践中得到了充分的可行性验证。
如上图所示,源系统数据包括:
上述数据以及一些在线数据库的镜像,都会经由 TapData CDC 同步、传输并存储到数仓的 ClickHouse 中。值得一提的是,针对其中的用户相关数据的脱敏需求,TapData 提供了相应字段的过滤屏功能,支持屏蔽或用自定义方式替换敏感数据,保障用户信息安全。
*关于心识宇宙的脱敏说明: 内部数据如系统监控信息无需脱敏处理,可以直接进行全增量同步。然而,对于用户数据,必须遵循 GDPR 和 USDP 等用户隐私标准。因此,需要从全量数据中剔除属于用户隐私的部分。这一过程利用了 TapData 的字段过滤功能,帮助理解并排除敏感数据,以确保数据处理的合规性和隐私保护。
下一步,继续借助 TapData 的 CDC 能力,经过数仓统一集成的数据,将流向下游的用户行为分析、A/B 测试系统等 BI 系统,形成报表供内部分析与决策参考使用。
其中,A/B Test 作为传统高用户增长的 C 端产品的常用分析优化手段,在 AI 行业同样适用,特别是对于心识宇宙这样专注大模型上应用层的企业,这也是其打磨产品的关键思路。
基于大量的经脱敏的用户数据分析,从中获取有价值的用户行为洞察和反馈,帮助优化算法模型、提升产品性能、调整产品功能、改善用户体验,并推动创新和业务增长。这种数据驱动的决策方式,使得AI产品能够不断迭代和改进,更好地满足用户需求和市场变化。数据集成即数据分析的重要性由此可见一斑。
体验反馈
1. 明确的 MySQL → ClickHouse 异构 CDC 方案支持
调研之初,心识宇宙发现,业界能提供从 MySQL 到 ClickHouse 同步能力的供应商本身就不多,更多是同类数据体系之间的同步,甚至包括很多开源方案也是如此。而 TapData 内置 100+ 数据连接器,明确支持二者间的全增量同步,且提供 Demo 演示。
2. 学习曲线简单,轻量易上手
作为直接使用者,心识宇宙的技术运维人员反馈称 TapData Cloud 主打页面逻辑清晰简洁,包括一个支持log信息查询的监控模块,同样是极简但足够适用。无论是安装部署还是任务运行都以一键式操作为主,上手简单。完全满足内部在数据层面的需求。
3. 灵活可扩展
随着需求变化,TapData 可以灵活扩展,适应企业的不同阶段和规模。刚开始接触并试用 TapData 时,心识宇宙的 ToC 业务尚未正式开启,更多在经营国内的大 B 生意,因此对数据的要求并不是很高,TapData 提供的永久免费计划已经可以覆盖住这一部分需求。直到 ToC 业务开始增长,数据需求量随之上升,TapData Cloud 上的任务数也从最初的两条,发展到目前的16条。
4. 支持半私有化部署
考虑大奥 AI 行业在数据安全性上更高的要求,TapData Cloud 支持心识宇宙自主提供设备来部署和运维 Agent,为其运行提供计算/存储资源,可充分利用现有硬件资源,获得更低的价格的同时,进一步提升安全性。
5. 配套的售后服务与团队支持
作为一套纯国产自研的数据同步产品,TapData Cloud 对于中国背景的团队更加友好,沟通更方便的同时,TapData 还提供专业的售后服务,能够及时解决使用中遇到的问题,并帮助用户快速体验产品稳定性和功能上的优化升级。
6. 更高的成本效益
在支持一定规模的免费试用之余,TapData Cloud 提供性价比更高的定价模式。不同于花费较高的按链路数量计费(如 MySQL → MySQL,MySQL → ClickHouse 算作两条链路),以及更为高昂的按数据同步行数计费,Tapdata 采取对用户更加友好的定价模式——按实例规格计费(如 4C8G / 8C16G),取决于用户自身的数据流量,不限链路。该模式最大好处在于,价格相对明确的,所需成本也相对较低。
总结
将整套数据体系视作一个串联的数据流系统,CDC 环节就是其间的必经之路。心识宇宙选择了 TapData 作为这一环节的关键工具。这一选择不仅确保了数据的实时同步和准确性,也保障了数据的安全性和合规性。
通过 TapData,企业得以高效地管理和处理数据,从而为业务决策提供可靠的支持。这种数据驱动的决策方式下,企业将不断改进和优化产品,满足不断变化的市场需求,实现持续的创新和增长。
未来,TapData 还将持续挖掘数据集成在 AI 领域的实用性价值,与 AI 企业共同见证人工智能时代的新发展。
采用 Tapdata 实时数据平台解决方案有哪些优势? 广泛的数据源和目标支持:内置 100+ 数据连接器,稳定的实时采集和传输能力 学习成本低,轻量易上手:开箱即用与低代码可视化操作,支持数据模型预览,无需专业的编程能力,即可完成复杂的数据集成和开发。 更实时,更高效:兼具秒级响应的数据实时计算能力,以及稳定易用的数据实时服务能力 支持数据、任务分类:可根据不同项目自定义标签,方便快速筛选查找,有助于对跨部门协同管理及后续维护 支持平台级数据校验:有效保障数据一致性 可视化任务运行监控和告警:20+ 可观测性指标,实时监测任务最新状态