数据计算

从部署到实践，即刻拥有你的专属龙虾助手

OpenClaw开发者专区🦞🦞🦞

自行/邀约他人一键搬运博客，享价值百万资源包

腾讯云自媒体同步曝光计划

往期视频·干货材料·成员作品 最新动态

腾讯技术创作特训营知识专栏

新邀入驻腾讯云开发者社区，福利多多！

大数据的 4 个 V 说法在业界已经尽人皆知，这是指的大数据本身的特征。现在我们来考察一下用于处理大数据的技术应该具有的特性。为方便记忆，类似 4 个 V，我们把这些特性总结成 4 个 E，用户在选择大数据技术解决方案时可作为参考。

大数据技术的 4 个 E

项目中的报表开发没完没了达不到客户预期，以至于影响到合同收款——这种现象在软件公司经营过程中并不少见。出现类似状况时，管理者的第一反应往往是把板子打到开发团队身上。然而，真相很可能是：问题并不出在程序员身上。

报表没完没了做不完，可能并不是程序员的问题

集合在计算机中一般都存储为数组形式，其成员天然会有个位置。数据表本质上是记录的集合，也会被存储成数组，作为成员的记录也有位置的概念。而实际应用中确实有很多分析计算都是位置相关的，但 SQL 把数据表处理成无序集合，就会很不方便。

极具特色的位置运算

txt\csv\json\xml\xls 等公共格式的文件在工作中经常会用到，有时候需要对这些文件进行计算处理。能实现这一目标的工具表面看不少，但实际都有各自的缺陷。OpenCSV\JsonPath等类库擅长解析，但计算能力不足；spark 计算能力比较强，但架构过于沉重，学习曲线陡峭；SQLite\HSQLDB等内嵌数据库架构轻便，但入库的过程漫长复杂，延迟很致命；其他工具或不成熟，或代码冗长，或配置复杂，就不一一列举了。

公共格式文件上的计算引擎

针对数据集合的每个成员进行计算是很常见的任务，用循环语句当然能实现，但比较麻烦，算个简单的求和都要写很多句代码。

化于无形的 lambda 语法

多样性数据源混合计算是常态需求，同构或异构数据库之间、文件与数据库、NoSQL与文件等，理论上任何数据存储之间都涉及数据混合计算和分析。但混算需求目前技术解决的并不好，同构库之间某些数据库还能支持，而完全异构的数据源实施混算就比较麻烦。经常要借助逻辑数据仓库，但基于SQL的逻辑数仓不仅能力有限，而且体系过于沉重，经常会比应用本身还复杂，只适合应用于大型场景中，并不适合众多日常的轻量多源混算场景。

SPL轻量级多源混合计算

很多大机构都会有个中央数据仓库负责向应用提供数据服务。随着业务的发展，中央数据仓库的负载在持续增加。一方面，数仓是前端应用的数据后台，而前端应用不断增多，用户访问的并发数也不断增长。另一方面，数仓还要承担原始数据的批量离线处理，而批量任务不断增加，其数据量和计算量也在不断增大。所以，常常会出现中央数据库不堪重负的情况。表现出来的现象是：批量处理任务耗时过长，远远超过业务可以容忍的时限；在线数据查询响应太慢，用户长时间等待，满意度越来越差。特别是月末或者年末，计算量达到高峰的时候，这些问题会更加严重。

可路由计算引擎实现前置数据库

从 2015 年阿里提出“大中台”的数据中台战略，到 2019 年大厂及中台服务商“大兴”数据中台，再到 2021 年大厂又开始拆中台。数据中台从小甜甜变成牛夫人仅仅用了 2 年时间，为什么这么快数据中台就不香了？

数据中台为什么不好搞？

使用数据库存储数据很常见，数据库不仅提供了多种存储策略，还可以满足数据一致性的要求，基于数据库还能很方便完成数据计算，但使用数据库存储数据也有一些缺点，在一些场景下并非最佳选择。与数据库相对的是使用文件存储数据，文件系统更加开放，使用起来也很灵活，但文件本身没有计算能力，也无法保证数据一致性，不过，一些场景使用文件存储数据却更加适合。

数据存储使用文件还是数据库，哪个更合适？

SQL 对关联的定义过于简单，关联就是两个表做笛卡尔积后再过滤，在语法上写成 A JOIN B ON …的形式。Python 关联基本上是延用 SQL 的方式，概念和方法都差不多。

这样理解关联是不是耳目一新

传统数据库，特别是交易（TP）数据库，用于分析型计算经常会出现性能问题。TP数据库的性能优化主要是提高事务处理和写操作（增删改）的效率，这和分析型计算的优化方向并不一致，也就很难让分析计算跑的快。

数据外置提速革命：轻量级开源SPL如何用文件存储实现MPP级性能？

MongoDB 作为主流 NoSQL 数据库，灵活自由的文档结构让它成为处理非结构化数据的利器。但用过的都懂——这玩意儿的计算能力实在不太行。

esProc SPL 和 Mongodb 简直是个绝配

ORM 技术确实简化了基础 CRUD 操作，但面对复杂计算时也有很多局限性。Hibernate 的 HQL 能力明显不足，难以实现动态列运算和多层关联；JOOQ 通过 DSL 提升了灵活性，但分组计算需要多层嵌套，代码量远超原生 SQL。

有了 SPL，看来用不着 ORM 了

esProc SPL 处理多层 JSON 数据要比 DuckDB 方便很多，尤其需要保留 JSON 层次以及进行复杂计算时。

SPL 处理多层 JSON 数据比 DuckDB 方便多了

数据分析涉及不同业务系统时就要做跨库计算，而表间 JOIN 是最麻烦的，很多数据库都不具备这样的能力，用 Java 取数再计算又太复杂。用 esProc 完成跨库 JOIN 会简单很多。

怎样简单实现不同数据库的表间的 JOIN 运算

它的意义自不必提，各大老牌数据库都支持，而且经常以此来挤兑一些还不支持存储过程的新数据库。反过来，它的缺点也很明显，能见到很多开发团队在努力拆除存储过程，在应用程序中实现所有的业务逻辑。
那么存储过程到底该何去何从？

存储过程何去何从

中间表是数据库中专门存放中间计算结果的数据表，往往是为了前端查询统计更快或更方便而在数据库中建立的汇总表，由于是由原始数据加工而成的中间结果，因此被称为中间表。在某些大型机构中，多年积累出来中间表的数量居然高达数万张，给系统和使用造成了很多麻烦。

开源 SPL 消灭数以万计的数据库中间表

esProc SPL 支持简单 SQL，可以直接在 csv 等结构化文本文件上执行 SQL 语句，这样，不用数据库也可以用 SQL 计算了。

告别数据库束缚！用esProc在 csv 文件上执行 SQL

标准 SQL 中提供了五种最常用的聚合运算：SUM/COUNT/AVG/MIN/MAX，都是对集合计算出单值。

另类却不罕见的聚合运算

列式存储是提高数据分析计算性能的重要手段。如果数据表的总列数很多而计算涉及的列很少，采用列存就只读取需要的列即可，能够减少硬盘访问量，提高性能。而且，同一列数据往往是同一类型的，甚至有些情况取值都很接近，这样的一批数据连续存储，通常可以实施更高效的数据压缩。

这可能是最轻量级的列存技术了

文章

问答

视频

教程

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云智能顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

EdgeOne AI 安全实战专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋

腾讯云代码助手

云原生构建

TAPD 敏捷项目管理

Cloud Studio

SDK中心

API中心

命令行工具

涵盖代码开发、场景应用、自动测试全流程，助你从零构建专属AI助手

一站式MCP教程库，解锁AI应用新玩法

聚焦“写作效率、视觉美观与运行性能”三方面进行全面升级，为您提供更高效、稳定的创作环境

社区富文本&Markdown编辑器全新改版上线，欢迎大家体验!

诚挚邀请您参与本次调研，分享您的真实使用感受与建议。您的反馈至关重要，感谢您的支持与参与！

社区新版编辑器体验调研

腾讯云开发者社区推出了数据计算专栏，为你提供了数据计算的相关文章，致力于帮助开发者快速成长与发展。

数据计算

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐