阅读收获
- 洞悉内存浪费:理解DRAM高成本与低利用率的深层原因,识别数据中心潜在的优化空间。
- 掌握AI内存分层:学习AI预测性内存如何通过DRAM+闪存混合架构,实现性能与成本的平衡。
- 评估技术价值:分析MEXT方案在削减成本、提升性能和保障系统稳定性方面的实际效益。
全文概览
现代AI与大数据应用正让数据中心内存成本飙升,DRAM占据服务器半数成本,却常有超半数容量被“冷数据”闲置。你是否也面临内存性能与成本的困境?MEXT如何用AI预测技术,在闪存成本下实现DRAM级性能,彻底颠覆内存使用模式?本文将深入探讨这一创新方案。
👉 划线高亮 观点批注
市场背景及MEXT简介
第一部分:市场背景 (Market Context)
- 现代应用带来巨大压力:指出当前以AI(人工智能)、大规模数据库为代表的现代应用程序,正在对数据中心的计算资源造成巨大的压力。
- 应用示例:列举了一些具体的应用案例,包括:Redis、Neo4j、Spark、Moonray、Oracle、Memcached、DeepSpeed。这些是业界常见的内存密集型或计算密集型应用,涵盖了内存数据库、图数据库、大数据处理框架、渲染引擎、关系型数据库和AI训练框架等。
- 增长趋势:强调工作负载的规模(scale)、数据量(volume)和数据增长速度(velocity)都在持续增长。
- 资源需求:这种增长趋势导致了对海量的内存(memory)、存储(storage)和处理能力(processing power)的巨大需求。
- 成本问题:最终结果是,计算成本(cost of computing)正在急剧飙升。
第二部分:MEXT公司简介 (Intro to MEXT)
- 公司成立时间:MEXT成立于2023年,是一家非常新的初创公司。
- 公司使命:其使命是“从根本上降低大内存工作负载(large-memory workloads)的计算成本”。这直接回应了前一部分提出的市场痛点。
- 技术切入点:MEXT选择从服务器最大的成本构成之一——服务器内存(DRAM)入手,来解决成本问题。
- 核心产品:公司的核心产品是“AI-Powered Predictive Memory”(AI驱动的预测性内存)。这里特别用括号强调“NOT persistent memory”(不是持久性内存),这是一个非常关键的技术区分,表明其产品并非像Intel Optane那样的持久性内存硬件,而更可能是一种利用AI技术来优化易失性内存(如DRAM)使用效率的软件或硬件解决方案。
DRAM成本高昂,但利用率低下
PPT通过两个核心论据,揭示了当前服务器内存使用中的巨大矛盾和浪费:
- 成本高昂:DRAM是服务器中最昂贵的单一组件,占据了整机成本的50%。
- 效率低下:尽管价格不菲,但根据Meta等超大规模数据中心的真实数据显示,这部分昂贵的内存资源并未得到充分利用,常常有超过一半的容量被“冷数据”占用,导致有效利用率不足50%。要理解这里的有效利用率,从工作经验来看DRAM利用率是很容易虚高的,但通常都是被冷数据占用。
核心观点是:企业在服务器内存上投入了巨额资金,但换来的却是极低的资源利用率,这造成了严重的资源浪费和不必要的成本支出,凸显了市场对于优化内存使用效率、降低成本的解决方案存在迫切需求。
===
DRAM利用率分析
- 这部分引用了Meta公司(原Facebook) 的数据来佐证内存利用率低的问题。数据来源被标注为“Meta paper on CXL tiering”(Meta关于CXL分层的论文),这增加了数据的权威性。
- 展示了四个柱状图,分别对应四种典型的工作负载:Web(网页服务)、Cache 1(缓存1)、Cache 2(缓存2)和 Warehouse(数据仓库)。
- 每个柱状图都显示了内存容量中不同“温度”数据的占比情况:
- Cold(冷数据):长时间未被访问的数据。
- Hot(热数据):近期被访问的数据,并根据访问时间的远近(如1分钟内、2分钟内、5分钟内、10分钟内)做了细分。
- 从图中可以明显看出,在所有四种工作负载中,“Cold”数据都占据了相当大的比例(大约30%到60%不等)。这意味着大部分内存空间被不活跃的数据所占用。
降低内存成本的3个关键要素
PPT提出了一个有效降低内存成本的理想解决方案所需遵循的三个设计原则:
- 目标是提升效率:必须显著提高昂贵的DRAM资源的利用率,解决过度配置和资源搁浅问题。
- 前提是无缝集成:方案必须对用户透明,无需改动现有硬件、架构或应用软件,以避免引入新的成本和复杂性。
- 手段是技术创新:通过将成本低95%的闪存引入内存体系,构建一个DRAM+Flash的混合分层内存架构,从而在保证性能的同时,从根本上降低大内存应用的总体拥有成本。
AI驱动的预测性内存
PPT揭示了MEXT技术的实现机制。其核心是一个基于AI预测的智能内存分层系统。
基于DRAM的智能分层系统,行业内有不少竞争厂商,如 MemVerge:构建多级异构缓存系统;Alluxio:基于预取策略的缓存统一数据平台。智能缓存的概念并不新,算法的关键创新在于理解应用场景的数据访问方式,从而抽象出加速路径。
它通过将昂贵但快速的DRAM作为缓存层,将廉价且大容量的SSD作为扩展层。其技术关键在于MEXT AI引擎:当发生DRAM缓存未命中时,AI不仅会处理当前的读取请求,更重要的是会主动预测并预取接下来可能被访问的相关数据到DRAM中。
这种“预测性推送”机制的最终目的是将多次潜在的慢速SSD访问(多次miss)转化为一次初始的慢速访问,和多次后续的快速DRAM访问(多次hit),从而在利用SSD降低硬件总成本的同时,提供接近于纯DRAM系统的应用性能。
核心架构图与数据流:
图中展示了一个简化的服务器内存访问架构,包含CPU、本地DRAM和通过PCIe连接的SSD。
- 快速路径(DRAM命中):
- 当CPU需要的数据在本地DRAM中时,会直接从DRAM读取。
- 这个过程非常快,图中标注的延迟是 100ns(纳秒)。这是理想的内存访问路径。
- 慢速路径与AI干预(DRAM未命中):
- 当CPU要访问的数据不在DRAM中时(即“Page miss”或页面未命中),请求会转向下一级的存储层——SSD。
- 此时,MEXT的AI系统会介入,执行两个关键操作:
- 拉取页面 (pull page):系统将CPU当前请求的那个数据页面从SSD拉取到DRAM中,以满足当前请求。
- AI推送相关页面 (AI pushes related):与此同时,MEXT AI引擎会分析此次访问的模式,并预测应用程序接下来最有可能需要访问的其他相关数据页面。然后,它会主动地将这些被预测到的页面从SSD推送到DRAM中,这个过程也叫“预取”(Pre-fetching)。
大内存场景应用
MEXT解决方案的性能和性价比
对比100%纯DRAM系统 与 50% DRAM + 50% MEXT与闪存的混合系统
PPT通过具体的基准测试数据,有力地证明了MEXT解决方案的商业价值,其核心观点可以概括为两点:
- 性能几乎无损:在用MEXT的低成本闪存方案替换掉服务器中一半的DRAM后,系统在Redis、Neo4j等典型的内存密集型应用上,依然能保持相当于纯DRAM方案95%左右的性能水平。
- 性价比大幅提升:由于硬件成本显著降低,这种“几乎无损”的性能表现带来了巨大的经济效益,使得MEXT解决方案的性价比(单位成本性能)达到了传统纯DRAM方案的1.7倍。
要点总结
PPT清晰地总结了MEXT为客户提供的三大核心价值主张,IT团队可以根据其最迫切的业务需求来选择最合适的应用模式:
- 削减成本:最直接的价值。通过将DRAM减半,大幅降低服务器的总体拥有成本(TCO)。
- 提升性能:在不增加DRAM预算的情况下,将有效内存容量加倍,从而突破内存瓶颈,提升应用性能或支持更大规模的计算任务。
- 保障稳定:作为内存的“安全气囊”,动态地吸收突发的内存需求,防止关键应用因内存溢出而崩溃,提高系统的健壮性。
延伸思考
这次分享的内容就到这里了,或许以下几个问题,能够启发你更多的思考,欢迎留言,说说你的想法~
- MEXT的AI预测引擎在不同工作负载(如Web、Cache、Warehouse)下,其预测准确性和预取效率会如何变化?如何衡量和优化?
- 在实际生产环境中,将DRAM减半并引入闪存作为扩展层,除了性能和成本,还会对系统的延迟敏感性、故障恢复和运维复杂性带来哪些影响?
- 除了MEXT提出的三种核心价值,AI驱动的预测性内存技术未来还可能在哪些领域(如边缘计算、特定硬件加速)发挥潜力?
原文标题:AI-Powered Predictive Memory: DRAM Performance at Flash Cost[1]
Notice:Human's prompt, Datasets by Gemini-2.5-Pro
#FMS25 #数据智能分层
---【本文完】---
公众号:王知鱼,专注数据存储、云计算趋势&产品方案。
PPT取自 MEXT CEO Gary Smerdon ,在FMS 2025 闪存峰会上的汇报材料。
👇阅读原文,查看历史文章,推荐PC端打开 💻。
- https://files.futurememorystorage.com/proceedings/2025/20250806_BMKT-202-1_Smerdon_v2.pdf ↩