前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >日志场景下 Elasticsearch 数据管理和存储优化策略

日志场景下 Elasticsearch 数据管理和存储优化策略

原创
作者头像
点火三周
发布2024-08-04 09:45:09
1120
发布2024-08-04 09:45:09
举报
文章被收录于专栏:Elastic Stack专栏

在Elastic公司,我们大多数成功的客户实施案例都始于一个单一的用例,旨在解决特定的业务需求。开发人员通常因为Elastic提供的功能而首次采用它。然而,由于其灵活性和可定制性,客户往往会将Elastic扩展到其他需求,比如日志记录和应用性能监控、SIEM和安全操作,甚至是利用Elastic中的数据进行更复杂的搜索用例。

在当今的IT环境中,仅仅存储数据(如日志、跟踪、指标和文档)是不够的。组织需要一种解决方案,使他们的团队能够快速有效地访问和利用这些数据。在数据管理中,效率至关重要,因为每一份存储的数据都会产生硬件、许可、维护和管理的成本。

在这篇博客中,我们将详细解释组织如何通过优化不同层次的数据存储来节省成本,并从数据中获取更多价值。

挑战:高效且可扩展的数据管理

组织喜欢Elastic的速度、可扩展性、可定制性和功能性。因此,他们经常会为Elastic找到新的用例。当大量数据被摄取而没有考虑如何存储、管理和使用时,这就会成为一个挑战,导致数据管理中的瓶颈。随着数据的增长,现有的设置可能难以应对新的需求,达到硬件和许可的极限。

如果你的组织正在经历这些问题,解决方案可能比你想象的更容易。

解决方案:业务驱动的数据策略

解决这个问题的方法是制定一个与业务目标一致的数据策略。与其根据任意需求收集和保留数据,不如问自己以下几个问题:

  1. 需要收集哪些数据来推动业务目标?
  2. 这些数据的使用频率如何?
  3. 这些数据是否有过期时间,过期后不再有价值?
  4. 这些数据是否有合规性要求?

根据上述问题的答案,组织可以创建一个业务驱动的数据策略,优化数据的存储和利用方式,最大化现有的Elastic投资。

案例研究

为了展示采用这种策略的好处,让我们探讨一个客户的案例研究。

这个客户通常每天处理5TB的数据,每秒处理约250,000个事件。然而,有时数据量会增加到每天7TB和每秒350,000个事件。这个客户的Elastic实施主要集中在摄取大量的安全数据,并使其可供安全操作中心(SOC)团队搜索网络事件和欺诈调查的信息。

这个实施如此成功,以至于客户增加了新的用例,要求更长的数据保留时间和更快的搜索能力,目标业务结果包括:

  • 日志优化: 通过优化数据层次,组织可以改进日志管理实践,确保保留适量的日志,提高操作效率和合规性。
  • 改进许可证利用率: 高效的存储分层意味着更好的许可证利用率,使组织能够最大限度地利用现有资源,避免不必要的许可成本。
  • 提高业务效率: 更高效地从日志中获取见解可以提高业务效率,加快决策速度并进行更明智的战略规划。
  • 引入新用例: 优化的数据层次使组织能够轻松引入新用例,扩展数据分析能力,而无需大规模基础设施投资。
  • 明确的数据策略: 优化的数据分层有助于形成明确的数据策略,确保数据可靠、易于访问和有效治理,为数据驱动的决策奠定基础。

数据分层

数据分层是一个复杂且细致的主题,值得单独写一篇博客来详细说明。然而,为了定义数据策略,可以将不同的数据层次简化为三种主要用途:摄取、搜索和存储。

  • 摄取(热层): 尽可能快速地摄取数据,延迟最小。
  • 搜索(热层和温层): 快速搜索数据并处理大数据集。
  • 存储(冷层和冻层): 根据需要存储数据,并进行低频率的临时搜索。

数据增长和保留

了解数据保留需求的范围对于合规和高效的数据管理至关重要。不同的法规要求不同的保留期限:

  • 等保要求:180天
  • SOX保留要求: 7年
  • HIPAA数据保留要求: 6年
  • PCI DDS数据保留要求: 1年
  • GDPR员工记录:
    • 工资:3年
    • 税务记录:6年
    • 姓名、地址:3年
  • 公平劳动标准法: 2-3年

旧架构 vs. 新架构

旧架构 旧架构有两个数据中心,采用四层存储实现,满足各种数据处理需求。这种实现需要更多的硬件、许可证和操作管理的开销。

客户保留所有日志90天,无论数据的使用情况如何。

  • 7天热层
  • 2天温层
  • 10天冷层
  • 剩余时间在冻层

客户在热层和温层中使用相同的硬件。温层纯粹用于强制合并索引以用于可搜索快照。温层和冷层在CPU和存储方面非常未充分利用。冻层较窄,导致历史搜索较慢。

冻层慢速历史搜索
冻层慢速历史搜索
慢速历史搜索
慢速历史搜索

新架构 在审查数据的使用情况后,发现以下几点:

  • 大部分高容量数据仅在摄取后的前24小时内被搜索。
  • 24小时后,数据主要用于安全调查,需要临时搜索。
  • 一些特定索引需要保留更长时间以用于报告。
  • 由于新的合规要求,数据需要保留长达一年。

迁移到热/冷/冻架构

  • 热层节点有足够的容量执行强制合并活动,允许移除温层。
  • 大部分数据在36小时后可以从热层直接转移到冻层。
  • 需要本地存储用于报告用例的数据可以保存在冷层。
  • 热层也可以减少,因为需要保留的数据量减少了。
  • 扩展冻层增加了可供搜索的缓存量,提高了搜索性能。此外,它允许数据保留一年而不是仅仅90天。

存储优化

  • 更好的存储密度:冷层可以利用可搜索快照作为副本。冻层将所有数据存储在快照存储库中,仅在本地缓存查询结果。
  • 减少的数据复制需要更少的节点,减少了硬件和许可证的利用。
  • 所有层次都使用相同的存储需求,使硬件易于整合和重复使用。
  • 这些变化释放了20-30个节点和许可证,这些被重复利用以构建其他用例。

新架构旨在整合日志和安全工作负载的硬件配置文件,可能引入第三个区域以增加弹性。它还专注于存储优化,包括更好的存储密度和减少数据复制,导致所需节点减少和优化的许可证利用。这种架构允许硬件配置文件的整合。

硬件配置文件的整合
硬件配置文件的整合
原始部署总计
原始部署总计

重构架构的好处

  • 改进的数据保留策略: 更高效的存储分层策略可以带来更好的数据保留,这对于安全和合规尤其重要。
  • 简化的平台管理: 整合硬件配置文件和减少所需节点数量可以简化平台管理,减少操作开销。
  • 减少硬件占地: 计算资源和存储密度的优化可以减少硬件占地,节省空间和能源。
  • 增强的投资回报率: 通过优化存储层次,组织可以实现更好的投资回报,充分利用现有基础设施。

新架构的优点包括管理更简单、许可证和硬件利用率更高、数据保留时间更长以及部署规模更小,从而加快升级速度和提高基础设施弹性。然而,潜在的缺点可能包括对于某些需要快速存储和高IOPS的用例来说,搜索性能较慢,因为更多的数据存储在冻层中。

实施策略

分层数据策略允许组织优化最近数据的性能,同时高效地存储大量数据。通过利用分片分配意识,组织可以定义每个层次的特征,并根据数据策略安排索引的迁移。这确保了数据在任何时间都存储在最合适的硬件层次上,平衡了性能和成本的考虑。

示例存储层次和内存比率

规划Elastic的增长时,内存与存储的比率是一个关键考虑因素。以下是Elastic客户可用的四个存储层次:

  • 热层: 优化摄取和搜索性能,通常使用高速SSD,内存与存储的比率约为1:30
  • 温层: 优化存储容量,使用SSD或HDD,内存与存储的比率约为1:160
  • 冷层: 优化存储容量,使用可搜索快照作为副本(虽然存储比率与温层相同,但移除本地副本将存储需求减半)
  • 冻层: 优化归档目的,采用廉价的快照存储,并在本地磁盘缓存中提供内存与存储比率超过1:1000

不同存储配置的高层次成本分析

在我们的分析中,我们评估了各种存储配置的总体拥有成本(TCO),以优化另一位客户的 Elastic 实施。以下是这些配置及其相关成本的详细分析:

  • 自我管理的 ES 集群
  • 每天1TB的数据摄取量
  • 总保留时间为365天

配置

保留天数

节点数量

硬件成本

快照存储成本

总成本(TCO)

热-温

7天热,358天温

4个热,60个温

$44,954

$7,665

$52,619

热-温-冷

7天热,90天温,268天冷

4个热,15个温,23个冷

$28,231

$7,665

$36,795

热-温-冻结

7天热,90天温,268天冻结

4个热,15个温,3个冻结

$17,051

$7,665

$22,204

热-冻结

7天热,358天冻结

4个热,4个冻结

$6,198

$7,665

$12,066

容量规划的考虑因素

在为每个层级规划容量时,必须根据其特定需求独立进行大小调整。这涉及到了解每个层级的存储和性能需求,并确保它们得到充分的配置。此外,组织还需要考虑整体容量需求以及不同层级之间的相互作用,以确保存储策略的平衡和高效。

最后的思考

优化存储分层不仅仅是为了节省成本;更重要的是,它能够帮助组织应对新的挑战和机遇。

通过使用数据策略原则来处理平台优化挑战,组织可以促进新的用例,提升数据可靠性,并增强整体数据策略。查看我们的文档,了解您的组织如何通过数据分层构建一个具有韧性和高效的 Elastic 实施方案。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 挑战:高效且可扩展的数据管理
  • 解决方案:业务驱动的数据策略
  • 案例研究
    • 数据分层
      • 数据增长和保留
        • 旧架构 vs. 新架构
          • 重构架构的好处
          • 实施策略
            • 示例存储层次和内存比率
            • 不同存储配置的高层次成本分析
            • 容量规划的考虑因素
            • 最后的思考
            相关产品与服务
            数据保险箱
            数据保险箱(Cloud Data Coffer Service,CDCS)为您提供更高安全系数的企业核心数据存储服务。您可以通过自定义过期天数的方法删除数据,避免误删带来的损害,还可以将数据跨地域存储,防止一些不可抗因素导致的数据丢失。数据保险箱支持通过控制台、API 等多样化方式快速简单接入,实现海量数据的存储管理。您可以使用数据保险箱对文件数据进行上传、下载,最终实现数据的安全存储和提取。
            领券
            问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档