Elasticsearch 如何保证写入过程中不丢失数据的

文章来源：企鹅号 - 蓝胖子的编程梦

丢失数据的本质

在本文开始前，首先明白一个点，平时我们说的组件数据不丢失究竟是在指什么，如果你往ES写入数据，ES返回给你写入错误，这个不算数据丢失。如果你往ES写入数据，ES返回给你成功，但是后续因为ES节点重启或宕机导致写入的数据不见了，这个才叫数据丢失。

简而言之，丢失数据的本质是ES本身搞丢了返回结果是成功写入的数据。

数据写入流程

image.png

1，写入时，ES会首先往一块内存缓存中写入数据，这快内存缓存在ES中叫index buffer，此时数据是不可见的，只有经过refresh操作后，数据才能变得可见。

index buffer的大小设置可以通过下面的请求去进行设置，如下，设置了index buffer的大小为总内存的30%

PUT /_cluster/settings

{

"persistent" : {

"indices.memory.index_buffer_size" : "30%"

}

request 会在每次创建segment写入数据后就对translog进行刷盘操作。

3，refresh 操作可以主动触发也可以定时触发，默认是1s会进行一次，该操作会创建一个lucece的segment段用于存储新写入到index buffer中的数据，注意这里即使写入到了segment里，数据还是在os Cache系统文件系统缓存中，并没有落入磁盘，只有在lucece将数据 commit 到磁盘后，数据才能落盘。

发表于: 2024-03-152024-03-15 11:33:43
原文链接：https://page.om.qq.com/page/OVpErT3nGAx4FHeSqspy-7xA0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

Elasticsearch 如何保证写入过程中不丢失数据的

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐