首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

任昱衡:去油存肉,说说怎么删除大数据下的重复数据

对企业来说,拥有海量的大数据既是幸事也是不幸的事,因为数据太多。因此,企业要懂得大数据的取舍之道,即把有意义的数据留下了,把无意义的数据果断舍弃掉。

哪些数据需要保留,哪些数据需要删除,这完全取决于企业,到底删除的对还是不对,有效还是无效,这只能是企业自己判定。因此,企业在进行大数据删除之前,应该先要弄清楚,需要什么样的数据,以及如何判断这种需要,这样才能够举一反三的明白到底要删除那些不需要的数据。

重复数据删除是一种数据缩减技术,其目的是为了节省存储系统中使用的存储容量。它的工作方式是在某个时间周期内查找不同文件中不同位置的重复可变大小数据块,这种技术可以实现10:1~50:1的缩减比。而且重复数据删除技术可以允许用户在不同站点之间进行高效经济的备份数据复制。其中,高度冗余的数据集(比如,备份数据)从重复数据删除技术中获得很大的收益。

重复数据删除技术在备份领域中应用很广泛。因为企业在备份过程中往往会存储大量的重复数据,从而导致浪费了大量存储空间。通过重复数据删除技术,企业的备份解决方案才变得更加高效、完善。

企业在选择重复数据删除产品时,应该注意哪些方面呢?

01

重复数据删除是否对企业有意义

重复数据删除并不是对所有企业都适用的,根据一些调查显示,一些类似医疗影像处理的数据并不适合进行重复数据删除,另外金融、电信等对数据可靠性要求比较高的行业对重复数据删除也需要谨慎对待。企业如果是为了赶时髦、追潮流,而不考虑自身企业的数据情况,那么利用重复数据删除产品只能取得适得其反的结果。

02

重复数据删除对现有备份环境有多大影响

一般情况下,企业在做两次全备份时,其时间间隔不会太长,也就是说备份中的数据大部分都是相同的,通常只有不超过5%的数据是不同的。因此,重复数据删除绝对可以给企业备份系统带来很大的好处。那么重复数据删除对企业现有备份环境到底能造成多大的影响呢?

在讲解影响之前,先要说一下重复数据删除的处理方式。一种是在线处理方式,另一种是后处理方式(Post-Processing)。这里需要特别说明一下,In-line方式可能并不适合你当前的备份环境,如果盲目地选择了In-line方式,很可能会给你的备份环境带来很大的改变:

(1)可能你的备份软件需要升级、备份设备需要更换。

(2)可能改变你的备份机制、备份习惯。

(3)可能会使备份处理的速度变的很慢,甚至引发无法预计且不可恢复的数据丢失。

因此,用户要仔细考虑重复数据删除产品对现有备份环境的影响进行评估,尽量选择那些对已有备份环境没有影响的产品。

03

重复数据安全性如何保障

很多用户都有同样的疑问:当企业进行完重复数据删除后,原先的备份数据只剩下单一不重复的数据,更令人不解的是这些单一不重复的数据还集中保存在一个存储区域中。这时如果这个存储区域出现问题,这些数据能恢复吗?其实,这个问题重复删除数据技术在开发之前就已经考虑过了,VTL(Virtual Tape Library,即虚拟磁带库)在重复数据删除解决方案中的重要性也显现出来了。用户可以在VTL中再拷贝一份单一不重复数据,还可以通过远程镜像技术将数据镜像到不同地域的不同存储设备上。另外,用户还可以通过高可用性架构来消除单点故障,提高VTL系统自身的高可靠性,使整个备份系统更安全。

04

重复数据删除的扩展性和成本

用户即使选择了重复数据删除技术,还要考虑存储解决方案的可扩展性问题。因为企业的数据量一直在增长,存储容量也一直在增加。从长远角度来看,单台重复数据删除设备根本无法满足企业的需求,这就需要企业引进多台重复数据删除设备。有了多台重复数据删除设备企业还要面对集群架构必须具有良好的扩展能力和集群式的重复数据删除技术。

企业要选择的集群架构要具有以下特点:

(1)集群架构要能通过统一性的添加VTL节点来扩展。

(2)集群架构要能保证在任意时间都能添加存储而不出现中断处理情况。

只有满足以上两点要求,集群架构才能够具有最优的管理能力和扩展能力。如果厂商不能够提供很好的扩展方案,那么极易使企业形成备份“孤岛”。那时,企业再进行优化,其设备采购成本、管理复杂性和管理成本都会增加很多。

05

如何通过调整满足自身需求

每个企业所面临的情况不同,其重复数据删除要求也不同,这时IT部门就要能够通过细微调整重复数据删除技术以满足自身需求。比如,在企业数据保护环境中可能存在特殊的重复数据删除要求的数据类型,这时选择合适的重复删除数据技术使之能够针对不同的数据类型选择最有效的重复数据删除方法。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20200428A0GQKZ00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券