数据中心网络流量采集的部分难题

大数据观察

了解大数据,关注大数据观察吧!

每个想了解最新大数据资讯的人,都关注了我

文 / 数据君

随着数据中心运维精细化要求不断提高,网络流量采集分析已经成为数据中心基础设施不可缺少的分析手段,通过网络流量深度分析,我们能够更直观地加快故障定位、分析应用数据、协助优化定位,加快故障定位。

网络流量采集也是一门学问,做得好会在关键时刻起作用,做得不好就会形成虚设,反而还要占用大量的网络带宽资源,这样的流量采集不如不做。

流量采集可不是简单地将几个网络设备端口的流量镜像一份发给分析服务器就了事,要建立一个覆盖全面、合理有效的流量采集网络,这样的流量采集才能有助于优化网络和业务性能指标,减少故障发生概率。当然,网络流量采集也面临着不少新问题。

流量增长太快

根据预测,到2019年数据中心的流量将为2014年的三倍,平均每年保持着30%的增长率,不要只看增长率,其实2014年的流量基数就很大,2014年就有2.1ZB。

流量的增长会给监管带来很多问题。比如:现有的监控服务器处理能力不够,镜像流量过大导致设备端口或内部通道拥塞,流量种类太多导致采集类型不完整等等。

所以,流量增加后会带来一系列问题,监管的手段也要随之调整,否则就无法真实采集到流量实时状态,甚至还会对现有业务造成影响。

如果采用的是采样的方式,就有一定的采样比,随着流量的增长,采集的流量会多一些,也可能会漏掉一些特征流量,还有可能采集的流量太大,将设备CPU打爆,这时就要降低采样比,但这时降低采样比采集的样本流量会更少,准确度下降。

总之,当流量在不断增加时,不仅要对设备进行扩容,对采集流量的方法也要调整,否则流量采集起不到监管作用。

采集需求多样化

数据中心网络承载的业务种类越来越多,流量特征也越来越多,有时就需要针对不同流量部署不同的采集技术。

像镜像、Netflow、Netsteam、Erspan等都可以作为流量采集的技术。镜像种类就很繁多,可以基于端口镜像、基于某些特征流镜像,基于VLAN镜像,镜像流量可以发向多台监控服务器,可以跨多台设备镜像,或者通过VLAN广播,以此来满足各种流量采集的要求。

就算有这么多种类的流量采集方式,时常也得不到满足。

像Netsteam受限于技术实现,有的只能识别五元素IP特征的流量,对于IP头其它部位变化特征则无法采集和分类,有的设备采用CPU软件实现,处理能力过低,有的设备采集FPGA硬件实现,识别流量的种类就没有那么丰富。

再有,在一个高冗余的网络架构中,二层多路径等技术也对流量采集提出了挑战,不同路径均有流量分布,就需要在所有链路上都部署流量采集点,这样相同的流量在不同的链路上均能采集到,实际得到的流量要比采样比还高。

数据安全要求高

人们对数据中心安全越来越重视,尤其担心自己的隐私数据遭到泄露或者被人所利用,若在数据中心部署过多的流量监控,易引起人们的反感,这就像是在换衣间安装了摄像头一样,觉得自己的隐私受人监控,所以数据中心里的数据流量并不允许随意去采集,作为数据分析使用,所以要流量采集取之有道,流量监管信息公开,让人们放心使用数据中心的应用。

数据中心网络承载着客户业务的重要数据,要对数据进行安全检查,避免在数据采集的过程中出现信息泄露,安全问题绝对是在进行采集网络规划建设时首要重点考虑的问题。

对于部分重要的生产网络流量数据,必须要进行脱敏处理,隐藏客户敏感信息,避免信息泄露。

在数据分析后,及时将原始数据进行销毁,避免流量数据被泄露或为他人不法所用。

主题 |网络流量采集

插图 | 网络来源

作 者 介 绍

数据君:)

了解大数据,关注大数据观察

部分图文来自网络,侵权则删

我想给你一个理由 继续面对这操蛋的生活

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181008B1IO3700?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券