首页
学习
活动
专区
工具
TVP
发布

数据科学和业务安全的基本概念(二)

数据科学驱动的安全项目和传统的网络安全差别在哪里

数据科学已经在很大程度上,开始在安全领域展露头脚。比如赛门铁克在东南亚几百人的病毒特征团队已经被一个十几个人的数据科学团队所替代。数据科学家通过自动化的特征提取来替代了传统的人工特征提取和比对工作。

但是并不是传统的规则方法在所有的领域都已经失效或者,或者专家系统方法相对于数据科学总是处于劣势。在防火墙,PC杀毒杀毒软件,协议保护,应用加扰等方面,传统的专家规则和PKI数字签名体系还是效果明显的。

当前,数据科学驱动的安全项目主要适用于具有如下特征的场景。该场景通常需要大量与该问题相关的数据。这些数据被收集和存储以用来解决问题。

能够允许包括数据科学家和领域专家在内的多人都参与其中。

能够有特定的方法手工或者自动的标注数据,以供模型训练使用。

能够容忍花费数周至数月时间来数据清洗和开发一个能够产生良好结果的模型。

下图是一个使用了数据科学获取数据,训练模型,进而应用到生产系统的流程。我在图中忽略了验证集数据验证模型的过程。

系统从大量数据训练开始,或称为训练集。这些数据是从要解决的实际问题实例中仔细挑选的,并存储为知识库。例如,在语音识别中,它是一系列以特定语言阅读的文本。在业务安全方面,这可能是恶意用户的行为和设备数据。

数据科学家选择和清洗数据,以便于更好的描述所研究的问题并最终形成可以识别的产品模型。在数据整理期间,为模型提供正例和负例同样重要。异常检测模型同时需要这两种场景,但是如果负样例数据太多,或者负样例不足,都会降低结果的质量。

对数据运行归一化和聚类,最终确定一组特征向量。使用测试数据,可以验证模型是否有效,可以获得期望的结果。特征向量通常包含了太多细分维度的特征值,很难被任何其他系统或人类识别。这样,机器学习算法被训练成预测模型,他对验证集数据的预测结果和已知的标定结果进行比对,可以获得这个模型预测的精度。持续这种训练和验证过程,直到模型足够精确。最终的生产模型包含数据特征、概率、标签和其他数据的描述。

对于自进化模型,当模型被应用于现实世界,新的数据不断输入,特征向量不断被提取并应用于产品模型当中,通过不断的训练更新模型。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190122G0G10X00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券