数据库和AI的一次火花

| 导语 通过历史数据,基于时间序列来预测未来。

我们生活中很多数据是有时间维度的。比如说天气或者股票价格。对于这种带有时序的数据,有一种基于时间序列的预测模型---Prophet。

https://github.com/facebook/prophet

上面是项目的地址,需要的小伙伴可以去上面一看究竟。而我主要做的是通过该模型来预测腾讯云数据库存储量变化的未来趋势。下来就来看看Prophet的强大之处吧。

前面说到Prophet是基于时间序列的模型,所以说时间是里面最重要的一个维度(如果您需要预测自己的数据,那么必须是pandas固定的时间格式)。现在就开始直接看下结果吧。

纵轴是腾讯云某类型数据库的购买总量,可以看到随着时间的增长,数据库的购买总量还是在不断增长的。而Prophet所要做的就是根据数据的历史表现来估计数据未来的走势。实验中我选取了2018年1月到6月的数据作为测试集。黑点为真实值,蓝色区域为模型预测的估计值,可以看到随着时间的推移,总体估计容量的趋势是增长的,但是随着时间的推移,不确定性区域越来越大(图中蓝色区域),也可以认为是随着时间的推移,不确定性越来越大。下面来看看真实值与模型预测值是否准确:

图中6月份以后的数值是对模型的测试集,红色区域就是模型未见过的数值与估计值的相对情况。可以明显的看到,该模型估计还是相当准确的呀。可能有很多小伙伴要问了,为啥4月末会出现一个阶段式的跳跃呢?就是我们腾讯云的某月销百亿的电商大客户最近有比较大的手笔。

当然该模型不仅仅可以估计进几个月,也可以估计更长的时间,但是随着时间的推移,可能就更不准确了。

重点就是来了!!!

这东西就是预测一个容量那么简单么?

当然不是了。。主要分两大方面:

1.可以为我们自己提供服务:

(1).可以为我们提供潜在客户的估计。(比如明显可以看到某个公司近几个月飞速购买数据库服务,但是该公司不是我们的大客户。所以很难通过简单的容量排行榜找到他。但是Prophet可以估计出谁可能在后面变成大客户,这样就可以告诉架构师谁是我们的潜在客户。)

(2).还可以通过对我们数据库的总量或者单个客户的数据库总量进行估计,告诉大概什么时候客户需要扩容了,让我们对自己的服务有更好的准备。

2.我们也可以为我们的客户服务:

(1).客户可以通过对自习所选的维度进行分析,相当于一个saas服务。

(2).客户还可以对自己所买的CVM相关的用量进行分析,以便选择最合理的配置。

最后简单说下模型内部结构。

Prophet是一个累加回归模型(additiveregressionmodel)模型的整体构建如下:

y(t) = g(t)+s(t)+h(t)+et

主要有三部分组成:growth(增长趋势)、seasonality(季节趋势)以及holidays(节假日对预测值的影响)。其中g(t)表示增长函数,用来拟合时间序列中预测值的非周期变化。用分段线性或逻辑增长曲线拟合的趋势成分。Prophet会从数据中找出转折点,自动检测趋势变化s(t)用来表示周期性变化,比如每周、每年中的季节等。用傅里叶级数建模的季节成分,以年为单位。用虚拟变量表示的季节成分,以周为单位h(t)表示时间序列中那些潜在的具有非固定周期的节假日对预测值造成的影响。et为噪声项。

原创声明,本文系作者授权云+社区-专栏发表,未经许可,不得转载。

如有侵权,请联系 zhuanlan_guanli@qq.com 删除。

编辑于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI研习社

谷歌发布「与书对话」AI 工具,从字里行间邂逅心仪书籍

AI 研习社消息:今日,谷歌分享了 Semantic Experiences,在博客中展示了两大关于自然语言理解的互动工具。Talk to Books 是一个可...

421
来自专栏专知

人工智能“读心”有术

任何同Siri或Alexa有过令人沮丧的互动体验的人都知道,数字助理无法同人类媲美。而它们需要的是被心理学家称为“心智理论”的东西—— 一种意识到其他人的信念和...

585
来自专栏AI研习社

如何用 3 个月零基础入门机器学习?

写这篇文章的初衷是大部分私信我的朋友都想了解如何入门 / 转行机器学习,搭上人工智能这列二十一世纪的快车。再加上这个问题每隔一阵子就会在知乎时间线上出现一次,因...

34510
来自专栏AI科技评论

谷歌发布「与书对话」AI工具,从字里行间邂逅心仪书籍

谷歌在自然语言理解研究的全新尝试。 AI 科技评论消息:今日,谷歌分享了 Semantic Experiences,在博客中展示了两大关于自然语言理解的互动工具...

3387
来自专栏AI科技大本营的专栏

AI调参师会被取代吗?对话AutoML初创公司探智立方

1955 年,约翰·麦卡锡(John McCarthy)、马文·闵斯基(Marvin Minsky)、克劳德·香农(Claude Shannon)等人聚在一起,...

392
来自专栏Python攻城狮

DIKW模型与数据工程1.DIKW 体系2.数据工程领域中的DIKW体系3.数据工程 领域职业划分4.数据分析5.数据建模基础

DIKW体系是关于数据、信息、知识及智慧的体系,可以追溯至托马斯·斯特尔那斯·艾略特所写的诗--《岩石》。在首段,他写道:“我们在哪里丢失了知识中的智慧?又在哪...

863
来自专栏专知

深度学习并非万能:你需要避免这三个坑

本文是人工智能专家George Seif撰写的博文,介绍了在当前深度学习比较火热的情景下需要避免的三个坑。

791
来自专栏AI研习社

工程师在 AI 实践的路上,可能会踩到这些坑——前 Amazon 中国研发中心架构师蔡超演讲

蔡超,移动营销平台 Mobvista 汇量科技技术副总裁,前亚马逊中国研发中心架构师,拥有 15 年软件开发经验,其中 9 年任世界级 IT 公司软件架构师 /...

4098
来自专栏人人都是极客

零基础入门机器学习

这篇文章的初衷是很大一部分朋友都想了解如何入门 / 转行机器学习,搭上人工智能这列二十一世纪的快车。 本文的宗旨是: 1. 指出一些自学的误区 2. 不过多的...

3916
来自专栏cloudskyme

跟我一起数据挖掘(19)——什么是数据挖掘(2)

什么是数据仓库? 数据仓库是一个面向主题的( Subject Oriented) 、集成的( Integrate) 、相对稳定的(NonVolatile) 、反...

3275

扫描关注云+社区