我用 Python 算了下:编程教室的用户数哪天能到100万

这是一篇正经的数据分析案例。

去年12月初,在经过四年多的积累后,编程教室微信公众号的关注人数突破10万人。(可回顾 最开始我也没有想过会有这么一天…

10万人只是另一个开始,让我感到责任更大了。如果不写出更多更好质量的文章和教程,也对不起大家的关注啊。人数不是目的,内容才是王道。

但是嘛,偶尔也会 yy 一下,什么时候我们的关注数能到达更高的量级,比如,100万

既然 Python 可以用来做数据分析,何不根据我们公众号现有的用户增长数据来分析一下,什么时候可以迎来第100万个关注者

说干就干!(不想看过程的直接拉到最后看结论

微信后台可以导出用户增长数据的 excel 表格。数据从2013年7月开始,每次导出时间间隔最多一年。我们编程教室的账号是2013年6月份创建的,虽然差了一点点,但也足够了。

把几年的数据合并一下,我们这次只关注其中的“累积关注人数”和“时间”。通过 matplotlib 把增长曲线绘制出来

显然这不是一个简单的匀速增长曲线,而是加速增长!这让我甚感欣慰。

核心代码

# x_data 时间列表
# y_data 用户数列表
plt.plot(x_data, y_data,'g')
plt.show()

那么从数学上来看,有没有能够较好拟合这个增长曲线的模型呢?我们来尝试几个最常用的拟合曲线,看看效果。

多项式拟合

多项式拟合即用形如

的函数曲线来拟合现有的数据。比如三次多项式拟合就是对公式

中的4个系数求解,使得函数曲线与数据“最接近”。

至于怎样才算是“最接近”?直观来考虑,就是拟合曲线和实际曲线上对应点的距离最短,即绝对值最小。以我们的例子来说,就是拟合函数算出的每天总关注人数和当天实际总关注人数的差,我们要让这个差值的总和最小。

但因为绝对值之和不容易处理,所以通常我们选择差值的平分和来替代。这就是“最小二乘法”。

更数学化的表述就是,我们要找出拟合曲线中的一组参数 c,使得模型与实际值上每一点的残差 ek 的平方和最小。

我们绘制了从1次多项式(线性函数)到9次多项式的拟合曲线:

因为我们的目的是要预测之后的趋势,所以选择的拟合天数要大于实际数据的天数。

从图上就能比较直观地就看出,1次、2次等低阶曲线不能很好地贴合原数据,3~8次效果都还不错,而9次曲线在不久之后就会因为过拟合而产生不合理的波动。

对于多项式拟合,numpy 提供了现成的 polyfitpoly1d 函数供调用。

核心代码

# x_np 实际数据,时间
# y_np 实际数据,用户数
# x_fit 拟合数据,时间
coeff = np.polyfit(x_np, y_np, k)
poly = np.poly1d(coeff)
y_fit = poly(x_fit)
plt.plot(x_fit, y_fit)

指数拟合

指数函数是重要的基本初等函数之一,这里我们通过确定以 e 为底的函数

中3个参数 a、b、c 来进行拟合。

看起来拟合效果还不错。

numpy 没有提供直接的指数拟合函数,但我们可以通过 scipy 库里的 scipy.optimize.leastsq 实现最小二乘法。

核心代码

def func(x, p):
    a,b,c = p
    return a * np.exp(b * x) + c

# 残差函数
def residuals(p, y, x):
    return y - func(x, p)

pe = [1, 0.0001, 1]  # 初始预测值
plsq = leastsq(residuals, pe, args=(y_np, x_np))
y_fit = func(x_fit, plsq[0])
plt.plot(x_fit, y_fit)

幂函数拟合

幂函数和指数函数有点类似,只不过我们使用的函数是

同样也是3个参数。

拟合的效果与前面的指数函数有点相似。代码中,我们也只要在刚才的基础上,修改一下 func 函数即可。

核心代码

def func(x, p):
    a,b,c = p
    return a * x ** b + c

拟合效果评价

以上几种方法虽然看起来都不错,但结果毕竟有不小的差异,究竟哪一个更“科学”一点呢?

我们通过几个评价指标来衡量一下:

均方根误差(RMSE):真实值和预测值之差的平方和。这其实就是我们拟合时的判断基础啊。只不过加上了根号,使得结果的量纲更加合理(否则就是均方误差MSE)。

平均绝对误差(MAE):和 MSE 的区别就在于直接使用真实值和预测值之差的绝对值作为衡量标准。

R平方(R2) :因为 MSE 结果的大小取决于不同数据的本身数值大小,并不统一。R2 则是在此基础上,将其转换至 0~1 之间,以便于评价。

以上指标,sklearn 库均在 metrics 中提供了方法。

核心代码

# ploy 拟合函数
rmse = sqrt(metrics.mean_squared_error(y_np, poly(x_np)))
mae = metrics.mean_absolute_error(y_np, poly(x_np))
r2 = metrics.r2_score(y_np, poly(x_np))

当然,这些指标都是基于拟合函数与已有数据的判断,对于未来的预测,谁也说不准,只能是“仅供参考”。毕竟如果可以预知未来,那我大概早就 all in 比特币了。

最终结果

函数

100万用户

RMSE

MAE

R2

1次

2063/4/15

12132

9388

0.846

2次

2026/5/18

4802

3377

0.974

3次

2022/6/25

2939

1765

0.990

4次

2021/3/12

2637

1957

0.992

5次

2019/12/12

1901

1519

0.996

6次

2019/5/16

1143

748

0.999

7次

2019/3/6

994

507

0.999

8次

2019/3/11

994

510

0.999

9次

975

531

0.999

指数

2020/12/16

2682

1722

0.992

幂函数

2022/12/28

3462

2440

0.987

综合结果来看,编程教室的百万用户很可能在2019~2022年之间到来。对3~8次多项式、指数函数、幂函数的预测结果做个简单的平均,那么这一天就是:

2020年5月27日

只需要 811 天,想想还有点小激动呢。

忽然,我想到了那个诡异的9次函数,说来也不是不可能哦:当人数过了40万,因为某个不小心被封了号,一切归零。这也不是什么新鲜事儿。

所以,我还是老老实实写教程吧。猥琐发育,别浪!

数据及完整代码已上传,需要的同学请在公众号(Crossin的编程教室)里回复 百万

  • 如需了解视频课程及答疑群等更多服务,请号内回复 码上行动
  • 代码问题请在论坛 bbs.crossincode.com 上发帖提问
  • 点击文章最下方的“阅读原文”,查看更多学习资源
  • 别忘了将我们的文章转发朋友圈或在知乎上为我们的专栏点赞,你们的支持将会让编程教室做得更好:)

原文发布于微信公众号 - Crossin的编程教室(crossincode)

原文发表时间:2018-03-08

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏ATYUN订阅号

【学术】从一个简单的模型开始,可以让机器学习更高效

AiTechYun 编辑:xiaoshan ? 要创建通用人工智能,必须首先掌握逻辑回归 从基础开始 在试图发展对世界的科学认识的时候,大多数的领域在探索重要的...

4167
来自专栏机器学习算法与Python学习

干货|谷歌大规模机器学习:模型训练、特征工程和算法选择

关键字全网搜索最新排名 【机器学习算法】:排名第一 【机器学习】:排名第二 【Python】:排名第三 【算法】:排名第四 谷歌机器学习:实际应用技巧 ? ? ...

6955
来自专栏数据小魔方

那些培训师都不曾告诉你的关于Excel图表的秘密~

之前在Excel图表合集那篇文章了曾提了几点Excel与其他可视化工具以及编程类软件在可视化理念方面的粗浅理解,有小伙伴儿在后台回复说还是没有听明白。 可能是...

4098
来自专栏PPV课数据科学社区

32页ppt干货|谷歌大规模机器学习:模型训练、特征工程和算法选择

谷歌机器学习:实际应用技巧 ? ? 什么是机器学习(ML)? 从概念上讲:给定(训练)数据,发现一些潜在的模式并将这个模式应用于新数据。 ML 的类型:监督学习...

51910
来自专栏技术翻译

机器学习如何改变软件开发

让我们把几件事弄清楚。虽然神经网络、深度学习、机器学习和人工智能似乎都是一样的,但它们都有各自的历史、起源和等级制度。

2331
来自专栏程序你好

什么是TensorFlow,TensorFlow教程

1212
来自专栏MixLab科技+设计实验室

写给设计师的人工智能指南:如何找出相似的文章

聊聊文本挖掘中的 “找出相似的文章”, 为“推荐系统”做准备。 以下为正文。 ---- 先了解下文本挖掘的一般过程。 如何让计算机读懂一段文字? 本质上要解决的...

39510
来自专栏非著名程序员

GitHub 上最火,最热门的机器学习和人工智能,数据科学项目

最近,普拉纳夫 · 达尔(Pranav Dar)发文总结了 2018 年 2 月份 Github 上最火的 5 个数据科学和机器学习项目。

1073
来自专栏新智元

谷歌大规模机器学习:模型训练、特征工程和算法选择 (32PPT下载)

【新智元导读】在 ThingsExpo 会议上,谷歌软件工程师 Natalia Ponomareva 作了有关如何在大规模机器学习中取得成功的讲座。Natali...

39310
来自专栏PPV课数据科学社区

【学习】推荐算法实践

前言 推荐系统并不是新鲜的事物,在很久之前就存在,但是推荐系统真正进入人们的视野,并且作为一个重要的模块存在于各个互联网公司,还是近几年的事情。 随着互联网的深...

2923

扫码关注云+社区

领取腾讯云代金券