对于随机数的一些分析

多年前我朋友圈的一个朋友公司年会抽奖出现了下面的这样一幕:CTO现场review代码。本来带着一丝娱乐精神,结果被无限放大了。所以年会中大家都会很自然想review下代码。

比如这种姿势:

然后就开始review代码。

我们就开几个脑洞,来从我的理解来说一下随机数的情况。

生成一个随机数看起来很简单,实则不易,怎么让一个确定的值得到一个不确定的值,这个想起来都有点困难,所以如果自己想实现,结果发现远比自己琢磨的要复杂的多,如果放眼程序领域,就拿Java来说,Java不同版本中对于随机算法的实现是有差别的。

比如Random的方法在JDK6中会使用System.nanoTime()的方式,而在早期的版本是使用currentTimeMillis,相比而言,nanoTime是以毫微秒为单位,而currentTimeMillis返回的是系统当前时间和1970-01-01之前间隔时间的毫秒数。

而且在随机算法的实现细节上,也有一些差别。

关于随机算法,还有一本书,这本书有400多页,涉及的面非常广。

而如果我们不写SQL行不行,肯定可以,因为对于DBA来说,SQL能做任何想做的事情。

比如要得到一个随机数,写SQL其实有很多中写法。比如限定数据的范围是7~12,可以这样写。

mysql> SELECT FLOOR(7 + (RAND() * 6));
+-------------------------+
| FLOOR(7 + (RAND() * 6)) |
+-------------------------+
|                      10 |
+-------------------------+
1 row in set

比如限定的数据范围是100以内,可以这样写。

mysql> select truncate(round(rand(),2)*100,0);
+---------------------------------+
| truncate(round(rand(),2)*100,0) |
+---------------------------------+
|                              78 |
+---------------------------------+

当然这样只是最基本的实现,还没有考虑到种子函数的影响。

我们暂且抛开实现的复杂度,来看看结合一些场景的不同实现,我临时自造了几个概念,但是意思应该是相通的。

平均随机数

这是一种看起来随机,但是数据分布又可控的方式。

比如1~100我生成10个数字,我可以每10个数字分为1组。每组做一个随机。

这样我对1~10生成一个随机序列,比如第一个随机数是2,我就从20~29里面选择一个数字,下一数字是5,则从50~59里面选出1个数字。

通过这种方式数据的分布方式决定是可控的,但是又保证了随机的特性。

一次性随机数

这类随机数就好比陕西的油泼面一样,简单快捷,一勺油即可搞定。如果我需要10个数字,那么我一次就生成10个随机数字。

看起来实现有些难,其实还好,使用rand()和limit即可。

插入8条数据。

mysql> insert into random values
(1),(2),(40),(30),(20),(9),(15),(21);
Query OK, 8 rows affected
Records: 8  Duplicates: 0  Warnings: 0

默认得到的数据是有序的。

mysql> select *from random;
+----+
| id |
+----+
|  1 |
|  2 |
| 40 |
| 30 |
| 20 |
|  9 |
| 15 |
| 21 |
+----+
8 rows in set

使用rand来得到一个随机序列。

mysql> select *from random order by rand();
+----+
| id |
+----+
|  1 |
|  2 |
| 30 |
| 20 |
| 40 |
| 21 |
| 15 |
|  9 |
+----+
8 rows in set

如果需要截取,就可以使用limit了。

mysql> select *from random order by rand() limit 4;
+----+
| id |
+----+
| 30 |
| 21 |
|  9 |
| 20 |
+----+
4 rows in set

动态随机数

这类随机数的代价最高,需要反复计算。总之不确定性要高很多,但是随机性更大。

比如对100个数中取出10个数,我们每取出一个数,就需要把它排除掉,从列表里重新再取,这样如果是连续的数字 1 2 3也是有可能的。

我们来通过SQL来简答模拟一下抽奖的过程。

初始化表数和数据。

create table lucky_money(id int primary key,money int,status smallint);

存储过程如下:

delimiter $$
create procedure  proc_init ()
begin
   declare
   init_data integer default 1;
   while init_data<=1500 do 
   insert into lucky_money values(init_data,0,0);
   set init_data = init_data +1;
   end while;
end $$
delimiter ;
call proc_init();

得到的数据是有序的。即员工号。

| 1497 |     0 |      0 |
| 1498 |     0 |      0 |
| 1499 |     0 |      0 |
| 1500 |     0 |      0 |
+------+-------+--------+
1500 rows in set

我们修改状态,随机得到一些数据的变化。

update lucky_money set money=1000,status=1  order by rand()  limit 200;
update lucky_money set money=3000,status=1  where status=0 order by rand()  limit 80;
update lucky_money set money=5000,status=1  where status=0 order by rand()  limit 20;

所以第一轮之后,平均奖金是360元。

mysql> select avg(money) from lucky_money;
+------------+
| avg(money) |
+------------+
| 360.0000   |
+------------+
1 row in set

原文发布于微信公众号 - 杨建荣的学习笔记(jianrong-notes)

原文发表时间:2018-02-05

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Python、Flask、Django

关于召回率、准确率、F测度值的一个小程序

11430
来自专栏圣杰的专栏

DDD理论学习系列(5)-- 统一建模语言

1.引言 上一节讲解了领域模型,领域模型主要是将业务中涉及到的概念以面向对象的思想进行抽象,抽象出实体对象,确定实体所对应的方法和属性,以及实体之间的关系。然后...

37570
来自专栏小樱的经验随笔

BZOJ 2038: [2009国家集训队]小Z的袜子(hose)【莫队算法裸题&&学习笔记】

2038: [2009国家集训队]小Z的袜子(hose) Time Limit: 20 Sec  Memory Limit: 259 MB Submit: 9...

32260
来自专栏大数据

有向无环图检测

01 — Spark背景介绍 Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark 是一种与 Hadoop 相似的开源集群计算环...

51670
来自专栏斑斓

Spark 1.4为DataFrame新增的统计与数学函数

Spark一直都在快速地更新中,性能越来越快,功能越来越强大。我们既可以参与其中,也可以乐享其成。 目前,Spark 1.4版本在社区已经进入投票阶段,在Gi...

37570
来自专栏算法channel

Spark|有向无环图(DAG)检测

01 — Spark背景介绍 Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark 是一种与 Hadoop 相似的开源集群计算环...

62780
来自专栏编程札记

协同过滤Item-based算法实现电影推荐系统

1.7K30
来自专栏深度学习之tensorflow实战篇

python—结巴分词的原理理解,Hmm中的转移概率矩阵和混淆矩阵。

结巴分词的过程: jieba分词的python 代码 结巴分词的准备工作 开发者首先根据大量的人民日报训练了得到了字典库、和Hmm中的转移概率矩阵和混...

47050
来自专栏技术专栏

二维数组的DP问题

问题:平面上有N*M个格子,每个格子中放着一定数量的苹果。你从左上角的格子开始,每一步只能向下走或是向右走,每次走到一个格子上就把格子里的苹果收集起来,这样下去...

16430
来自专栏诸葛青云的专栏

迪杰斯特拉(dijkstra)c语言实现方法

迪杰斯特拉(dijkstra)是用来实现查找一个点到其它点最短路径的一种方法。通过查找从起点到最短距离的点,然后将该点放入到集合中,代表以及找到起点到这一点的最...

12320

扫码关注云+社区

领取腾讯云代金券