干货丨从诸葛亮“草船借箭”看大数据“数据建模”

鲁迅评价诸葛亮“多智而近妖”,此话见诸《中国小说史略》,意思说诸葛亮足智多谋,像个妖怪。而如今,从大数据的角度看,诸葛亮的足智多谋是因为他掌握了数据建模的办法。今天,我们就来说说这诸葛先生的“数据建模”之道。

建模里的“模”是指模型。使材料成为一定形状的工具,就属于“模型”,这些模型看得见摸得着,叫做“具象模型”。但是也有些模型看不见摸不着,属于“抽象模型”,数据模型就是这其中一类。

“数据建模”是对杂乱无序的数据进行处理,筛选出有价值的数据结果的过程,其关键步骤有两个:一是逻辑建模;二是物理建模。

我们以诸葛亮的“草船借箭”为例,讲讲如何“数据建模”。

数据建模的方向、用途

《三国演义》第四十六回讲到,周瑜问孔明:“即日将与曹军交战,水路交兵,当以何兵器为先?”

孔明曰:“大江之上,以弓箭为先。”

瑜曰:“但今军中正缺箭用,敢烦先生监造十万支箭,以为应敌之具。此系公事,先生幸勿推却。”

孔明曰:“都督见委,自当效劳。”

为什么要借箭?因为诸葛亮答应周瑜造十万支箭来攻打曹操。这说的是数据建模的方向和用途。

数据源收集

孔明曰:“为将而不通天文,不识地利,不知奇门,不晓阴阳,不看阵图,不明兵势,是庸才也。”

可见,全方位的信息收集和积累多么的重要。

而这个过程,在数据建模中叫做数据源收集。

逻辑梳理

数据收集上来之后,诸葛亮通过梳理得出如下结论:

1,“今日有大雾”,这是说天气;

2,“吾料曹操于重雾中必不敢出”,这是说曹操的心理特点;

3,“子敬只得就我”,这是说鲁肃的权利;

这都需要对数据源有充分的认知和理解,在数据建模中,这个过程叫做逻辑梳理。

这一过程虽然十分抽象,但它能帮助我们确定方案。

接着,诸葛亮对鲁肃说:“望子敬借我二十只船,每船要军士三十人,船上皆用青布为幔,各束草千余个,分布两边。”这就是草船借箭的方案。

到这里,逻辑建模就完成了。

判断标准

接下来,是把逻辑建模转化为物理建模。针对梳理好的逻辑:

1,雾有多浓才能不暴露目标?“是夜大雾漫天,长江之中,雾气更甚,对面不相见。”

2,曹操多疑才会按兵不动?“重雾迷江,彼军忽至”。

3,鲁肃能调来多少船只和人?“却说鲁肃私自拨轻快船二十只,各船三十余人。”

这都是条件级别;而它们在建模中各占多大比重,叫做权重设置。二者统称为“判断标准”。它是数据量化的过程,也是物理建模的第一步。

校验模型

诸葛亮乘船擂鼓呐喊,军士慌忙飞报曹操。

曹操说:“可拨水军弓弩手乱箭射之。”差人火速到江边助射。

曹操果然被诸葛亮料到不敢出帐,只是射箭防御,这在数据建模中叫做“校验模型”。

模型试点、模型确定

接下来,就是重点了。

“二十只船,用长索相连,径望北岸进发。当夜五更时候,船已近曹操水寨。孔明教把船只头西尾东,一带摆开,就船上擂鼓呐喊。少顷,旱寨内弓弩手亦到,约一万余人,尽皆向江中放箭:箭如雨发”。

先让船只一面受箭,这是“模型试点”;万箭齐发,这说明试点成功,由此模型确定,可以进行输出和实际应用了。

“孔明教把船吊回,头东尾西,逼近水寨受箭,一面擂鼓呐喊。待至日高雾散,孔明令收船急回。

最后,“草船借箭”成功了,“鲁肃人见周瑜,备说孔明取箭之事。瑜大惊,慨然叹曰:‘孔明神机妙算,吾不如也!’”这么看来孔明的神机妙算还真是数据建模的成果!

实际上,数据建模的类型是多种多样的,比如:从算法上看,它包括定向逻辑算法和非定向逻辑算法;另外,非定向逻辑算法中还包含聚类和决策树等模型。上面讲的例子就属于定向逻辑算法中的打分算法啦。

版权声明:转载文章均来自于公开网络,仅供学习使用,不会用于任何商业用途,如果出处有误或侵犯到原作者的权益,请与我们联系删除或授事宜,联系邮箱:holly0801@163.com。转载大数据公众号文章请注明原文链接和作者,否则产生的任何版权纠纷与大数据无关。

原文发布于微信公众号 - 大数据(hzdashuju)

原文发表时间:2015-12-31

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏量子位

AI说:你的书法有咖喱味丨看字识国别

15320
来自专栏AI科技大本营的专栏

AAAI 2018 杰出论文出炉,两位中国留学生共同获奖

编辑 | 周翔 作为人工智能的顶级会议,AAAI 2018 将于 2.2~2.7 在美国路易斯安那州的新奥尔良举行。然而,大会还没开始,获奖信息就已经在网上传播...

376140
来自专栏AI科技大本营的专栏

AI 技术讲座精选:数据科学家线性规划入门指南

前 言 生活之道在于优化。每个人拥有的资源和时间都是有限的,我们都想充分利用它们。从有效地利用个人时间到解决公司的供应链问题——处处都有用到优化。 优化还是一个...

39930
来自专栏大数据文摘

生命之圈:生物数据可视化的美丽新方法

307100
来自专栏AI科技大本营的专栏

数据科学家线性规划入门指南

前言 生活之道在于优化。每个人拥有的资源和时间都是有限的,我们都想充分利用它们。从有效地利用个人时间到解决公司的供应链问题——处处都有用到优化。 优化还是一个有...

44370
来自专栏思影科技

AJP事件相关电位研究:精神分裂症患者听觉感觉处理缺陷的临床和认知意义

来自塞拉利昂精神疾病研究、教育和临床中心,旧金山VA医疗保健系统,加州大学旧金山分校精神病学系和加州大学洛杉矶分校的心理学系以及精神病学系、生物行为科学系的研究...

35760
来自专栏新智元

邓侃解读:医疗关键数据时间序列敏感度分析的通用方法

---- 新智元专栏 作者:邓侃 【新智元导读】密歇根州立大学、康奈尔大学腾讯研究院的几位学者,联名发表了一篇题为 “Identify Suscept...

40060
来自专栏PPV课数据科学社区

【笔记】CDA LEVEL II 数据建模师培训学习笔记(一)软件安装

? 写在前面:此笔记是PPV课学员张梦根据李玉玺老师在CDA LEVEL II 数据建模师培训的上课内容整理而成的。 ———————————–作者说明——...

360100
来自专栏专知

NIH发布包含10600张CT图像数据库 为AI算法测试铺路

美国国立卫生研究院(NIH)最近发布了一个庞大的胸部X光数据库,现已公开近10600张CT扫描图像,以支持医疗人工智能算法的开发和测试。这个大型成像数据库被称为...

11420
来自专栏数据的力量

家有2一10岁孩子的赶紧保存,注意力训练,超有用!

训练目的:训练学生学习能力,能使学生上课专心听讲,认真写作业,考试不粗心,提高学习成绩

11220

扫码关注云+社区

领取腾讯云代金券