前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >北航王海辉教授:数据四年小记

北航王海辉教授:数据四年小记

作者头像
数据科学人工智能
发布2022-04-01 10:51:44
9970
发布2022-04-01 10:51:44
举报
文章被收录于专栏:数据科学和人工智能

欧院长年初就让我写篇关于大数据学习的心得体验,因为申请的重大专项正式通知没有下来,一直迟迟不肯动手写。今天是十月一假期,来到办公室整理结题的两个课题材料,顺便准备一下两个大数据重大课题任务书,午休时间写下这篇欧院长让我写的小作文。

我是2016年在朋友圈看到北大数院liumath发的关于大数据暑期学校招生信息,于是在那条朋友圈下面评论我也想去。因为北大师兄帮忙,所以作为最老的学生拿到了学习名额。我记得第一天上课是在北大三教,从清河家里走到了北大,路过了国家自然基金委,当年正好申请了面上基金,不过不幸的是挂掉了。这次暑期学校是一个比较好的开始,来自国内外的知名教授给我们上课,遗憾的是基本都是理论,与大数据应用无关。

2017年暑假,博雅大数据学院正式开始招生。鉴于2016年的暑期学校,所以第一时间知道了信息,带着学生一起报名参加培训。“机器学习”,“神经网络”这些新鲜的概念每天充斥着我这个中年人的心。从理论到应用,上课的老师给予了直观生动的讲解。但是问题是理论弄明白了与实际应用还是差了相差甚远,幸运的是北大出版社副社长孙师兄,给我推荐了开卷科技有限公司的蒋师兄,那天约了一起喝咖啡,在北大一八九八咖啡馆。

北大一八九八咖啡馆

数学学院会议室,召开了开卷北航图书大数据项目启动会,正式开启了大数据应用的篇章,我也趁机成立了北航海辉数据分析实验室。

开卷图书大数据项目启动会

那时的我们,除了理论什么都不懂,感谢开卷的合作伙伴,尤其杨伟女士,经常给我们介绍数据背景,她对数据的理解给我们课题的顺利进展可以说非常重要,这也是让我开始注意到甲方的专业背景对课题的重要性,必须注重背景。去年此时,课题顺利结题,销量预测也成功落地。

2017年开始做发动机健康管理相关大数据课题,此时因为第一个大数据课题的落地,对我以及实验室的学生有了一些经验的积累,自信心上有些许的提高。但是我没想到的是领域变了,背景变得更复杂,做起来难度成指数级升高。两年半的研究期间,实验室分别邀请了发动机专业国内外领域的专家、欧高炎院长、百度云首席数据科学家沈志勇师弟,我的博士导师彭立中教授、沈阳606研究所副总师、主任等十几位发动机领域或大数据领域专家来实验室作报告和指导工作。

无数个不眠的夜晚,主楼主321还亮着灯,我和学生们一起讨论数据,一起讨论算法。不到两年,头发变得花白。目前,这两个大数据课题比较完美顺利结题,相应的软件和归档材料如下:

作为一个数学老师转型做大数据,我个人的经验如下:

1、博雅大数据学院数据酷客线上课程可以说非常完美,欧老师的机器学习,朱占星老师的深度学习都非常不错,大家认真弄明白其数学原理,实现案例中的代码。

2、努力开始第一个小课题,钱多少不要去在乎,而是要拿到真正的数据。网上公开的数据,标签大部分都打的很好,而真实采集到的数据,其实噪音很大。数据我基本分三大类:文本,信号,和图像,幸运的是这三种类型我都接触到了并比较完美地完成了。

3、大数据要落地,离不开对数据背景的了解,而这个了解实际上非常耗神。比如发动机振动信号故障检测,那首先我们需要弄清楚发动机的构造,振动信号采集的频率,相关传感器的布置,环境的噪声类型及其大小。专业人对振动信号的分析,基本都是频率和幅值,比如出现了几倍频,对应某种类型的故障,这些都是专业的经验,对我们学数学的人来说其实根本不懂。但是我们知道工程上的故障特征,用我们数学的理解是本身出了问题,间断点或幅值比较大,然后很多故障是本身 没有问题,但是它的n阶导数却出现了间断点或幅值比较大的情况。

以上是我的些许经验,希望对想要做大数据课题的老师一点点帮助。茫茫人海,感谢北大的师兄师弟们,感谢博雅大数据学院,感谢欧院长。

我的理想是在发动机大数据领域做的越来越好,为国家贡献自己一点点数学人的力量,真正实现学以致用。

王海辉,博士,硕士生导师,北京航空航天大学数据与信息科学系,海辉数据分析实验室。博雅大数据学院专家委员会委员。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-10-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据科学人工智能 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档