前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >青春有你,成长同行——2022《大数据实践课》成果展示

青春有你,成长同行——2022《大数据实践课》成果展示

作者头像
数据派THU
发布2022-09-14 17:42:22
5390
发布2022-09-14 17:42:22
举报
文章被收录于专栏:数据派THU

1

实践单位:中国广核新能源控股有限公司

项目名称:基于机器学习的风电机组传动链故障诊断

小组成员:

高  祥 机械系(组长)

李艳文 机械系

范祥祺 工物系

研究目标:随着风电机组运行年限的增加,机组传动链故障(如主轴承、主轴、齿轮箱等大部件损坏等)上升趋势明显,对风电场的安全稳定运行带来极大挑战。需要建立基于风电机组振动监测数据的智能化数据管理和数据挖掘系统,通过振动监测数据的统一采集和管理,基于机器学习技术构建风电机组传动链故障预测模型,实现传动链潜在故障的自动化识别,助力风电机组安全稳定运行。

实践课的成果:用机器学习的方法实现了风电机组故障预测。对数据集提取时域和时频域特征,对不同特征值分布进行对比,利用JS散度衡量不同分布的差异性,对不同特征值相关性进行可视化。利用传统机器学习方法进行分类,对分类结果进行分析,绘制结果最好的混淆矩阵。利用决策树决策指标对特征重要性进行衡量,对结果进行一定程度的解释。对特征进行降维可视化,与分类解释结果相互印证。将数据集转化为灰度图、时频图,利用深度学习的模型进行训练并进行可解释性分析。最佳的分类精度达到94%。

部分成果展示

图1.经典机器学习方法分类结果

图2.ResNet+时频图分类混淆矩阵

图3.ResNet+时频图类别激活映射图

同学们的收获

高祥:对于工科学生而言,大数据实践课给我提供了一个将自身专业知识与智能化大数据方法相互结合的契机。风力发电机的故障诊断自带大量真实情况下的样本数据,这在工业应用场景中非常难得。能够在大体量的真实工业数据上应用新方法,有种酣畅淋漓的感觉。

范祥祺:大数据实践课提供了一个很好的平台,一方面使我能够在短短的两个月内对机器学习和深度学习的一些典型方法有了一个初步的了解,另一方面各个小组一起汇报答辩的过程中,我对大数据现阶段在实际生产生活中的广泛应用有了更具体生动的认识。

李艳文:大数据实践课给我们提供了一个很好的机会——熟悉大数据在实际工业场景中的应用。通过应用,我对之前所学习的模式识别、深度学习知识有了更深入的理解,更有信心在之后的研究中,将我的博士课题与机器学习、深度学习等知识相结合。

企业导师——苏宝定点评

本次暑期实践项目总体上完成了基于机器学习的风电机组传动链故障诊断技术探索,取得了较好效果。通过本次暑期实践项目,对相关技术的探索,初步筛选和对比了各种振动特征和机器学习方法的精度和可行性,对后续确定算法研究的重点方向提供了相应的技术基础支撑。

2

实践单位:全一医疗

项目名称:基于图片的眼底照片搜索系统

小组成员:

王  凯 软件学院(组长)

何海燕 生命学院

郝宇飞 工业工程

刘浚源 教研院

李雨浛 新闻学院

研究目标:通过对其他人工智能眼底病诊疗应用等竞品的分析,我们旨在通过建立一个以图搜图的眼图搜索系统,将深度学习与图像信息提取技术相结合,解决在过去的应用开发中出现的病灶模态多、标注成本高和准确率低等问题。本项目将在基础的相似眼图搜索目标上进行优化,增加相似度打分、截取眼图元素、显示相关病历、在检索图基础上进一步展开相似图检索等功能,以满足用户在糖尿病视网膜病变诊断上的需要。

实践课的成果:建立了完整的图像搜索系统,在模型选择上选择了EfficientNet b0和ConvNeXt-T,这两个模型都相对较小、泛化性能经过多人验证较好;进行了不同模型、不同框架融合的很多尝试,比如支持pytorch、mmlab、根据名称自动加载模型、统一提取图片特征接口等。在数据增强部分,除了针对眼底特性的基础技巧,还引入了随机组合增强,比较均衡的选择增强方式。平台和工具部分,比较特定使用的一些比如主要做向量索引的Faiss、主要用来做模型的可解释性的Grad-CAM、为方便搭建不同模型不同配置的MMLab。针对性能优化和度量,除了准确率、查全率、F1,增加了针对医疗图像多级分类数据的二次加权kappa系数。

部分成果展示

图1.搜索入口

图2.诊断建议

图3.相似图片搜索

同学们的收获

✦通过课程完整体验了企业中软件开发的流程与规范,从项目调研、需求分析、产品设计、文献调研、技术路线确立、技术概要设计、技术详细设计、开发、测试、验证、多轮优化、性能评估等等一系列流程。虽然时间只有8周,但每个环节都体验到了。整个学习的过程完全不同于课程教学。

✦其实课程老师和企业导师给我们最大的一个感触就是“不设限”。课程老师和助教老师让我们灵活选择喜欢的课题并组队。在企业导师指导过程中,并不是以出题方的角度来告诉我们做什么。而是把背景和问题给我们讲清楚后,具体做什么,如何做由我们自己来一步步决定。这个和课堂教学是完全不同的,课堂教学通常是老师出题学生作答,而这次实践过程是在了解背景的基础上我们自己出题自己作答。

✦感谢课程老师和企业方给我们的支持与帮助,在实践过程中学到了非常多在课堂上无法学到的知识。自己自身方向上也从零到一学到了非常多cv相关知识。

企业导师——何文淦点评

通过与项目组成员的合作,验证了基于图片的眼底照片搜索系统及其在互联网诊疗过程中的应用的概念设计,为解决眼底影像数据样本不平衡、高效标注少等影响人工智能眼底阅片系统准确率的问题提供了一个方向,交付了算法模型源代码及模型文件,并在此基础上设计、开发并交付了智能眼图搜索系统软件,同时进行了发明专利的初步设计。除此之外,还进一步地提出了未来优化的方向以及相关方案。

3

实践单位:江苏省苏力环境科技有限责任公司

项目名称:空气质量大数据的时空关联分析及预测预警

小组成员:

郑  铁 环境学院(组长)

陈泊明 环境学院

王筱淳 环境学院

武若曦 环境学院

李妍慧 航院

陈杰皓 环境学院

研究目标:区域空气质量的预测与预警对于开展大气环境精准管控、提前预防污染天气具有重要意义;传统大气物理模型是被广泛使用的空气质量预测模型,随着大量空气监测站点的建设和相关数据的积累,机器学习模型在空气质量预测中崭露头角。本项目基于江苏省对空气质量管控的实际需求。旨在结合大气物理和机器学习模型,利用江苏全省空气质量监测数据,实现全省13个地市的国省控站点未来24小时多污染因子浓度的同步预报。

实践课的成果:

1. 基于Graph WaveNet时空卷积模型建立空气质量预测模型,实现江苏省13个地市的199个国控站点未来24小时多污染因子浓度的同步预报;

2. 基于CMAQ建立物理预测模型,成功模拟了污染物浓度分布;

3. 开发空气质量预测系统,包括前端网页配置与后端模型部署;

4. 实现污染物空间分布动态展示,包括不同污染物同时刻的空间分布和同一种污染物不同时刻的空间分布。

部分成果展示

图1.江苏省7月2日PM2.5浓度空间分布图(左图为实测值,右图为预测值)

图2.模型预测准确度评估

图3.开发的空气质量预测系统

同学们的收获

郑 铁:此次实践课程让我感受到大数据技术在实际问题中的应用,开拓了视野,为自己将来进入工作奠定了基础。实践过程中小组同学相互帮助、协同并进,一起帮助企业解决困难,自己多方面能力都得到了提升。

陈泊明:本次实践我完整地完成了图神经网络模型从前期调研、数据分析与特征工程、优化训练、针对性改进,到后端部署,前端开发的全过程,对自己的综合能力提升很大。

王筱淳:在实践过程中对自己专业领域的知识有了更深入的学习,对大数据的处理有了一定的接触。

武若曦:在实践过程中,通过与组员的讨论,学习到了许多新的技能与解决问题的新思路,也对交叉学科的发展有了进一步的认识。

李妍慧:通过实践,我利用所学的大数据技术,成功帮助企业解决了空气质量预测的工程实际问题,同时也锻炼了自己的团队协作能力,是一次非常宝贵的机会。

陈杰皓:实践过程中,与组员协助配合下完成了企业导师布置的目标。企业导师认真负责,每周与我们在例会上沟通项目进展,明确具体需求,并提出很多建设性意见,因此最终的结果产出也更完整更符合实际需求,个人收获很大。

企业导师——赵瀚森点评

在本次实践活动中,我们有了以下收获:一是通过合作实践,更加充分的挖掘了大气环境监测大数据的内在价值,解决了空气污染预警防治的业务问题,提升了企业相关方面的技术研发能力;二是通过合作实践,初步建立了与优秀人才的联系,为企业储备和引进急需的优秀人才提供了新的途径。希望进一步加强与大数据研究中心的联系,期待在环境大数据项目、知识产权共享以及大数据人才培养方面能有更深入和广泛的合作。

4

实践单位:北京志翔科技股份有限公司

项目名称:基于光伏电站采集的发电数据分析光伏能效

小组成员:

吴家豪 能动系(组长)

袁盛平 国际研究生院

李平和 工业工程

研究目标:

任务一(集中式光伏电站异常监测):对光伏组串实现定位异常识别和定因异常识别,其中后者针对低电流异常中的遮挡异常和限电异常。

任务二(分布式光伏窃电骗补分析):根据分布式光伏电表数据检测用户是否存在窃电行为,并根据算法制定可行的识别流程。

任务三(集中式光伏电站功率预测):开发功率预测模型,实现三种预测方法(零成本、低成本、高成本)和两种预测时长(4h、24h)的功率预测。

实践课的成果:

任务一:对于全晴天定位异常识别,识别准确率大于项目要求的95%;对于含阴天定位异常识别,成功识别出电线杆旁的遮挡组串;对于定因异常识别,能较为准确地对低电流异常进行定因。

任务二:建立了数据采集、数据处理与标注、分类模型训练与推理以及窃电判定的四步自动化流程,且判定指标也达到项目要求。

任务三:实现了基于Transformer模型的三种预测方法和两种预测时长下的功率预测,指标达到项目要求。

部分成果展示

图1.任务一:定位异常识别结果

图2.任务二:差值数据初步聚类结果

图3.任务三:三种预测方法和两种预测时长下的部分功率预测结果

同学们的收获

吴家豪:八周的实习让我收获不少。在技术层面,深入了解了新能源功率预测的基本现状与基本方法,理解了许多技术细节。在其他层面,不仅深入接触了企业界、工业界、大数据领域,也增进了团队协作能力、职场沟通能力等。

袁盛平:为期两个月的光伏窃电骗补研究,首先是让我对这个研究方向有了比较系统的了解,其次是增加了对光伏能源工业大数据的实战经历。在实习过程中,每次有问题的时候导师都能非常及时且有效的帮我解决问题。

李平和:本次实习让我受益匪浅,第一次使用真实的大量数据解决了实际问题。让我对大数据和相关编程能力都有很大提升。特别感谢企业导师为我们提供了很大的帮助,让我能顺利的完成此次任务。

企业导师——赵永凯点评

本次实习同学们表现优异,在短短的 8 周时间里高质量完成了项目目标,实现了光伏异常监测、功率预测、窃电骗补算法的指标提升。组长专业能力过硬,研究思路开阔,与企业导师沟通及时。感谢清华大学大数据实践课的组织安排,也感谢各位同学的付出,期待后续继续合作!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-09-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据派THU 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档