首页
学习
活动
专区
工具
TVP
发布

数据派THU

专栏成员
2149
文章
2148518
阅读量
191
订阅数
科普之旅 | 大数据时代下的爬虫、反爬虫与反反爬虫
作者:李媛媛本文约2000字,建议阅读5分钟本文将带你一窥爬虫应用在大数据时代下的合法与非法,让你更加了解这个充满魅力的技术领域。
数据派THU
2024-07-10
1640
原创 | ChatGPT有什么缺陷?看他自己的回答
2022年11月,OpenAI研发的ChatGPT震撼发布。ChatGPT可以高质量地回答各类问题、例如整合汇总文献、完成学生作文、谱写乐曲、撰写诗词歌词剧本、编写和调试代码、模拟各种终端甚至Linux系统。在发布后的短短两个月左右,ChatGPT就达到了一亿用户规模,同时引起了工业界和学术界等各方面的重大反响和讨论。Bill Gates认为ChatGPT的重要性堪比Internet的发明,“会改变我们的世界”。
数据派THU
2023-11-12
2070
干货 | 清华大学学生大数据协会&软创协会Python系列讲座(第一期)
以下内容整理自清华大学学生大数据协会&软创协会举办的Python系列线上讲座第一期。
数据派THU
2023-11-10
1460
干货 | 2023大数据挑战赛技术分享:从“解一道题”到“用户桌面”技术落地的实践思考
今天想跟大家一起聊一个很有趣的话题,如何做才能将从 “解一道题”到“用户桌面”这件事真正给企业、工业界带来价值。我将谈一谈技术落地的实践和思考。
数据派THU
2023-09-29
2310
干货 | 基于生态环境行业文本大数据的智能助手训练与应用
大家好,我们小组的题目是基于生态环境行业文本大数据的智能助手训练与应用。本次汇报共分为四个部分。
数据派THU
2023-09-18
3270
2023大数据挑战赛全国六强团队获奖经验+ppt分享(三)
很庆幸能够在三千多个选手中挤进决赛,比赛最可惜的一点是,在初赛后半阶段以及复赛第一个星期,我们都在尝试端到端的建模方式,但最终方案中没有使用这些方法,耽误了我们大量的时间。我们尝试了Word2Vec(trace,log)、VAE(trace)、Multi-Scale ResNet(trace,log)、BERT-Tokenizer(log)等方式,但是在复赛中效果远不如树模型,我们认为主要原因是题目给到的半结构化数据中实际包含的信息并不多,而结构化的Metirc中蕴含了极大量的信息。
数据派THU
2023-09-07
4680
2023大数据挑战赛全国六强团队获奖经验+ppt分享(二)
算法实用性:我们的策略在广泛的业务场景中拥有实际的商业价值。通过设计IT基础架构运行检测系统,我们有效地检测资源运行状态,比对预制IT服务模型,通过数据清洗和特征挖掘,提取有价值的IT运维信息。这一系统极大地便利了业务人员的维护和管理,显著降低了检测成本。同时,我们的方法还可以延伸至搭建智能运维平台,有助于政府和企业提高运维效率,提供更优质的服务。
数据派THU
2023-09-07
5590
2023大数据挑战赛全国六强团队获奖经验+ppt分享(一)
在比赛中,我们不仅仅是停留在理论层面,更深刻地理解了算法在实际问题中应用的重要性。赛题背景中提到了多源数据故障发现面临的场景适应性和数据复杂性的问题,在解决这些问题的过程中,我们深刻认识到算法不仅需要有高精度的预测能力,还需要考虑到不同数据源之间的差异和联系,比如metric发现故障,trace追踪故障,log解决故障,以及如何应对数据中的噪声,包括对应用落地的一些思考等。这种实际问题中的复杂性迫使我深入思考如何将学术理论转化为能够在实际环境中发挥作用的实用算法。
数据派THU
2023-09-07
1.1K0
快讯|大数据挑战赛周周星(第三周)榜单发榜啦,经验分享奉上!
本赛题提供了三个数据源,我们的方案主要使用到的是trace和log,metric暂时没有使用(尝试过效果不佳)。前期只对trace进行了简单的挖掘工作,而把重心放在了log表,后期对trace更加深入挖掘,分数有了进一步提升。现在来看,单使用trace表和一些简单的log表特征线上可以达到0.85+。
数据派THU
2023-08-08
1810
干货 | 智能网联汽车大数据基础平台构建研究
各位老师大家上午好,我们组的题目是智能网联汽车大数据基础平台的构建。我们的指导企业是西部智联。我们的汇报将从这五个方面进行展开,第一个方面是项目背景与需求分析。
数据派THU
2023-08-08
3060
原创 | 一文读懂足球比赛中的随机博弈
作者:陈之炎 本文约1500字,建议阅读5分钟本文介绍了如何在足球比赛中读懂随机博弈。
数据派THU
2023-08-08
3450
干货 | 清华大学叶晓俊:GB/T 35274-2023《信息安全技术 大数据服务安全能力要求》解读
全国信息技术安全标准化委员会(简称信安标委或TC260)在2021年通过了编制组申请的GB/T 35274-2017《信息安全技术 大数据服务安全能力要求》修订项目, 新版标准报批稿在2022年年底提交给国标委进行最后的形式化审查,从国标委标准进展情况看,GB/T 35274-2023近期即将发布。下面就该标准修订情况及标准内容进行解读,本标准牵头单位是清华大学,参与单位有北京大学,中国电子技术标准化研究院等33家单位,共45人参与编制。
数据派THU
2023-08-03
5020
“清华大学—中国人寿财险工业安全大数据联合研究中心” 2023年度管委会成功举行
5月10日下午,“清华大学—中国人寿财险工业安全大数据联合研究中心”(以下简称:联合研究中心) 2023年度管委会在清华大学东主楼10-316会议室成功举行。联合研究中心管委会主任孙家广院士,软件学院院长王建民教授,中国人寿财险党委书记、总裁、管委会主任黄秀美出席会议,中国人寿集团业务管理部总经理卓美娟、中国人寿财险党委委员、副总裁傅天明、软件学院叶晓俊教授等管委会成员参会。联合研究中心领导及部分研究人员10人列席。 王建民主持会议 王建民首先对中国人寿财险黄秀美总裁一行的到来表示欢迎,之后向参会会人员简
数据派THU
2023-05-18
5060
卢北辰:数据点亮梦想,能力驱动人生 | 提升之路系列(九)
导读 为了发挥清华大学多学科优势,搭建跨学科交叉融合平台,创新跨学科交叉培养模式,培养具有大数据思维和应用创新的“π”型人才,由清华大学研究生院、清华大学大数据研究中心及相关院系共同设计组织的“清华大学大数据能力提升项目”开始实施并深受校内师生的认可。项目通过整合建设课程模块,形成了大数据思维与技能、跨界学习、实操应用相结合的大数据课程体系和线上线下混合式教学模式,显著提升了学生大数据分析能力和创新应用能力。 在清华大学东配楼11-419实验室工作 我叫卢北辰,1999年7月出生于素有“孔孟之乡”之称
数据派THU
2023-05-11
3460
李雨浛:在数据、网络与民意之间——用计算社会科学方法探讨数字媒体与可持续未来 | 提升之路系列(八)
导读 为了发挥清华大学多学科优势,搭建跨学科交叉融合平台,创新跨学科交叉培养模式,培养具有大数据思维和应用创新的“π”型人才,由清华大学研究生院、清华大学大数据研究中心及相关院系共同设计组织的“清华大学大数据能力提升项目”开始实施并深受校内师生的认可。项目通过整合建设课程模块,形成了大数据思维与技能、跨界学习、实操应用相结合的大数据课程体系和线上线下混合式教学模式,显著提升了学生大数据分析能力和创新应用能力。 作为一名文科生,我在学习统计和编程语言的路上一直以来都磕磕绊绊,十分艰难。我以文科生的身份考入武汉
数据派THU
2023-05-11
1730
宋爽:利用大数据解码遗传学的秘密 | 提升之路系列(七)
导读 为了发挥清华大学多学科优势,搭建跨学科交叉融合平台,创新跨学科交叉培养模式,培养具有大数据思维和应用创新的“π”型人才,由清华大学研究生院、清华大学大数据研究中心及相关院系共同设计组织的“清华大学大数据能力提升项目”开始实施并深受校内师生的认可。项目通过整合建设课程模块,形成了大数据思维与技能、跨界学习、实操应用相结合的大数据课程体系和线上线下混合式教学模式,显著提升了学生大数据分析能力和创新应用能力。 图1:摄于清华大学清华路 一、在兴趣和专业中与大数据项目结缘 我对数据科学的热爱,既有一种发自
数据派THU
2023-05-11
3100
屈思博:我的大数据能力提升之路 | 提升之路系列(六)
导读 为了发挥清华大学多学科优势,搭建跨学科交叉融合平台,创新跨学科交叉培养模式,培养具有大数据思维和应用创新的“π”型人才,由清华大学研究生院、清华大学大数据研究中心及相关院系共同设计组织的“清华大学大数据能力提升项目”开始实施并深受校内师生的认可。项目通过整合建设课程模块,形成了大数据思维与技能、跨界学习、实操应用相结合的大数据课程体系和线上线下混合式教学模式,显著提升了学生大数据分析能力和创新应用能力。 图1. 参加学术会议(1) 怀着对数据科学的向往,我于2019年秋季学期报名参加了清华大学大数据
数据派THU
2023-05-11
2670
2023年大数据能力提升项目校友茶话会成功举行
4月29日,清华园碧空如洗、春风和煦,我们怀着无比喜悦的心情迎来了清华大学112周年校庆,为了表达对母校真挚的祝贺和校友们的欢迎,清华大学大数据研究中心举行了第一届大数据能力提升项目校友茶话会。北京大学遥感所博士、往届学生大数据研究协会会长、水利系3字班朱思宇(线上),江苏省环保集团、大数据实践课导师、16级化学系赵瀚森,清华五道口金融博士后、往届学生大数据研究协会会长、15级电机系凡航,百图生科高级算法工程师、2020年RONG奖学金特等奖获得者、生命学院丁文泽,中国信息通信研究院、人文学院王泽宇出席交流
数据派THU
2023-05-11
2680
高奕:有用、有趣、有价值、有挑战 | 提升之路系列(五)
导读 为了发挥清华大学多学科优势,搭建跨学科交叉融合平台,创新跨学科交叉培养模式,培养具有大数据思维和应用创新的“π”型人才,由清华大学研究生院、清华大学大数据研究中心及相关院系共同设计组织的“清华大学大数据能力提升项目”开始实施并深受校内师生的认可。项目通过整合建设课程模块,形成了大数据思维与技能、跨界学习、实操应用相结合的大数据课程体系和线上线下混合式教学模式,显著提升了学生大数据分析能力和创新应用能力。 生活照 课堂:从“有用”到“有趣” 我自认为思维比较偏工程,低年级为了挑战自己,选择了理论方面的
数据派THU
2023-05-11
2810
郑哲:学习、应用初探与探索创新 | 提升之路系列(四)
导读 为了发挥清华大学多学科优势,搭建跨学科交叉融合平台,创新跨学科交叉培养模式,培养具有大数据思维和应用创新的“π”型人才,由清华大学研究生院、清华大学大数据研究中心及相关院系共同设计组织的“清华大学大数据能力提升项目”开始实施并深受校内师生的认可。项目通过整合建设课程模块,形成了大数据思维与技能、跨界学习、实操应用相结合的大数据课程体系和线上线下混合式教学模式,显著提升了学生大数据分析能力和创新应用能力。 我是土木工程系2019级的博士生郑哲(图1)。通过本科系列实践和实习,我深刻了解到土木工程行业的自
数据派THU
2023-05-11
2521
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档