首页
学习
活动
专区
工具
TVP
发布

数据派THU

专栏作者
2139
文章
1933375
阅读量
188
订阅数
独家 | 80%的时间中,数据科学家使用的20%探索数据的图——您需要了解的探索性数据分析(EDA)
据IBM的介绍,探索性数据分析(EDA)是数据科学家用来分析和研究数据集并总结其主要特征的一种方法,通常采用数据可视化技术。因此可以说,EDA 是通过创建可视化和摘要来研究和理解数据集的过程。
数据派THU
2024-03-01
1040
独家 | 自动化探索性因素分析(EDA)来更快更好地理解数据
EDA是我们更好地理解数据集的重要方式之一。几乎所有的数据分析和数据科学专家都在产生新观点或者数据建模之前先做EDA。在现实生活中,依赖于数据集的复杂度和完整性,这个过程会花费大量时间。当然,变量越多,我们在下一步开始前就需要探索越多才能获得结论。
数据派THU
2023-11-13
2410
原创 | 图神经网络在区块链交易数据分析研究中的应用
加密数字货币是数字货币的一种,它不依靠法定货币机构发行,不受央行管控。借助于区块链等新兴技术,加密数字货币主要表现出去中心化、低交易费用和成本、国际流通、共识机制、高度匿名性和分布式存储等特征和优势,而这会更易成为犯罪分子进行违法活动的工具,从而对全球的加密数字货币交易监管提出了严峻的挑战。加密数字货币监管技术侧重监管和制止以加密数字货币方式的高科技犯罪活动,是保护资金安全和国家安全的重要手段,也是区块链技术能够得到广泛应用的前提条件[1]。
数据派THU
2023-09-07
5550
交互式数据分析和处理新方法:pandas-ai =Pandas + ChatGPT
来源:DeepHub IMBA本文约1000字,建议阅读5分钟ChatGPT、Pandas是强大的工具,当它们结合在一起时,可以彻底改变我们与数据交互和分析的方式。 Python Pandas是一个为Python编程提供数据操作和分析功能的开源工具包。这个库已经成为数据科学家和分析师的必备工具。它提供了一种有效的方法来管理结构化数据(Series和DataFrame)。 在人工智能领域,Pandas经常用于机器学习和深度学习过程的预处理步骤。Pandas通过提供数据清理、重塑、合并和聚合,可以将原始数据集转
数据派THU
2023-05-18
4230
数仓命名规范大全
来源:蜜獾报告 本文约3200字,建议阅读5分钟本文介绍了数仓命名规范。 0X00 前言 数据仓库的建设实施和落地需要团队中不同成员的参与和配合,需要各种各样的规范,规范的分层定义和表命名能让使用者轻而易举地明白该表的作用和含义。因此本文档重点介绍分层规范和可落地的表命名规范。 01XX 数据分层 一、数据运营层:ODS(Operational Data Store) ODS层,是最接近数据源中数据的一层,为了考虑后续可能需要追溯数据问题,因此对于这一层就不建议做过多的数据清洗工作,原封不动地接入原始数据
数据派THU
2023-05-11
4220
【2023新书】机器学习与数据的线性代数
来源:专知本文为书籍介绍,建议阅读5分钟这本书深入探讨了几个关键的线性代数主题。 这本书深入探讨了几个关键的线性代数主题,因为它们适用于数据分析和数据挖掘。本书提供了一种案例研究方法,其中每个案例都将基于现实世界的应用程序。 这篇文章是用于第二门课程的应用线性代数的数据分析,与一个补充章的决策树及其在回归分析中的应用。文本可以被认为是两个不同但重叠的通用数据分析类别:聚类和插值。 与数据分析相关的数学技术知识,以及在数据分析背景下对结果的解释,对学习本科数学的学生来说特别有价值。这篇文章的每一章都带读者通
数据派THU
2023-05-11
1630
高奕:有用、有趣、有价值、有挑战 | 提升之路系列(五)
导读 为了发挥清华大学多学科优势,搭建跨学科交叉融合平台,创新跨学科交叉培养模式,培养具有大数据思维和应用创新的“π”型人才,由清华大学研究生院、清华大学大数据研究中心及相关院系共同设计组织的“清华大学大数据能力提升项目”开始实施并深受校内师生的认可。项目通过整合建设课程模块,形成了大数据思维与技能、跨界学习、实操应用相结合的大数据课程体系和线上线下混合式教学模式,显著提升了学生大数据分析能力和创新应用能力。 生活照 课堂:从“有用”到“有趣” 我自认为思维比较偏工程,低年级为了挑战自己,选择了理论方面的
数据派THU
2023-05-11
2230
王一茗: “大数据能力提升项目”与我的成长之路 | 提升之路系列(三)
导读 为了发挥清华大学多学科优势,搭建跨学科交叉融合平台,创新跨学科交叉培养模式,培养具有大数据思维和应用创新的“π”型人才,由清华大学研究生院、清华大学大数据研究中心及相关院系共同设计组织的“清华大学大数据能力提升项目”开始实施并深受校内师生的认可。项目通过整合建设课程模块,形成了大数据思维与技能、跨界学习、实操应用相结合的大数据课程体系和线上线下混合式教学模式,显著提升了学生大数据分析能力和创新应用能力。 1.打破刻板印象,挑战自我上限 在接触“大数据能力提升项目”之前,我一直认为大数据分析自带一种神秘
数据派THU
2023-05-11
3440
贾其萃 : 笃行实践 筑梦扬帆 | 提升之路系列(二)
导读 为了发挥清华大学多学科优势,搭建跨学科交叉融合平台,创新跨学科交叉培养模式,培养具有大数据思维和应用创新的“π”型人才,由清华大学研究生院、清华大学大数据研究中心及相关院系共同设计组织的“清华大学大数据能力提升项目”开始实施并深受校内师生的认可。项目通过整合建设课程模块,形成了大数据思维与技能、跨界学习、实操应用相结合的大数据课程体系和线上线下混合式教学模式,显著提升了学生大数据分析能力和创新应用能力。 贾其萃,女,清华大学水利系在读三年级博士生。2020年秋季学期参与清华大学大数据能力提升项目,充分
数据派THU
2023-04-25
1390
毛灵栋 : 以兴趣为壤,育能力之实 | 提升之路系列(一)
导读 为了发挥清华大学多学科优势,搭建跨学科交叉融合平台,创新跨学科交叉培养模式,培养具有大数据思维和应用创新的“π”型人才,由清华大学研究生院、清华大学大数据研究中心及相关院系共同设计组织的“清华大学大数据能力提升项目”开始实施并深受校内师生的认可。项目通过整合建设课程模块,形成了大数据思维与技能、跨界学习、实操应用相结合的大数据课程体系和线上线下混合式教学模式,显著提升了学生大数据分析能力和创新应用能力。 我是土木工程系 2019 级博士生毛灵栋。我报名参加大数据能力提升项目是在我刚入学的一年级。当时我
数据派THU
2023-04-25
2080
【普林斯顿博士论文】深度神经网络在监督学习、生成建模和自适应数据分析中的泛化
📷 来源:专知本文为论文介绍,建议阅读5分钟本文从监督学习开始,最终目的是通过提出新的理论框架和实用工具,阐明深度神经网络在生成式建模和自适应数据分析中的泛化性能。 📷 为什么在小数据集上训练的具有大
数据派THU
2023-04-25
1760
《大数据实践课》开始报名啦!
这个世界异彩纷呈 这个时代数据无处不在 大数据 在交通中助力顺畅出行 大数据 在教育中助力因材施教 大数据 在产业中助力转型升级 …… 大数据 已贯穿于衣食住行用的方方面面 这个世界 这个时代 呼唤青春的你 拥抱数据,拥抱时代 让数据助力青春 绽放更靓丽的色彩 《大数据实践课》通过真实的数据 培育学生数据思维 锻炼团队协作能力 提升应用创新水平 培养数据科学素养 一、课程简介 课程名称:《大数据实践课》 课程课号:60470023(3学分); 开课院系:软件学院; 选课对象:已报名参加大数据能力提升项目,且
数据派THU
2023-04-25
2450
AI 加码,超光学进入狂飙时代
本文约4500字,建议阅读8分钟 本文将为各位读者呈现相关系列成果。 近年来,为了突破传统光学研究的局限性,光学与物理学交叉领域的一个新兴技术超光学出现,并且展现出巨大的市场前景。在这门技术高速发展的过程中,人工智能凭借自身强大的能力,起到了重要的推动作用,那么二者究竟碰撞出了何种火花? 关键词:AI 超光学 超表面  在我们生活的世界之中,光扮演了核心的角色。也正因为光的重要性和独特性,伽利略、牛顿、麦克斯韦、爱因斯坦等科学巨人都曾致力于光的研究,可以说,光学研究已经拥有悠久的历史。然而随着技术的发展、人
数据派THU
2023-04-25
3480
Pandas50个高级操作,必读!
来源:机器学习杂货店 本文约4000字,建议阅读10分钟 在Pandas对数据的复杂查询、数据类型转换、数据排序、数据的修改、数据迭代以及函数的使用。 在数据分析和数据建模的过程中需要对数据进行清洗和整理等工作,有时需要对数据增删字段。下面为大家介绍Pandas对数据的复杂查询、数据类型转换、数据排序、数据的修改、数据迭代以及函数的使用。 https://zhuanlan.zhihu.com/p/568250201 01、复杂查询 实际业务需求往往需要按照一定的条件甚至复杂的组合条件来查询数据,接下来为
数据派THU
2023-04-18
1.4K0
大数据能力提升项目|学生成果展系列之三
导读 为了发挥清华大学多学科优势,搭建跨学科交叉融合平台,创新跨学科交叉培养模式,培养具有大数据思维和应用创新的“π”型人才,由清华大学研究生院、清华大学大数据研究中心及相关院系共同设计组织的“清华大学大数据能力提升项目”开始实施并深受校内师生的认可。项目通过整合建设课程模块,形成了大数据思维与技能、跨界学习、实操应用相结合的大数据课程体系和线上线下混合式教学模式,显著提升了学生大数据分析能力和创新应用能力。 回首2022年,清华大学大数据能力提升项目取得了丰硕的成果,同学们将课程中学到的数据思维和技能成功
数据派THU
2023-04-12
2000
9个value_counts()的小技巧,提高Pandas 数据分析效率
来源:DeepHub IMBA 本文约1800字,建议阅读5分钟 我们将探讨 Pandas value_counts() 的不同用例。 数据科学家通常将大部分时间花在探索和预处理数据上。当谈到数据分析和理解数据结构时,Pandas value_counts() 是最受欢迎的函数之一。该函数返回一个包含唯一值计数的系列。生成的Series可以按降序或升序排序,通过参数控制包括或排除NA。 在本文中,我们将探讨 Pandas value_counts() 的不同用例。您将学习如何使用它来处理以下常见任务。 默
数据派THU
2023-03-29
2.6K0
统计学派的18种经典「数据分析方法」
来源:机器学习算法与Python实战本文约10000字,建议阅读15分钟 本文为你列举了统计学派中18种经典的数据分析法。 Part1 描述统计 描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。描述统计分为集中趋势分析和离中趋势分析和相关分析三大部分。 集中趋势分析:集中趋势分析主要靠平均数、中数、众数等统计指标来表示数据的集中趋势。例如被试的平均成绩多少?是正偏分布还是负偏分布? 离中趋势分析:离中趋势分析主要靠全距、四分差、平均
数据派THU
2023-03-29
5110
【悉尼大学博士论文】深度3D信息预测与理解
来源:专知本文为论文介绍,建议阅读5分钟本文通过对4个具体任务的研究,围绕模型设计、多模态融合、稀疏数据分析、无监督学习、域适应和域泛化等关键问题展开研究。 与2D图像数据相比,3D信息与人类的视觉感知更密切相关,有助于智能机器更好地了解世界。三维信息预测和理解,如结构预测和语义分析,在三维视觉感知中起着重要的作用。具体到3D结构,比如深度数据,虽然我们可以从各种3D传感器中获取它,但在机器学习框架中,仍然有大量的尝试从单个图像、视频序列、立体声数据或多模态数据中预测它。主要原因是3D传感器通常价格昂贵,
数据派THU
2023-03-29
2080
【干货书】线性代数概论:计算、应用和理论
来源:专知本文为书籍介绍,建议阅读5分钟文本充满了有趣和多样的应用部分。 https://www.routledge.com/Introduction-To-Linear-Algebra-Computation-Application-and-Theory/DeBonis/p/book/9781032108988 线性代数概论: 计算、应用和理论是为从未接触过线性代数课程主题的学生设计的。文本充满了有趣和多样的应用部分,但也是一个理论文本,旨在培养学生以知识渊博的方式做简洁的计算。完成本课程后,学生将不仅
数据派THU
2023-02-23
2410
万字详解大数据架构新概念
来源:五分钟学大数据 本文约10000+字,建议阅读10+分钟 本文将从历史的角度对数据湖和数据仓库的来龙去脉进行深入剖析。 随着近几年数据湖概念的兴起,业界对于数据仓库和数据湖的对比甚至争论就一直不断。有人说数据湖是下一代大数据平台,各大云厂商也在纷纷的提出自己的数据湖解决方案,一些云数仓产品也增加了和数据湖联动的特性。 但是数据仓库和数据湖的区别到底是什么,是技术路线之争?是数据管理方式之争?二者是水火不容还是其实可以和谐共存,甚至互为补充? 本文作者来自阿里巴巴计算平台部门,深度参与阿里巴巴大数据/数
数据派THU
2023-02-23
4190
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档