首页
学习
活动
专区
工具
TVP
发布

数据派THU

专栏作者
2139
文章
1934910
阅读量
188
订阅数
独家 | 数据科学家应该了解的5个 Python库(附链接)
作者:Artem Shelamanov 翻译:陈之炎校对:赵茹萱本文约2800字,建议阅读5分钟本文介绍了机器学习库,并掌握了模型架构之后,便可以训练模型解决现实问题。
数据派THU
2024-04-25
600
独家 | 探秘全栈数据科学家
作者:Kelvin Lu 翻译:陈之炎校对:赵茹萱本文约4300字,建议阅读9分钟本文介绍了作者对于“全栈数据科学家”的一些见解。‍‍
数据派THU
2024-04-01
1040
独家 | 机器学习中的损失函数解释
机器学习为计算模型提供了基于数据进行预测、分类和决策的能力。作为一个研究领域,机器学习是人工智能领域的一个子集,它封装了构建具有模仿人类智能甚至在某些情况下超越人类智能的能力的计算模型所涉及的过程。
数据派THU
2023-12-26
2400
2023大数据挑战赛全国六强团队获奖经验+ppt分享(一)
在比赛中,我们不仅仅是停留在理论层面,更深刻地理解了算法在实际问题中应用的重要性。赛题背景中提到了多源数据故障发现面临的场景适应性和数据复杂性的问题,在解决这些问题的过程中,我们深刻认识到算法不仅需要有高精度的预测能力,还需要考虑到不同数据源之间的差异和联系,比如metric发现故障,trace追踪故障,log解决故障,以及如何应对数据中的噪声,包括对应用落地的一些思考等。这种实际问题中的复杂性迫使我深入思考如何将学术理论转化为能够在实际环境中发挥作用的实用算法。
数据派THU
2023-09-07
6040
干货 | 石化产品机器学习价格模型开发和SEI石化产品价格分析体系构建
我们的报告将分为六个部分,第一部分是研究背景与内容。受疫情影响以来,石化行业市场日趋饱和,竞争激烈,同时利润也受到压缩,大部分石化产业都需要转型开拓新市场,但同时又难以获取一些小品种化工品价格。所以我们希望通过机器学习方法实现敏锐捕捉市场化工品价格变化趋势,同时能够推算小品种化工品价格的目标。长此以往,我们希望能够建立属于我们自己的化工品价格体系,为石化行业提供新的机遇。
数据派THU
2023-08-08
1920
科罗拉多州立大学发布 CSU-MLP 模型,用随机森林算法预测中期恶劣天气
本文约2400字,建议阅读5分钟近期,来自美国科罗拉多州立大学与 SPC 的相关学者联合发布了一个基于随机森林的机器学习模型 CSU-MLP,该模型能够对中期 (4-8天) 范围内恶劣天气进行准确预报。目前该成果刊已发表在《Weather and Forecasting》期刊上。 天气预报尤其是恶劣天气预报对人们日常工作、生活等方面具有重要影响。Sigma 研究报告《经济积累和气候变化时期的自然灾害》(Natural catastrophes in times of economic accumulatio
数据派THU
2023-05-18
1850
书籍推荐:《因果推断:混音带》
来源:数量经济学本文约1000字,建议阅读5分钟书籍推荐:《因果推断:混音带》(内涵高级DID、合成控制法、机器学习和因果推理等资源课件) 来源:https://mixtape.scunning.com/index.html 简介: 这是《Causal Inference: The Mixtape》的在线版本,因果推理包括一些工具,让社会科学家能够确定什么导致什么。在一个混乱的世界里,因果推理有助于确定所研究行为的因果关系——例如,提高最低工资对就业的影响(或缺乏影响),幼儿教育对以后生活中的监禁的影
数据派THU
2023-05-18
4970
【2023新书】机器学习与数据的线性代数
来源:专知本文为书籍介绍,建议阅读5分钟这本书深入探讨了几个关键的线性代数主题。 这本书深入探讨了几个关键的线性代数主题,因为它们适用于数据分析和数据挖掘。本书提供了一种案例研究方法,其中每个案例都将基于现实世界的应用程序。 这篇文章是用于第二门课程的应用线性代数的数据分析,与一个补充章的决策树及其在回归分析中的应用。文本可以被认为是两个不同但重叠的通用数据分析类别:聚类和插值。 与数据分析相关的数学技术知识,以及在数据分析背景下对结果的解释,对学习本科数学的学生来说特别有价值。这篇文章的每一章都带读者通
数据派THU
2023-05-11
1630
李雨浛:在数据、网络与民意之间——用计算社会科学方法探讨数字媒体与可持续未来 | 提升之路系列(八)
导读 为了发挥清华大学多学科优势,搭建跨学科交叉融合平台,创新跨学科交叉培养模式,培养具有大数据思维和应用创新的“π”型人才,由清华大学研究生院、清华大学大数据研究中心及相关院系共同设计组织的“清华大学大数据能力提升项目”开始实施并深受校内师生的认可。项目通过整合建设课程模块,形成了大数据思维与技能、跨界学习、实操应用相结合的大数据课程体系和线上线下混合式教学模式,显著提升了学生大数据分析能力和创新应用能力。 作为一名文科生,我在学习统计和编程语言的路上一直以来都磕磕绊绊,十分艰难。我以文科生的身份考入武汉
数据派THU
2023-05-11
1300
ChatGPT 与世界:对话式 AI 模型对比
来源:InfoQ AI前线 本文约1000字,建议阅读5分钟 本文简单介绍了 ChatGPT 的竞争对手中最突出的几个模型。   作为一种人工智能语言模型,ChatGPT 已经成为自然语言处理领域最流行、最有效的工具之一。不过,值得注意的是,ChatGPT 并不是唯一一个 AI 语言模型。这几年,还出现了许多其他的模型,每个竞争对手都提供了独到的功能和优点。本文简单介绍了 ChatGPT 的竞争对手中最突出的几个模型。 本文最初发布于 Analytics Vidhya。 简介 作为一种人工智能语言模型,C
数据派THU
2023-05-11
1910
独家 | ChatGPT可以解决分级和分类这样的简单机器学习任务
作者:Damir Yalalov  翻译:陈超校对:赵茹萱 本文约1100字,建议阅读5分钟本文介绍了ChatGPT如何解决简单的机器学习任务并给出了鸢尾花分类和城市预测两个案例。 一句话概括: ChatGPT可以帮助你完成简单的机器学习任务——以下是方法: ChatGPT是一个聊天机器人,可以帮助你完成简单的机器学习任务,例如分级和分类任务。 它会用一种自然语言处理算法来理解你的问题并提供准确的答案。 你可以给ChatGPT提供更多的数据用以训练它实现更加准确地输出。这一工具设计的初衷就是为了方便使用,并
数据派THU
2023-04-25
3470
独家 | 小数据集也能大有作为:特征工程的妙用
作者:Krzysztof Pałczyński翻译:王闯(Chuck)校对:zrx 本文约1800字,建议阅读8分钟本文介绍了如何在小数据集上应用特征工程来提高机器学习模型的性能。 标签:数据科学、机器学习、特征工程 特征工程可以弥补数据的不足。 图片源自Unsplash,由Thomas T上传 在快速发展的人工智能 (AI) 世界中,数据已成为无数创新应用和解决方案的命脉。实际上,大型数据集通常被认为是训练强大且准确的 AI 模型的支柱。但是,当手头的数据集相对较小时该怎么办呢?在本文中,我们将探讨特
数据派THU
2023-04-25
2330
你需要知道的11个Torchvision计算机视觉数据集
来源:新机器视觉 本文约3800字,建议阅读8分钟 本文介绍了11个Torchvision计算机视觉数据集。 计算机视觉是一个显著增长的领域,有许多实际应用,从自动驾驶汽车到面部识别系统。该领域的主要挑战之一是获得高质量的数据集来训练机器学习模型。 Torchvision作为Pytorch的图形库,一直服务于PyTorch深度学习框架,主要用于构建计算机视觉模型。 为了解决这一挑战,Torchvision提供了访问预先构建的数据集、模型和专门为计算机视觉任务设计的转换。此外,Torchvision还支持C
数据派THU
2023-04-25
6230
【机器学习】看得见的高斯过程:这是一份直观的入门解读
来源:人工智能大讲堂 本文约6500字,建议阅读8分钟 本文旨在向读者介绍高斯过程,并且把它背后的数学原理讲得更加直观易懂。 高斯过程可以让我们结合先验知识,对数据做出预测,最直观的应用领域是回归问题。本文作者用几个互动图生动地讲解了高斯过程的相关知识,可以让读者直观地了解高斯过程的工作原理以及如何使其适配不同类型的数据。 选自Distill,作者:Jochen Görtler、Rebecca Kehlbeck、Oliver Deussen,参与:Yi Bai、张倩、王淑婷。 引言 即使读过一些机器学习相关
数据派THU
2023-04-18
6710
【机器学习】KNNImputer:一种估算缺失值的可靠方法
来源:人工智能大讲堂本文约2600字,建议阅读9分钟本文带你了解了缺失值、缺失值的原因、模式以及如何使用 KNNImputer 来估算缺失值。 KNN和随机森林一样,给人的第一印象就是用于分类和回归,既然大家已经看到随机森林能够进行数据降维,那么也就没必要惊讶于今天的话题:knn缺失值填补。 概述 学习使用 KNNimputer 来估算数据中的缺失值; 了解缺失值及其类型。 介绍 scikit-learn 的 KNNImputer 是一种广泛使用的估算缺失值的方法。它被广泛视为传统插补技术的替代品。 在当今
数据派THU
2023-04-18
6710
大数据能力提升项目|学生成果展系列之七
导读 为了发挥清华大学多学科优势,搭建跨学科交叉融合平台,创新跨学科交叉培养模式,培养具有大数据思维和应用创新的“π”型人才,由清华大学研究生院、清华大学大数据研究中心及相关院系共同设计组织的“清华大学大数据能力提升项目”开始实施并深受校内师生的认可。项目通过整合建设课程模块,形成了大数据思维与技能、跨界学习、实操应用相结合的大数据课程体系和线上线下混合式教学模式,显著提升了学生大数据分析能力和创新应用能力。 回首2022年,清华大学大数据能力提升项目取得了丰硕的成果,同学们将课程中学到的数据思维和技能成功
数据派THU
2023-04-18
1800
【2023新书】机器学习集成方法
来源:专知本文为书籍介绍,建议阅读5分钟现在是学习集成方法的最佳时机。本书介绍的模型主要分为三类。 现在是学习集成方法的最佳时机。本书介绍的模型主要分为三类。 https://www.manning.com/books/ensemble-methods-for-machine-learning 基础集成方法——每个人都听说过的经典方法,包括历史集成技术,如bagging、随机森林和AdaBoost 最先进的集成方法——现代集成时代经过试验和测试的强大工具,它们构成了许多现实世界中生产中的预测、推荐和搜索系
数据派THU
2023-04-18
3050
盘点 | 从单目标优化到多目标优化,3D 打印材料开发进入 100X 倍速阶段
本文约1200字,建议阅读5分钟本文将聚焦 3D 打印材料开发,用四个具体案例对目前先进方法进行解读,以期让读者从整体上对机器学习在材料开发应用方面有认知和把握。 关键词:机器学习  材料开发  3D 打印 以 AlphaFold 为代表,机器学习在生物制药、蛋白质结构预测等领域,已经有了喜人的研究成果,尤其是几何深度学习 (Geometric deep learning) 在原子结构建模方面取得的巨大进展,有望为计算材料科学中开放性问题提供解决思路。 但是,与药物样分子 (drug-like molec
数据派THU
2023-04-18
2860
【2023新书】医学影像人工智能前沿
来源:专知本文为书籍介绍,建议阅读5分钟这本书的目的是考虑到医院在使用人工智能支持的检测程序准确诊断各种疾病方面的最新进展。 这本书的目的是考虑到医院在使用人工智能支持的检测程序准确诊断各种疾病方面的最新进展。本文研究了最近在医学成像处理领域工作的著名研究人员和临床医生支持的疾病检测技术。在本书中,将介绍各种人工智能方法的集成,如软计算、机器学习、深度学习和其他相关工作。结合利用AI的真实临床图像。本书还包括关于机器学习、卷积神经网络、分割和深度学习辅助的二分类和多分类的几章。 https://iopsc
数据派THU
2023-04-12
4970
集成时间序列模型提高预测精度
来源:DeepHub IMBA本文约2500字,建议阅读5分钟在这篇文章中,将展示如何堆叠我们能见到的模型的预测。 使用Catboost从RNN、ARIMA和Prophet模型中提取信号进行预测 集成各种弱学习器可以提高预测精度,但是如果我们的模型已经很强大了,集成学习往往也能够起到锦上添花的作用。流行的机器学习库scikit-learn提供了一个StackingRegressor,可以用于时间序列任务。但是StackingRegressor有一个局限性;它只接受其他scikit-learn模型类和api。
数据派THU
2023-04-08
6090
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档