腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

数据派THU

专栏作者

2139

文章

1934910

阅读量

188

订阅数

独家｜数据科学家应该了解的5个 Python库（附链接）

模型数据数据科学机器学习 python

作者：Artem Shelamanov 翻译：陈之炎校对：赵茹萱本文约2800字，建议阅读5分钟本文介绍了机器学习库，并掌握了模型架构之后，便可以训练模型解决现实问题。

2024-04-25

600

独家｜探秘全栈数据科学家

模型全栈数据科学系统机器学习

作者：Kelvin Lu 翻译：陈之炎校对：赵茹萱本文约4300字，建议阅读9分钟本文介绍了作者对于“全栈数据科学家”的一些见解。‍‍

2024-04-01

1040

独家 | 机器学习中的损失函数解释

机器学习函数模型数据异常

机器学习为计算模型提供了基于数据进行预测、分类和决策的能力。作为一个研究领域，机器学习是人工智能领域的一个子集，它封装了构建具有模仿人类智能甚至在某些情况下超越人类智能的能力的计算模型所涉及的过程。

2023-12-26

2400

2023大数据挑战赛全国六强团队获奖经验+ppt分享（一）

机器学习大数据特征工程数据算法

在比赛中，我们不仅仅是停留在理论层面，更深刻地理解了算法在实际问题中应用的重要性。赛题背景中提到了多源数据故障发现面临的场景适应性和数据复杂性的问题，在解决这些问题的过程中，我们深刻认识到算法不仅需要有高精度的预测能力，还需要考虑到不同数据源之间的差异和联系，比如metric发现故障，trace追踪故障，log解决故障，以及如何应对数据中的噪声，包括对应用落地的一些思考等。这种实际问题中的复杂性迫使我深入思考如何将学术理论转化为能够在实际环境中发挥作用的实用算法。

2023-09-07

6040

干货 | 石化产品机器学习价格模型开发和SEI石化产品价格分析体系构建

机器学习产品开发模型数据

我们的报告将分为六个部分，第一部分是研究背景与内容。受疫情影响以来，石化行业市场日趋饱和，竞争激烈，同时利润也受到压缩，大部分石化产业都需要转型开拓新市场，但同时又难以获取一些小品种化工品价格。所以我们希望通过机器学习方法实现敏锐捕捉市场化工品价格变化趋势，同时能够推算小品种化工品价格的目标。长此以往，我们希望能够建立属于我们自己的化工品价格体系，为石化行业提供新的机遇。

2023-08-08

1920

科罗拉多州立大学发布 CSU-MLP 模型，用随机森林算法预测中期恶劣天气

机器学习变量模型数据算法

本文约2400字，建议阅读5分钟近期，来自美国科罗拉多州立大学与 SPC 的相关学者联合发布了一个基于随机森林的机器学习模型 CSU-MLP，该模型能够对中期 (4-8天) 范围内恶劣天气进行准确预报。目前该成果刊已发表在《Weather and Forecasting》期刊上。天气预报尤其是恶劣天气预报对人们日常工作、生活等方面具有重要影响。Sigma 研究报告《经济积累和气候变化时期的自然灾害》(Natural catastrophes in times of economic accumulatio

2023-05-18

1850

书籍推荐：《因果推断：混音带》

机器学习编程语言变量编码工具

来源：数量经济学本文约1000字，建议阅读5分钟书籍推荐：《因果推断：混音带》（内涵高级DID、合成控制法、机器学习和因果推理等资源课件）来源：https://mixtape.scunning.com/index.html 简介：这是《Causal Inference: The Mixtape》的在线版本，因果推理包括一些工具，让社会科学家能够确定什么导致什么。在一个混乱的世界里，因果推理有助于确定所研究行为的因果关系——例如，提高最低工资对就业的影响(或缺乏影响)，幼儿教育对以后生活中的监禁的影

2023-05-18

4970

【2023新书】机器学习与数据的线性代数

机器学习数据分析数据数学语法

来源：专知本文为书籍介绍，建议阅读5分钟这本书深入探讨了几个关键的线性代数主题。这本书深入探讨了几个关键的线性代数主题，因为它们适用于数据分析和数据挖掘。本书提供了一种案例研究方法，其中每个案例都将基于现实世界的应用程序。这篇文章是用于第二门课程的应用线性代数的数据分析，与一个补充章的决策树及其在回归分析中的应用。文本可以被认为是两个不同但重叠的通用数据分析类别:聚类和插值。与数据分析相关的数学技术知识，以及在数据分析背景下对结果的解释，对学习本科数学的学生来说特别有价值。这篇文章的每一章都带读者通

2023-05-11

1630

李雨浛：在数据、网络与民意之间——用计算社会科学方法探讨数字媒体与可持续未来 | 提升之路系列（八）

机器学习大数据量化数据网络

导读为了发挥清华大学多学科优势，搭建跨学科交叉融合平台，创新跨学科交叉培养模式，培养具有大数据思维和应用创新的“π”型人才，由清华大学研究生院、清华大学大数据研究中心及相关院系共同设计组织的“清华大学大数据能力提升项目”开始实施并深受校内师生的认可。项目通过整合建设课程模块，形成了大数据思维与技能、跨界学习、实操应用相结合的大数据课程体系和线上线下混合式教学模式，显著提升了学生大数据分析能力和创新应用能力。作为一名文科生，我在学习统计和编程语言的路上一直以来都磕磕绊绊，十分艰难。我以文科生的身份考入武汉

2023-05-11

1300

ChatGPT 与世界：对话式 AI 模型对比

机器学习 chatgpt 工具开发模型

来源：InfoQ AI前线本文约1000字，建议阅读5分钟本文简单介绍了 ChatGPT 的竞争对手中最突出的几个模型。作为一种人工智能语言模型，ChatGPT 已经成为自然语言处理领域最流行、最有效的工具之一。不过，值得注意的是，ChatGPT 并不是唯一一个 AI 语言模型。这几年，还出现了许多其他的模型，每个竞争对手都提供了独到的功能和优点。本文简单介绍了 ChatGPT 的竞争对手中最突出的几个模型。本文最初发布于 Analytics Vidhya。简介作为一种人工智能语言模型，C

2023-05-11

1910

独家 | ChatGPT可以解决分级和分类这样的简单机器学习任务

机器学习机器人 chatgpt 翻译数据

作者：Damir Yalalov 翻译：陈超校对：赵茹萱本文约1100字，建议阅读5分钟本文介绍了ChatGPT如何解决简单的机器学习任务并给出了鸢尾花分类和城市预测两个案例。一句话概括： ChatGPT可以帮助你完成简单的机器学习任务——以下是方法： ChatGPT是一个聊天机器人，可以帮助你完成简单的机器学习任务，例如分级和分类任务。它会用一种自然语言处理算法来理解你的问题并提供准确的答案。你可以给ChatGPT提供更多的数据用以训练它实现更加准确地输出。这一工具设计的初衷就是为了方便使用，并

2023-04-25

3470

独家 | 小数据集也能大有作为：特征工程的妙用

机器学习特征工程翻译模型数据

作者：Krzysztof Pałczyński翻译：王闯（Chuck）校对：zrx 本文约1800字，建议阅读8分钟本文介绍了如何在小数据集上应用特征工程来提高机器学习模型的性能。标签：数据科学、机器学习、特征工程特征工程可以弥补数据的不足。图片源自Unsplash，由Thomas T上传在快速发展的人工智能 (AI) 世界中，数据已成为无数创新应用和解决方案的命脉。实际上，大型数据集通常被认为是训练强大且准确的 AI 模型的支柱。但是，当手头的数据集相对较小时该怎么办呢？在本文中，我们将探讨特

2023-04-25

2330

你需要知道的11个Torchvision计算机视觉数据集

机器学习测试计算机视觉模型数据

来源：新机器视觉本文约3800字，建议阅读8分钟本文介绍了11个Torchvision计算机视觉数据集。计算机视觉是一个显著增长的领域，有许多实际应用，从自动驾驶汽车到面部识别系统。该领域的主要挑战之一是获得高质量的数据集来训练机器学习模型。 Torchvision作为Pytorch的图形库，一直服务于PyTorch深度学习框架，主要用于构建计算机视觉模型。为了解决这一挑战，Torchvision提供了访问预先构建的数据集、模型和专门为计算机视觉任务设计的转换。此外，Torchvision还支持C

2023-04-25

6230

【机器学习】看得见的高斯过程：这是一份直观的入门解读

机器学习函数基础入门数据

来源：人工智能大讲堂本文约6500字，建议阅读8分钟本文旨在向读者介绍高斯过程，并且把它背后的数学原理讲得更加直观易懂。高斯过程可以让我们结合先验知识，对数据做出预测，最直观的应用领域是回归问题。本文作者用几个互动图生动地讲解了高斯过程的相关知识，可以让读者直观地了解高斯过程的工作原理以及如何使其适配不同类型的数据。选自Distill，作者：Jochen Görtler、Rebecca Kehlbeck、Oliver Deussen，参与：Yi Bai、张倩、王淑婷。引言即使读过一些机器学习相关

2023-04-18

6710

【机器学习】KNNImputer：一种估算缺失值的可靠方法

机器学习变量数据算法统计

来源：人工智能大讲堂本文约2600字，建议阅读9分钟本文带你了解了缺失值、缺失值的原因、模式以及如何使用 KNNImputer 来估算缺失值。 KNN和随机森林一样，给人的第一印象就是用于分类和回归，既然大家已经看到随机森林能够进行数据降维，那么也就没必要惊讶于今天的话题：knn缺失值填补。概述学习使用 KNNimputer 来估算数据中的缺失值；了解缺失值及其类型。介绍 scikit-learn 的 KNNImputer 是一种广泛使用的估算缺失值的方法。它被广泛视为传统插补技术的替代品。在当今

2023-04-18

6710

大数据能力提升项目｜学生成果展系列之七

机器学习神经网络大数据模型数据

导读为了发挥清华大学多学科优势，搭建跨学科交叉融合平台，创新跨学科交叉培养模式，培养具有大数据思维和应用创新的“π”型人才，由清华大学研究生院、清华大学大数据研究中心及相关院系共同设计组织的“清华大学大数据能力提升项目”开始实施并深受校内师生的认可。项目通过整合建设课程模块，形成了大数据思维与技能、跨界学习、实操应用相结合的大数据课程体系和线上线下混合式教学模式，显著提升了学生大数据分析能力和创新应用能力。回首2022年，清华大学大数据能力提升项目取得了丰硕的成果，同学们将课程中学到的数据思维和技能成功

2023-04-18

1800

【2023新书】机器学习集成方法

机器学习工具基础模型数据

来源：专知本文为书籍介绍，建议阅读5分钟现在是学习集成方法的最佳时机。本书介绍的模型主要分为三类。现在是学习集成方法的最佳时机。本书介绍的模型主要分为三类。 https://www.manning.com/books/ensemble-methods-for-machine-learning 基础集成方法——每个人都听说过的经典方法，包括历史集成技术，如bagging、随机森林和AdaBoost 最先进的集成方法——现代集成时代经过试验和测试的强大工具，它们构成了许多现实世界中生产中的预测、推荐和搜索系

2023-04-18

3050

盘点 | 从单目标优化到多目标优化，3D 打印材料开发进入 100X 倍速阶段

机器学习行业开发性能优化

本文约1200字，建议阅读5分钟本文将聚焦 3D 打印材料开发，用四个具体案例对目前先进方法进行解读，以期让读者从整体上对机器学习在材料开发应用方面有认知和把握。关键词：机器学习材料开发 3D 打印以 AlphaFold 为代表，机器学习在生物制药、蛋白质结构预测等领域，已经有了喜人的研究成果，尤其是几何深度学习 (Geometric deep learning) 在原子结构建模方面取得的巨大进展，有望为计算材料科学中开放性问题提供解决思路。但是，与药物样分子 (drug-like molec

2023-04-18

2860

【2023新书】医学影像人工智能前沿

机器学习深度学习人工智能卷积神经网络工作

来源：专知本文为书籍介绍，建议阅读5分钟这本书的目的是考虑到医院在使用人工智能支持的检测程序准确诊断各种疾病方面的最新进展。这本书的目的是考虑到医院在使用人工智能支持的检测程序准确诊断各种疾病方面的最新进展。本文研究了最近在医学成像处理领域工作的著名研究人员和临床医生支持的疾病检测技术。在本书中，将介绍各种人工智能方法的集成，如软计算、机器学习、深度学习和其他相关工作。结合利用AI的真实临床图像。本书还包括关于机器学习、卷积神经网络、分割和深度学习辅助的二分类和多分类的几章。 https://iopsc

2023-04-12

4970

集成时间序列模型提高预测精度

机器学习变量对象模型数据

来源：DeepHub IMBA本文约2500字，建议阅读5分钟在这篇文章中，将展示如何堆叠我们能见到的模型的预测。使用Catboost从RNN、ARIMA和Prophet模型中提取信号进行预测集成各种弱学习器可以提高预测精度，但是如果我们的模型已经很强大了，集成学习往往也能够起到锦上添花的作用。流行的机器学习库scikit-learn提供了一个StackingRegressor，可以用于时间序列任务。但是StackingRegressor有一个局限性;它只接受其他scikit-learn模型类和api。

2023-04-08

6090

点击加载更多

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态