在ML中如何找出我的目标是否依赖于我正在考虑的连续特性

在机器学习中，判断目标是否依赖于特定的连续特性可以通过多种方法实现，这些方法有助于理解特征与目标之间的关系，并为后续的特征工程和模型优化提供指导。以下是一些常用的方法和步骤：

变量重要性评估

特征权重/系数：对于线性模型，可以通过观察每个特征的权重或系数大小来评估其重要性。
基于决策树的方法：如随机森林和梯度提升树，可以为每个特征提供一个重要性得分。
Permutation Importance：通过随机打乱某个特征的值，然后计算模型在打乱后的数据上的性能下降程度来评估特征的重要性。
SHAP（SHapley Additive exPlanations）值：一种基于博弈论的方法，用于计算每个特征对预测结果的贡献度。

模型诊断和改进

使用特征重要性分析可以帮助识别模型中存在的问题，例如过拟合或者欠拟合，以及特征之间的相关性等。通过分析重要性排序，可以调整模型参数、增加更多的信息特征等来改善模型性能。

通过上述方法，您可以系统地评估连续特性对目标变量的影响，并据此优化您的机器学习模型。

相关·内容

MLOps：构建生产机器学习系统的最佳实践

部署和运行机器学习模型对于大多数已经开始将ML应用于用例的行业来说都是一个挑战。在这篇文章中，我将分享一些MLOps的最佳实践和技巧，它们将允许您在生产环境中使用您的ML模型并正确地操作它。...在某些情况下，数据量可能不大一开始可能不需要扩展性，但是我们应该考虑，如果通过连续训练我们期望接收的训练数据量是否会随着时间增加并可能产生问题。...在生产中，下面是一个示意图展示在通过不断的训练的情况下，视图如何生成关于新到数据的统计信息、验证它并生成异常报告: ? 3、数据ETL 在这个步骤中，为ML任务准备数据。...以下是CI/CD流水线自动化如何补充连续ML流水线自动化: 如果给定新的实现/代码(新的模型架构、特性工程和超参数……)，一个成功的CI/CD管道会部署一个新的连续ML管道。...此阶段的输出是经过训练的模型，该模型被推送到模型注册中心并进行连续监视。为什么Tensorflow ? 在这最后一节中，我想谈谈为什么Tensorflow是我开发集成ML系统时首选的框架。

1.3K2 0

【2022新书】设计机器学习系统：生产部署应用的迭代过程，Chip Huyen编著

在你的模型部署后，你对你的模型如何执行的反馈很少，你想找出一种快速检测、调试和解决任何问题的方法，你的模型可能会在生产中遇到。...在你的组织中，每个ML用例都使用自己的工作流部署，你想要打下基础(例如，模型存储，特性存储，监控工具)，可以跨用例共享和重用。你担心你的ML系统可能有偏差，你想让你的系统负责任!...它还包括为你的项目选择目标，以及如何以一种更简单的解决方案来构建你的问题。如果您已经熟悉了这些考虑因素，并急于了解技术解决方案，那么可以随意跳过前两章。...我花了很长时间讨论如何深入研究数据系统，以及在书中介绍它的地方。数据系统，包括数据库、数据格式、数据移动和数据处理引擎，往往在ML课程中很少涉及，因此许多数据科学家可能认为它们是低级的或不相关的。...在咨询了我的许多同事之后，我决定，因为ML系统依赖于数据，所以尽早覆盖数据系统的基础将有助于我们在本书的其他部分中讨论数据问题。

2422 0

NAT CHEM｜人工智能的、增强智能的和自动化的化学

科学发现作为一个问题领域，带有在更经典的物理模型中捕获的广泛的先验知识。在不太庞大的数据体系中，面临的挑战是如何结合数据驱动的模型来利用这些知识。在我们的研讨会上，我们已经研究了许多这样的方法论。...在极限的情况下，我们如何处理个性化的医学，难道为我们每个人建立一个ML模型？基于人工智能的技术可以是强大的方法，但有时该领域的成就是否被过度炒作？...分子或材料是什么样子的？模型的输出与输入有什么不同？推荐的分子是否真的能解决问题？它们是潜在的药物还是经过测试的药物？是建议的材料还是在设备中测试过的材料？是否提供了输入数据和模型的解释？...总的来说，我支持使用尽可能多的开源和开放科学工具，但也要充分认识到优质商业软件的范围越来越大。即使在使用商业代码时，也必须能够描述数据是如何被操作的，并确保数据模型可以使用开放格式进行交换。...ML中经常出现的问题是处理高维空间，数据相对稀疏，因此需要降维。虽然这是深度学习经常遇到的问题，但考虑到化学数据的性质，在算法和数学基础上的持续工作将对化学应用非常有用。

5382 0

我只是按照自己的兴趣专注于机器学习

在做了大约15年的技术作者之后，我在接下来的20年里成为了一名连续创业者。我参与的几乎所有初创公司都是数据驱动的公司，所以即使我的角色是管理和战略层面，我也保持与编程和数据的联系。...我不记得我是如何登陆 Kaggle 网站的，但是当我意识到ML的能力时，我感觉好像我在旷野长途跋涉后终于回到了家。我认为ML最吸引我的是它可以用来回答如此广泛的现实生活问题。...您之前是否有过编码经验？ Philip：Cozio Publishing是在我的妻子想要购买一把“新”小提琴时成立的。...有很多关于古董弦乐器的信息，但它们分散在不同的印刷出版物中——书籍、杂志、拍卖目录等。当我帮助我的妻子收集信息时，我开始将数据输入自定义数据库，以便我们可以跟踪她正在考虑的不同仪器。...所以我建议设定学习尽可能多的实用ML技术的目标。将每次Kaggle比赛用作学习机会，即使它不会在该比赛中获得高排名。

3122 0

Rebeco：使用机器学习预测股票崩盘风险

在ML术语中，这些预测变量被称为特征，而被预测的变量被称为目标。选择作为算法输入的特征集，目的是找到与目标的预测关系，这是任何预测模型的重要建模步骤。...正则化逻辑回归是一种基于经典线性回归模型的方法，但通过逻辑转换(在线性尺度上的测量被转换为概率)，用于预测二元结果的概率:在我们的例子中，是一家公司是否陷入财务困境。...在图6的这个例子中，我们的预测模型只包括三个特征：波动性、市盈率（PE）和股票周转率。在不考虑任何特征的情况下，我们假设该模型将预测训练样本的平均遇险概率为10%。...在本文中，我们阐述了ML如何在发达市场和新兴市场的困境事件(例如破产申请或信用评级下调)发生之前帮助投资者发现困境企业。...当从基于规则的模型转移到基于ml的模型时，研究人员的角色就从指导者转变为协调者。在传统的方法中，研究人员指示计算机测试输入数据的特定规则，看看它们是否有助于预测输出。

9403 0

Marcos Lopez de Prado：计量经济学家的机器学习手册

ML工具可以被最好地理解为传统统计在计算机时代的自然进化(Efron和Hastie 2016)。理解这种演变的一种方法是检查ML如何处理典型计量经济学工作流程中的每个步骤。...表1列出了计量经济学和ML分析步骤之间的对应关系，为计量经济学家提供了一个路线图。在本节的其余部分中，我将讨论这些步骤，着重强调和ML之间的相似性和差异性。...提前明确分析目标，并在分析开始前指定一个明确的研究计划是至关重要的。一项设计糟糕的ML研究，在一开始就没有明确说明问题和目标，很可能导致错误的发现。我将在后面的一节中详细讨论这一点。...ML方法的主要优势包括：它关注样本外可预测性而不是方差裁定；它使用计算方法来避免依赖于（可能不现实的）假设；它学习复杂模型的能力，包括在高维空间中的非线性、分层和非连续的相互作用效应；重要性分析对多重共线性具有鲁棒性...在本文中，我重点讨论了ML可以补充计量经济学方法使用的用例。对于计量分析中的每一个步骤，在ML研究过程中都有一个类似的步骤。本文中提出的映射为希望扩大他们的量化工具包的计量经济学家提供了一个路线图。

8432 0

特征选择技术总结

最后的目标是使用ML预测贷款申请人是否可能违约(无法支付贷款)。这有助于企业做出决策，例如拒绝贷款申请、减少贷款金额或以更高的利率向风险较高的申请人放贷。我用来运行代码的环境是Kaggle。...下面的代码将识别那些在至少90%的实例中相同的特性。...第二步：识别高度相关的特征第二步是识别特征的多重共线性。我们使用双变量分析来找出两组变量之间是否有关系(相关)。...利用这些相关性，你可以得到以下的结论: 一个或多个变量依赖于另一个变量，可能导致多重共线性; 相关性可以帮助预测一个变量与另一个变量的关系，表明存在因果关系; 在业务层面上可以了解标签结果的因素，在我们的例子中了解每个特性如何影响贷款支付结果...我们希望能够找到与目标变量(在本例中为loan_status)高度相关的特性。

6242 0

Python特征选择的总结

2501 0

Python特征选择的总结

3422 0

RTC @scale 2024 | RTC 下基于机器学习的带宽估计和拥塞控制

/ 内容整理：李冰奇本次演讲中，详细讨论如何通过针对不同的网络类型，使用基于 ML 解决方案实现质量和可靠性的提升。...在我们的标签中，我们使用 4 秒的时间窗口来表示过去和未来的时间序列日志。我们根据这张大图表来标记拥塞。所以为了简化这张图表，我们想找出正负样本是什么。...我们所做的是基于过去的预测，在未来的窗口中，我们有了拥塞是否发生的 ground truth。我们从客户端的 ML 推断中锁定ground truth，并将其与离线进行比较。...我们还可以看到，基于 ML 解决方案的效率在很大程度上依赖于数据质量和ground truth标签。...所以我们将首先研究如何提出一个好的模型理论公式和一个好的奖励函数。然后，我们将把强化学习应用到基于模拟的网络场景中。我们的最终长期目标是使用强化学习取代当前基于网络的算法。

4311 2

基因泰克｜利用人工智能的力量

在过去的几十年里，我们见证了机器学习（ML）和人工智能（AI）在语言翻译、股票交易和太空探索等应用中的力量。...利用人工智能基因泰克和罗氏目前正在跨疾病领域和治疗方式应用机器学习，目标是为药物发现创建更好的具有预测性、生成性和可解释性的模型。...这种三重模型特征可用于预测特定分子是否可以访问靶点，生成一个与该靶点结合的分子，并解释靶点和分子如何相互作用。...“人工智能已经在改变这个领域，我们正在进一步构建这项技术，以发现我们用传统方法无法发现的发现。” 例如，我们 AI/ML、传染病和计算化学部门的基因泰克科学家也在使用 AI 来发现新的抗生素。...“未来几年将进一步证明 ML 等先进计算方法在哪些应用中能够兑现其价值，我乐观地认为，这些技术将显着增强我们尽可能快速有效地将新药带给患者的努力。”

6343 0

放弃手工标记数据，斯坦福大学开发弱监督编程范式Snorkel

因此，在 ML 中，许多经过深入研究的工作线都是由于获取标记训练数据的瓶颈所致：在主动学习 (active learning) 中，目标是让领域专家为估计对模型最有价值的数据点贴标签，从而更有效地利用领域专家...在半监督学习 (semi-supervised learning ) 设置中，我们的目标是用一个小的标记训练集和一个更大的未标记数据集。...在典型的迁移学习 (transfer learning )设置中，目标是将一个或多个已经在不同数据集上训练过的模型应用于我们的数据集和任务；相关的综述见 (Pan 和 Yang 2010)。...首先，这些模型通常比现代模型的复杂度要低得多，这意味着可以使用更少的手工标记数据。其次，这些模型依赖于手工设计的特性，这些特性为编码、修改和与模型的数据基本表示形式交互提供了一种直接的方法。...虽然迄今为止大多数 MTL 工作都考虑最多处理由静态手工标记训练集定义的少数几项任务，但世界正在迅速发展成组织 (无论是大公司、学术实验室还是在线社区) 都要维护数以百计的弱监督、快速变化且相互依赖的建模任务

1.5K3 0

机器学习和容器

机器学习（ML）和人工智能（AI）现在是IT行业中的热门话题。和容器一样。在这个博客中，我尝试将两者绘制在同一张图片中，看看是否有任何协同作用。...对于我的实验，我设定了以下目标：了解ML是什么和TensorFlow一般看看ML和容器之间是否存在任何协同作用在Kontena上部署正在运行的ML解决方案在旅程中，我添加了一个额外的“伸展”目标...我设想的最终目标是这样的： image.png 最重要的想法有三个：有一个简单易用的API，用户可以发送jpg图片进行分类在多个实例上运行ML模型，以便我们可以根据需要扩展处理遵循微服务模式所以旅程开始...TensorFlow模型和容器实验的目标之一是找出机器学习和容器之间是否存在任何协同作用。事实证明，实际上至少从我的角度来看。 TensorFlow允许导出预先训练的模型，以便稍后在其他地方使用。...所以我认为解决方案确实需要一个更合适的API，其中一个可以只是POST一个图像，可能通过一个网页，并获得分类结果。如上所述，在我的旅程中，我最终添加了一个新目标：学习一点Go。

8150 0

为什么人工智能无法解决您的生产问题

k8sGPT Warp.Dev 我的背景我对机器学习的经验始于我甚至没有将我的工作称为机器学习的时候。...工程师对生产事件监控中 AI/ML 的期望：作为一名创始人，我向其他开发者推销不同的原型，以解决他们在“可观察性”生命周期中遇到的部分问题。...在我深入探讨原型之前，我想分享一下我对调试的看法。 CAGE 框架用于调试和生产调查这个框架的灵感来自于我在之前工作中的工程经验以及与 Doctor Droid 开发人员的互动。...目标定义：工程团队的运营高度依赖于组织的业务承诺和需求。仅仅拥有分析性思维是不够的。...“生产调试”的范围很广，但以下列举了三个范围更窄的示例，这些示例是 AI/ML 今天正在使用的：调查的摘要和分类：创建一个 AI 层，分析自动化框架提取的数据并将摘要发送回工程师，可以减少他们调查问题的时间

1181 0

JMC丨人工智能在药物发现中的实战经验：来自工业界的视角

机器学习在本节中，我们将简要介绍如何使用ML来预测活性和吸收、分布、代谢、排泄和毒性（ADMET）终点和化合物的物理化学性质直接来自分子结构─方法通常分别称为QSAR和定量结构-性质关系（QSPR）建模...一个好的编排器需要能够在不同的文件格式之间进行交互，处理多个环境，有效地管理资源，在需要时扩展作业。由于AI/ML领域正在迅速发展，因此还需要设计出能够轻松添加新组件或更改部署它的基础设施的方式。...MA确保（i）使用正确的工具和方法，无论其来源如何，也无论它们是否使用AI/ML，（ii）数据干净且易于理解，（iii）项目目标明确且得到满足，以及（iv）创建定制的计算管道与高效的可操作DMTA工作流程相结合...预测化合物特性、生成满足特定项目需求的创新设计、确定3D蛋白质结构重排或虚拟筛选数十亿种化合物的能力都是非常有用的发展。我们投资于工具的开发，通常严重依赖开源软件和公开可用的数据，例如经过训练的模型。...我们相信，在可预见的未来，像我们这样的组织有能力继续从AI/ML的发展中受益。我们介绍了我们在工业药物化学中使用AI/ML的观点和经验。

1051 0

强化学习解释：概述、比较和商业应用

数据科学家用目标变量(通过预测分析得到的期望答案)，即标记数据，在历史数据上训练智能体。智能体接收直接的反馈。通过训练，智能体可以预测新数据中是否存在目标变量。监督学习允许解决分类和回归任务。...在无监督学习中，该算法通过分析未标记的数据，找出数据点之间隐藏的相互联系，并通过相似性或差异性来构造它们。RL的目标是定义最佳的行为模型以获得最大的长期回报，这使得它在关键目标上不同于无监督学习。...在四个多月的时间里，7个机器人在800个小时内接受了1000多个视觉和物理上不同的物体的训练。通过对摄像机图像的分析，提出了机器人应该如何移动手臂和抓手的建议。 ? 机器人正在收集抓取数据。...无限的时间范围。在RL中，智能体的首要目标是获得尽可能高的奖励。由于我们不知道需要多少时间或尝试，我们必须建立一个无限视野的目标。...数据科学家可能很难用数学的方法来表达好或坏行为的定义，计算出行为的回报。建议根据当前状态来考虑奖励函数，让代理知道它将要采取的行动是否会帮助它更接近最终目标。

8584 0

4K8 1

开发丨谷歌机器学习白皮书全解析 43 条黄金法则（四）

如果目标之间不搭，并成为问题，就不要在新特征上浪费时间当达到度量瓶颈，你的团队开始关注 ML 系统目标范围之外的问题。如同之前提到的，如果产品目标没有包括在算法目标之内，你就得修改其中一个。...比如说，你也许优化的是点击数、点赞或者下载量，但发布决策部分依赖于人类评估者。 39....这些 A/B 测试中的指标，实际上只是长期目标的代理：让用户满意、增加用户、让合作方满意还有利润；即便这时你还可以考虑高品质、有使用价值的产品的代理，以及五年后一个繁荣的企业的代理。...但没有指标能覆盖团队的首要关切——“我的产品在五年后会怎样？” 另一方面，个体倾向于选择能直接优化的目标。大多数 ML 工具喜欢这样的环境。...如何预测一个页面在将来是否成功，是一项 AI-complete 问题（AI 科技评论注：意味着完成它的难度相当于解决 AI 问题），与计算机视觉和自然语言处理一样难。 40.

6585 0

问答：团队拓扑如何支持平台工程

重要的是从我们今天所处的位置开始，找出其中的差距。我们是否需要在组织中建立一些新的能力？我们是否需要让团队更加拥有其产品，以便他们可以更快地前进、进行实验，并比今天更快地为客户改进产品？...很多时候情况并没有好转——或者没有我们预期的那么好。我们需要的是在连续的基础上采取更小的步骤。” —Manuel Pais，团队拓扑对我来说，团队拓扑学不是一个框架，也不是一个模型。...对我来说，它只是一组关于组织思考方式的方法。然后是一些有用的团队类型和交互模式的模式，以及我们如何演进，如何以比过去更加连续的方式感知我们何时需要改变组织。人们如何开始？...在较大的组织中，这可能是多个团队，甚至是多个平台来提供帮助。为什么我们需要它们？它们为什么存在？在团队拓扑中，平台的首要目标应该是减少开发面向客户的服务或产品的流对齐团队的认知负荷。...我们需要非常专注于作为平台团队或一组团队的目标，这是否能帮助流程对齐的团队更好更快地完成工作？

851 0

2019DevOps World的热门推荐［DevOps］

8月主要DevOps活动中的一些重大公告。 8月，我有机会参加了在旧金山聚集的2,000多人参加的2019 DevOps World。...CD Foundation的目标是为依赖的许多工具提供与供应商无关的家，并为DevOps从业人员提供学习和开发行业最佳实践的支持。...更好的是，它正在启动一项大使计划，以帮助将其影响范围扩展到世界各地。我鼓励大家看看并考虑注册。...我也确信将继续找到创新的方法，将代码从开发人员的笔记本电脑移至生产系统（希望在两者之间进行质量检查）。那么，如何跟踪从笔记本电脑到生产的代码流？...并不是说ELK有什么问题，但我不是大数据工程师，而试图找出将两个完全不同的工具的日志联系在一起的原因对我来说并不有趣。可以立即使用的工具之间存在明显的差距，希望我们很快会在这一领域看到一些新产品。

71410 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在ML中如何找出我的目标是否依赖于我正在考虑的连续特性

变量重要性评估

模型诊断和改进

相关·内容

MLOps：构建生产机器学习系统的最佳实践

【2022新书】设计机器学习系统：生产部署应用的迭代过程，Chip Huyen编著

NAT CHEM｜人工智能的、增强智能的和自动化的化学

我只是按照自己的兴趣专注于机器学习

Rebeco：使用机器学习预测股票崩盘风险

Marcos Lopez de Prado：计量经济学家的机器学习手册

特征选择技术总结

Python特征选择的总结

Python特征选择的总结

RTC @scale 2024 | RTC 下基于机器学习的带宽估计和拥塞控制

基因泰克｜利用人工智能的力量

放弃手工标记数据，斯坦福大学开发弱监督编程范式Snorkel

机器学习和容器

为什么人工智能无法解决您的生产问题

JMC丨人工智能在药物发现中的实战经验：来自工业界的视角

强化学习解释：概述、比较和商业应用

基于Redis的推荐系统开发

开发丨谷歌机器学习白皮书全解析 43 条黄金法则（四）

问答：团队拓扑如何支持平台工程

2019DevOps World的热门推荐［DevOps］

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐