首页
学习
活动
专区
工具
TVP
发布

数据派THU

专栏作者
2139
文章
1932458
阅读量
188
订阅数
2023大数据挑战赛全国六强团队获奖经验+ppt分享(一)
在比赛中,我们不仅仅是停留在理论层面,更深刻地理解了算法在实际问题中应用的重要性。赛题背景中提到了多源数据故障发现面临的场景适应性和数据复杂性的问题,在解决这些问题的过程中,我们深刻认识到算法不仅需要有高精度的预测能力,还需要考虑到不同数据源之间的差异和联系,比如metric发现故障,trace追踪故障,log解决故障,以及如何应对数据中的噪声,包括对应用落地的一些思考等。这种实际问题中的复杂性迫使我深入思考如何将学术理论转化为能够在实际环境中发挥作用的实用算法。
数据派THU
2023-09-07
6030
快讯|大数据挑战赛周周星(第三周)榜单发榜啦,经验分享奉上!
本赛题提供了三个数据源,我们的方案主要使用到的是trace和log,metric暂时没有使用(尝试过效果不佳)。前期只对trace进行了简单的挖掘工作,而把重心放在了log表,后期对trace更加深入挖掘,分数有了进一步提升。现在来看,单使用trace表和一些简单的log表特征线上可以达到0.85+。
数据派THU
2023-08-08
1510
独家 | 小数据集也能大有作为:特征工程的妙用
作者:Krzysztof Pałczyński翻译:王闯(Chuck)校对:zrx 本文约1800字,建议阅读8分钟本文介绍了如何在小数据集上应用特征工程来提高机器学习模型的性能。 标签:数据科学、机器学习、特征工程 特征工程可以弥补数据的不足。 图片源自Unsplash,由Thomas T上传 在快速发展的人工智能 (AI) 世界中,数据已成为无数创新应用和解决方案的命脉。实际上,大型数据集通常被认为是训练强大且准确的 AI 模型的支柱。但是,当手头的数据集相对较小时该怎么办呢?在本文中,我们将探讨特
数据派THU
2023-04-25
2330
5 分钟了解机器学习的特征工程
来源:DeepHub IMBA 本文约1300字,建议阅读5分钟 在本文中,我们将了解什么是特征工程以及如何将其应用于您的机器学习算法。 介绍 在我们进一步研究之前,我们需要定义机器学习中的特征。 如果您不熟悉机器学习,那么特征就是机器学习算法模型的输入。 什么是特征工程? 特征工程使用数学、统计学和领域知识从原始数据中提取有用的特征的方法。 例如,如果两个数字特征的比率对分类实例很重要,那么计算该比率并将其作为特征包含可能会提高模型质量。 例如有两个特征:平方米和公寓价格。您可能需要通过获取每平方米价
数据派THU
2023-03-29
2880
将梯度提升模型与 Prophet 相结合可以提升时间序列预测的效果
来源:Deephub Imba本文约1200字,建议阅读5分钟将Prophet的预测结果作为特征输入到 LightGBM 模型中进行时序的预测。 我们以前的关于使用机器学习进行时间序列预测的文章中,都是专注于解释如何使用基于机器学习的方法进行时间序列预测并取得良好结果。 但是在这篇文章将使用更高级的技术来预测时间序列,本文将使用 Prophet 来提取新的有意义的特征,例如季节性、置信区间、趋势等。 时间序列预测 一般情况下 LightGBM 模型都会使用一些lag的特征来预测未来的结果,这样做一般
数据派THU
2022-05-05
5540
独家 | 时间信息编码为机器学习模型特征的三种方法(附链接)
作者:Eryk Lewinson 翻译:张睿毅校对:张睿毅 本文约4200字,建议阅读10分钟本文我们主要使用非常知名的Python包,以及依赖于一个相对不为人知的scikit-lego包。 标签:数据帧, 精选, 机器学习, Python, 技术演练 设置和数据 在本文中,我们主要使用非常知名的Python包,以及依赖于一个相对不为人知的scikit-lego包,这是一个包含许多有用功能的库,这些功能正在扩展scikit-learn的功能。我们导入所需的库,如下所示: import n
数据派THU
2022-04-25
1.5K0
特征工程:基于梯度提升的模型的特征编码效果测试
来源:DeepHub IMBA本文4300字,建议阅读8分钟展示梯度提升模型下表格数据中的数字和分类特征的各种编码策略之间的基准测试研究的结果。 为梯度提升学习选择默认的特征编码策略需要考虑的两个重要因素是训练时间和与特征表示相关的预测性能。Automunge库是处理表格数据常用的库,它可以填充空值,也可以进行分类的编码和归一化等操作,默认的境况下Automunge对分类特征进行二值化处理,并对数值特征进行z-score归一化。本文将通过对一系列不同数据集进行基准测试来验证这些默认值是否是最优化的选项。
数据派THU
2022-04-06
4250
独家 | 将时间信息编码用于机器学习模型的三种编码时间信息作为特征的三种方法
作者:Eryk Lewinson 翻译:汪桉旭校对:zrx 本文约4400字,建议阅读5分钟本文研究了三种使用日期相关的信息如何创造有意义特征的方法。 标签:时间帧,机器学习,Python,技术演示 想象一下,你刚开始一个新的数据科学项目。目标是建立一个预测目标变量Y的模型。你已经收到了来自利益相关者/数据工程师的一些数据,进行了彻底的EDA并且选择了一些你认为和手头上问题有关的变量。然后你终于建立了你的第一个模型。得分是可以接受的,但是你相信你可以做得更好。你应该怎么做呢? 这里你可以通过许多方式跟进。
数据派THU
2022-03-24
1.5K0
深度特征合成与遗传特征生成,两种自动特征生成策略的比较
来源:Deephub Imba本文约1800字,建议阅读8分钟本文我们将通过一个示例介绍如何使用 ATOM 包来快速比较两种自动特征生成算法。 特征工程是从现有特征创建新特征的过程,通过特征工程可以捕获原始特征不具有的与目标列的额外关系。这个过程对于提高机器学习算法的性能非常重要。尽管当数据科学家将特定的领域知识应用特定的转换时,特征工程效果最好,但有一些方法可以以自动化的方式完成,而无需先验领域知识。 在本文中,我们将通过一个示例介绍如何使用 ATOM 包来快速比较两种自动特征生成算法:深度特征合成 (D
数据派THU
2022-03-17
6480
LazyProphet:使用 LightGBM 进行时间序列预测
来源:Deephub Imba本文约2800字,建议阅读5分钟LazyProphet还是一个时间序列建模的很好选择。 当我们考虑时间序列的增强树时,通常会想到 M5 比赛,其中前十名中有很大一部分使用了 LightGBM。但是当在单变量情况下使用增强树时,由于没有大量的外生特征可以利用,它的性能非常的糟糕。 首先需要明确的是M4 比赛的亚军 DID 使用了增强树。但是它作为一个元模型来集成其他更传统的时间序列方法。在 M4 上公开的代码中,所有标准增强树的基准测试都相当糟糕,有时甚至还达不到传统的预测方法。
数据派THU
2022-03-15
1.3K0
使用时间特征使让机器学习模型更好地工作
📷 来源: DeepHub IMBA本文约2300字,建议阅读8分钟在本文中,通过一个实际示例讨论如何从 DateTime 变量中提取新特征以提高机器学习模型的准确性。 特征工程是构建机器学习模型最重要的方面之一。在本文中,我将通过一个实际示例讨论如何从 DateTime 变量中提取新特征以提高机器学习模型的准确性。 从日期中提取特征 一些数据集提供了日期或日期时间字段,通常在为机器学习模型构建输入特征时会被删除(除非您正在处理时间序列,显然 😃)。 但是,DateTime 是可用于提取新特征的,这些新特征
数据派THU
2022-03-04
1.6K0
独家 | 降维是数据科学家的必由之路
https://datahack.analyticsvidhya.com/contest/data-science-blogathon-7/
数据派THU
2021-04-23
4710
原创 | 基于AI的智能急性颅内出血类型检测
颅内出血(颅骨内出血)是医疗领域严重的健康问题,需要快速且经常进行密集的医学治疗。在美国,颅内出血约占中风的10%,其中中风是导致死亡的第五大原因。在医学界,识别任何出血的位置和类型是治疗患者的关键步骤。现在的情况下需要医生或者是训练有素的专家对于病人的颅骨的医学影像进行查看并找出出血的位置从而判断出具体的出血亚型。通常这个过程很复杂、很耗时间而且会浪费很多的人力物力。所以急需一种图像处理的方法来根据医学影像来检测是否有颅内出血的现象以及具体的颅内出血的类型(亚型)。
数据派THU
2020-09-14
8470
独家 | 经验&教训分享:我的第一个机器学习项目
在这片博客中,我将介绍队友(Aron,Ashish,Gabriel)和我如何完成我们的第一个机器学习项目。写这篇博客的目的是为了记录——记录下我作为一名有抱负的数据科学家的旅程。同时,这篇博客也是为了写下逐步完善预测模型背后的思维和推理过程。由于我的目的是建立一个可以快速使用的通用工作流程,所以我将尽可能的简化推理过程。我的最终目标是当某一天再次回顾这个数据集时,可以应用更好的预测模型,看到自己原本可以做出哪些改进,并且能看到自己作为一个数据科学家的成长。
数据派THU
2020-02-12
5470
独家 | 一文盘点AutoML 库(附PPT等链接)
Jeff Dean在ICML 2019上进行了有关AutoML的演讲,并将自动化分为4个级别:
数据派THU
2019-11-20
6170
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档