首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

Kaggle 数据挖掘比赛经验分享

笔者目前在腾讯社交与效果广告部任职数据挖掘工程师,负责 Lookalike 相似人群扩展相关工作。此文分享笔者在参加数据挖掘比赛过程中的一点心得体会。 1....1.4 比赛流程 一个数据挖掘比赛的基本流程如下图2所示,具体的模块我将在下一章进行展开陈述。 ? 图2....数据挖掘比赛基本流程 从上面图2可以看到,做一个数据挖掘比赛,主要包含了数据分析,数据清洗,特征工程,模型训练和验证等四个大的模块,以下来一一对其进行介绍。...2.6 自动化框架 从上面的介绍可以看到,做一个数据挖掘比赛涉及到的模块非常多,若有一个较自动化的框架会使得整个过程更加的高效。...让我这种空有满(yi)腔(xie)理(wai)论(li)的数据挖掘小白,可以在真实的问题场景和业务数据中进行实操练手,提升自己的数据挖掘技能,一不小心,还能拿名次,赢奖金。

1.2K70

Kaggle 数据挖掘比赛经验分享

笔者目前在腾讯社交与效果广告部任职数据挖掘工程师,负责 Lookalike 相似人群扩展相关工作。此文分享笔者在参加数据挖掘比赛过程中的一点心得体会。...1.4 比赛流程 一个数据挖掘比赛的基本流程如下图2所示,具体的模块我将在下一章进行展开陈述。 ? 图2....划分 Public LB 和 Private LB的目的 2.数据挖掘比赛基本流程 从上面图2可以看到,做一个数据挖掘比赛,主要包含了数据分析,数据清洗,特征工程,模型训练和验证等四个大的模块,以下来一一对其进行介绍...2.6 自动化框架 从上面的介绍可以看到,做一个数据挖掘比赛涉及到的模块非常多,若有一个较自动化的框架会使得整个过程更加的高效。...让我这种空有满(yi)腔(xie)理(wai)论(li)的数据挖掘小白,可以在真实的问题场景和业务数据中进行实操练手,提升自己的数据挖掘技能,一不小心,还能拿名次,赢奖金。

1.5K90

【算法比赛】NFL Big Data Bowl 数据挖掘比赛回顾

导语 NFL Big Data Bowl是Kaggle上的一个数据比赛,本文旨在通过回顾比赛,梳理和学习其中的建模思路(点数据挖掘、图挖掘)、数据处理技巧(对抗验证、数据增强)、模型集成技巧(Snapshot...而相对于其他图挖掘任务来说,由于比赛的人数固定,球员之间关系网络的拓扑结构也就固定,因而我们可以直接通过cnn对关系进行建模。...建模时首先思考研究对象之间的关系是否是建模关键 最近几年图数据挖掘技术突飞猛进,对图、关系的挖掘和建模得到了很大的发展。关系在现实生活中无处不在,如何理解数据中存在的关系将是建立一个“好”模型的关键。...数据挖掘的根本问题还是在于对数据的理解 如果对图数据不熟,则怎么也会想到从关系的角度对橄榄球比赛进行建模。不同数据有不同的处理方法,掌握方法需要不断积累,但同时也需要我们总结和抽象。...一方面我们需要对不同类型的数据广泛涉猎,保证在挖掘建模时思路不会僵硬,另一方面对于一类数据,我们不仅要掌握相关模型,也需要对 数据采集-数据处理-挖掘建模-上层应用 整个链路进行深入理解。

1.5K30

大赛 | Kaggle 数据挖掘比赛经验分享

笔者目前在腾讯社交与效果广告部任职数据挖掘工程师,负责 Lookalike 相似人群扩展相关工作。此文分享笔者在参加数据挖掘比赛过程中的一点心得体会。 1....1.4 比赛流程 一个数据挖掘比赛的基本流程如下图2所示,具体的模块我将在下一章进行展开陈述。 图2....数据挖掘比赛基本流程 从上面图2可以看到,做一个数据挖掘比赛,主要包含了数据分析,数据清洗,特征工程,模型训练和验证等四个大的模块,以下来一一对其进行介绍。...2.6 自动化框架 从上面的介绍可以看到,做一个数据挖掘比赛涉及到的模块非常多,若有一个较自动化的框架会使得整个过程更加的高效。...让我这种空有满(yi)腔(xie)理(wai)论(li)的数据挖掘小白,可以在真实的问题场景和业务数据中进行实操练手,提升自己的数据挖掘技能,一不小心,还能拿名次,赢奖金。

1.2K120

【干货】Kaggle 数据挖掘比赛经验分享

1.4 比赛流程 一个数据挖掘比赛的基本流程如下图2所示,具体的模块我将在下一章进行展开陈述。 ? 图2....数据挖掘比赛基本流程 这里想特别强调的一点是,Kaggle 在计算得分的时候,有Public Leaderboard (LB)和 Private LB 之分。...划分 Public LB 和 Private LB的目的 (图参考 Owenzhang 的分享 [1]) 2.数据挖掘比赛基本流程 从上面图2可以看到,做一个数据挖掘比赛,主要包含了数据分析,数据清洗...2.6 自动化框架 从上面的介绍可以看到,做一个数据挖掘比赛涉及到的模块非常多,若有一个较自动化的框架会使得整个过程更加的高效。...让我这种空有满(yi)腔(xie)理(wai)论(li)的数据挖掘小白,可以在真实的问题场景和业务数据中进行实操练手,提升自己的数据挖掘技能,一不小心,还能拿名次,赢奖金。

1.5K110

【干货】Kaggle 数据挖掘比赛经验分享

笔者目前在腾讯社交与效果广告部任职数据挖掘工程师,负责 Lookalike 相似人群扩展相关工作。此文分享笔者在参加数据挖掘比赛过程中的一点心得体会。 1....1.4 比赛流程 一个数据挖掘比赛的基本流程如下图2所示,具体的模块我将在下一章进行展开陈述。 ? 图2....数据挖掘比赛基本流程 这里想特别强调的一点是,Kaggle 在计算得分的时候,有Public Leaderboard (LB)和 Private LB 之分。...数据挖掘比赛基本流程 从上面图2可以看到,做一个数据挖掘比赛,主要包含了数据分析,数据清洗,特征工程,模型训练和验证等四个大的模块,以下来一一对其进行介绍。...2.6 自动化框架 从上面的介绍可以看到,做一个数据挖掘比赛涉及到的模块非常多,若有一个较自动化的框架会使得整个过程更加的高效。

84930

数据挖掘数据挖掘 特异群组挖掘框架与应用

特异群组挖掘与聚类、异常挖掘都属于根据数据对象的相似性来划分数据集的数据挖掘任务,但是,特异群组挖掘在问题定义、算法设计和应用效果方面不同于聚类和异常等挖掘任务。...本文系统地阐述了特异群组挖掘任务的框架,分析了特异群组挖掘任务与聚类、异常等任务之间的差异,给出了特异群组挖掘任务的形式化描述及其基础算法,最后,列举了特异群组挖掘的几个重点应用。...4 、特异群组挖掘框架算法 对于τ-特异群组挖掘问题,传统的聚类算法无法直接使用。因为,聚类算法通常要求用户指定一个相似性阈值(或相关参数),而这样的限制不能保证结果中相似对象的数量满足阈值τ。...考虑到上述问题,下面给出一个特异群组挖掘(abnormal group mining,AGM)框架算法。该算法是一个两阶段算法,如图3所示。...图3 τ-特异群组挖掘算法框架 在第一阶段,采用Top k相似点对查询策略找到Topk个相似点对,在这些相似点对中的对象被认为是候选对象。不难证明,k与τ之间的关系为k=τ×(τ-1)/2。

1.7K100

数据挖掘数据挖掘简介 ( 6 个常用功能 | 数据挖掘结果判断 | 数据挖掘学习框架 | 数据挖掘分类 )

数据挖掘 功能 II . 数据挖掘 结果判断 III . 数据挖掘 学习框架 IV . 数据挖掘 分类 I . 数据挖掘 功能 ---- 1 ....数据挖掘 结果判断 ---- 数据挖掘结果判断 : 数据挖掘得出的 知识 / 模式 , 如何判断得出的结果是否有效 ; ① 客观判断方法 : 通过科学计算进行判断是否正确 , 该计算基于 模式 的t 统计和结构...数据挖掘 学习框架 ---- 1 . 数据挖掘技术 ( 重点 ) : 聚类分析 , 异常检测 , 分类 , 关联规则分析 , 序列模式分析 , 数据方体与数据仓库 ; 2 ....数据挖掘应用 : CRM , 搜索分析 , 网络安全 , 生物信息分析 … IV . 数据挖掘 分类 ---- 1 ....: 时间数据 , 空间数据 , 文本数据 , 音视频多媒体数据 , WEB 数据 等类型的数据挖掘 ; 2 .

1K20

数据架构】SOGAF 通用实体框架 (CoE)

Salesforce 运营、治理和架构框架 (SOGAF) 将 MIT-CISR 企业架构框架应用于 Salesforce 实施和程序。...转换程序中的通用实体 (CoE) 有多种名称: “卓越中心”、“C4E”、“专业中心”、“专家网络” 术语“设计授权”或“平台授权”也用于通用实体,这会造成一些混淆 不同的描述会导致不同的期望——当没有得到满足时会感到沮丧...此类问题在难以确定是转型、能力还是最佳实践中心的实体中很常见 共同实体也可以扮演任意数量的这些角色,增加了混乱: 毕竟,通用实体 (CoE) 什么都做。...数据和元数据迁移Release Mgmt & Integrations使用工具建立主要和次要发布时间表。...监督版本控制、分 支、频率、组件、集成Data Migration & Quality Mgmt监督数据模型和元数据,更新生产数据、数量、质量 、合规性以及数据报告License & Usage Mgmt

1.3K20

Top1开源baseline,带你玩科大讯飞数据挖掘比赛

Github: https://github.com/woxima/2019iFLYTEK_MachineryLife_Baseline/blob/master/README.md 赛题来源科大讯飞数据挖掘竞赛机械部件寿命预测...,目前离初赛结束还有11天,本文分享目前排名第一的团队开源的baseline,帮助大家更好地进入比赛。...3.数据预处理 数据中有大量的负值和突变数据存在,我尝试一些方法,发现效果并不好,如何处理这一部分数据暂时没有找到比较好方案。如果大家有比较好处理方法,也可以一起交流讨论。...4.特征工程 该比赛数据个人感觉是类时序数据,但不是那么严格,本文给出的baseline提取了一些基本的统计特征,比如最大最小值、均值、方差等。对设备进行独热编码。...另外构建一个可扩展的基础框架比赛中是非常重要的,这也本次分享的核心之一。 b.开源代码参考Github 深度学习与Python,专注于深度学习、机器学习前沿知识与资讯

91940

干货 | 图像比赛通用套路有哪些?Kaggle比赛金牌团队为你解答

他所在的队伍在 Kaggle 上的亚马逊比赛中获得了金牌,在这次的分享上,他为我们详述了比赛过程中所获得的经验以及图像比赛中的一些通用套路。...我会对比赛做一个简单的介绍,讲一些通用的方法,比如模型的构建、分析、改善,以及比赛中我们的一些数据增强案例。...但是如果我们使用预训练模型,也就意味着大体的模型框架都是保持和它预训练时候设置的一样,那样能做的调整就比较少。...其实几乎所有不同的框架都有提供自己的预训练模型,除了有一些共通的之外,还有一些不同的,有一些预训练模型只有某个框架有,有一些预训练模型大家可能都有比较分析,我们最后选择了一个PyTorch的框架。...这样的话我们就有了更多的训练样本,相当于把这个数据集扩充了八倍,这个方法是适用于这个比赛数据增强,但是它并不适用于所有比赛

1K71

干货:图像比赛通用套路有哪些?Kaggle比赛金牌团队为你解答

他所在的队伍在 Kaggle 上的亚马逊比赛中获得了金牌,他为我们详述了比赛过程中所获得的经验以及图像比赛中的一些通用套路。...我会对比赛做一个简单的介绍,讲一些通用的方法,比如模型的构建、分析、改善,以及比赛中我们的一些数据增强案例。...但是如果我们使用预训练模型,也就意味着大体的模型框架都是保持和它预训练时候设置的一样,那样能做的调整就比较少。...其实几乎所有不同的框架都有提供自己的预训练模型,除了有一些共通的之外,还有一些不同的,有一些预训练模型只有某个框架有,有一些预训练模型大家可能都有比较分析,我们最后选择了一个PyTorch的框架。...这样的话我们就有了更多的训练样本,相当于把这个数据集扩充了八倍,这个方法是适用于这个比赛数据增强,但是它并不适用于所有比赛

1K71

数据挖掘数据挖掘总结 ( 数据挖掘相关概念 ) ★★

用于挖掘的数数据源 必须 真实 : ① 存在的真实数据 : 数据挖掘处理的数据一般是存在的真实数据 , 不是专门收集的数据 ; ② 数据收集 : 该工作不属于数据挖掘范畴 , 属于统计任务 ; 2 ....数据必须海量 : ① 少量数据处理 : 少量数据使用统计方法分析 , 不必使用数据挖掘 ; ② 海量数据 : 处理海量数据时 , 才使用数据挖掘 , 涉及到 有效存储 , 快速访问 , 合理表示 等方面的问题...未知结果 : ① 挖掘结果 : 数据挖掘 挖掘出的知识是未知的 , 目的是为了发掘潜在的知识 , 模式 ; 这些知识只能在特定环境下可以接收 , 可以理解 , 可以运用 ; ② 知识使用 : 数据挖掘出的知识只能在特定领域使用..., 如金融领域数据挖掘结果 , 只能在金融领域及相关领域使用 ; 参考博客 : 【数据挖掘数据挖掘简介 ( 数据挖掘引入 | KDD 流程 | 数据源要求 | 技术特点 ) 二、 数据挖掘组件化思想...数据挖掘任务分类 : 根据数据挖掘的目标 , 可以将数据挖掘任务分为以下几类 : ① 模式挖掘 , ② 描述建模 , ③ 预测建模 ; 描述建模 和 预测建模 又称为 模型挖掘 ; ① 模式挖掘 : 如

4.6K00

数据挖掘】图数据挖掘

那么图数据挖掘是干什么的呢?难道是开着挖掘机来进行挖掘?还是扛着锄头?下面讲讲什么是图数据挖掘。...一、什么是图数据挖掘 这个话题感觉比较沉重,以至于我敲打每个字都要犹豫半天,这里我说说我对图数据挖掘的理解。数据是一个不可数名字,那么说明数据是一个没有边界的东西。...那么不难理解,数据挖掘就是挖掘数据里面的“宝贝”,图数据挖掘,就是以图的结构来存储、展示、思考数据,以达到挖掘出其中的“宝贝”。那这个“宝贝”是什么?...那么对这个图进行关系挖掘,那么会产生很多有用的数据,比如可以推荐你可能认识的人,那就是朋友的朋友,甚至更深,这就形成了某空间好友推荐的功能。比如某宝的你可能喜欢的宝贝,可以通过图数据挖掘来实现。...这就是我认为的图数据挖掘。 从学术上讲,图数据挖掘分为数据图,模式图两种。至于这两个类型的区别,由于很久没有关注这块,所以只能给出一个字面意义上的区别。

2.4K81

Android通用流行框架汇总

基于NIO而不是线程 OkHttp 一个Http与Http/2的客户端 Retrofit 类型安全的Http客户端 Volley Google推出的Android异步网络请求框架和图片加载框架 ---...数据库 名称 描述 OrmLite JDBC和Android的轻量级ORM java包 Sugar 用超级简单的方法处理Android数据库 GreenDAO 一种轻快地将对象映射到SQLite数据库的...ActiveAndroid 以活动记录方式为Android SQLite提供持久化 SQLBrite SQLiteOpenHelper 和ContentResolver的轻量级包装 Realm 移动数据库...Log框架 名称 描述 Logger 简单,漂亮,强大的Android日志工具 Hugo 在调试版本上注解的触发方法进行日志记录 Timber 一个小的,可扩展的日志工具 ---- 13....测试框架 名称 描述 Mockito Java编写的Mocking单元测试框架 Robotium Android UI 测试 Robolectric Android单元测试框架 Android自带很多测试工具

90830

某次通用型漏洞挖掘思路分享

0x01 前言 大概是在上半年提交了某个CMS的命令执行漏洞,现在过了那么久,也想通过这次挖掘通用型漏洞,整理一下挖掘思路,分享给大家。...因为简单啊,tp框架首先各种C方法,I方法的,就够头疼了。...,虽然可能漏洞奖金不多、但是满满的成就感有没有~ 代码审计也是一样的,一开始就找框架型的,MVC架构的CMS,不仅可能看不懂代码,还可能连路由都弄不懂呢。...&总结 挖掘后干嘛?...提交漏洞呗~ 好的,这个算是刚开始学习没多久挖掘到的漏洞,其实现在觉得技术含量不高,发现漏洞也不难,主要想分享一下过程以及思路。 最后,希望看到这篇文章到小伙伴也能很快挖掘通用型漏洞~

60720

数据挖掘数据挖掘总结 ( 数据挖掘特点 | 数据挖掘组件化思想 | 决策树模型 ) ★

文章目录 一、 数据挖掘特点 二、 数据挖掘组件化思想 三、 决策树模型 1、 决策树模型创建 2、 树根属性选择 一、 数据挖掘特点 ---- 1 ....用于挖掘的数数据源 必须 真实 : ① 存在的真实数据 : 数据挖掘处理的数据一般是存在的真实数据 , 不是专门收集的数据 ; ② 数据收集 : 该工作不属于数据挖掘范畴 , 属于统计任务 ; 2 ....数据必须海量 : ① 少量数据处理 : 少量数据使用统计方法分析 , 不必使用数据挖掘 ; ② 海量数据 : 处理海量数据时 , 才使用数据挖掘 , 涉及到 有效存储 , 快速访问 , 合理表示 等方面的问题..., 如金融领域数据挖掘结果 , 只能在金融领域及相关领域使用 ; 参考博客 : 【数据挖掘数据挖掘简介 ( 数据挖掘引入 | KDD 流程 | 数据源要求 | 技术特点 ) 二、 数据挖掘组件化思想...数据挖掘任务分类 : 根据数据挖掘的目标 , 可以将数据挖掘任务分为以下几类 : ① 模式挖掘 , ② 描述建模 , ③ 预测建模 ; 描述建模 和 预测建模 又称为 模型挖掘 ; ① 模式挖掘 : 如

92900
领券