首页
学习
活动
专区
工具
TVP
发布

CDA数据分析师

专栏作者
1603
文章
1884097
阅读量
175
订阅数
员工一言不合就离职怎么办?我用Python写了个员工流失预测模型
有人离职是因为“世界那么大,我想去看看”,也有人觉得“怀有绝技在身,不怕天下无路”。
CDA数据分析师
2022-11-17
5880
手中无y,心中有y——聚类算法的正确建模方式
聚类算法是属于无监督的机器学习方法;机器学习里把算法分为有监督和无监督的算法,所谓有监督,即我想研究的数据集有目标数据,白话点就是建模里大家常说的那个y,如我想基于公司数据库已经有的相关数据集训练一个模型,用来预测客户是否会流失,从数据库中得到的数据集里是有一个特征(一列)是客户是否流失的,可能1代表流失,0代表不会流失;但业务的初期或者数据库中没有该特征,即手中无y,那该怎么办?如对客户进行价值分群,此时对于这种目标明确,但确实缺少y这一列这种分析需求,可考虑聚类算法来实现。
CDA数据分析师
2021-12-09
9500
干货 | 基于Python实现五大常用分类算法(原理+代码)
K-Nearest Neighbors (KNN) 是一种懒惰学习算法和分类算法。此外,KNN是机器学习中最简单的方法。利用KNN进行分类,预测新点的分类。
CDA数据分析师
2021-08-05
16.6K2
Kaggle金牌得主的Python数据挖掘框架,机器学习基本流程都讲清楚了
导语:很多同学在学习机器学习时往往掉进了不停看书、刷视频的,但缺少实际项目训练的坑,有时想去练习却又找不到一个足够完整的教程,本项目翻译自kaggle入门项目Titanic金牌获得者的Kernel,该篇文章通过大家并不陌生的泰坦尼克数据集详细的介绍了如何分析问题、数据预处理、建立模型、特征选择、模型评估与改进,是一份不可多得的优秀教程。
CDA数据分析师
2020-09-25
4990
收藏 | 来!一起捋一捋机器学习分类算法
可是,你能够如数家珍地说出所有常用的分类算法,以及他们的特征、优缺点吗?比如说,你可以快速地回答下面的问题么:
CDA数据分析师
2019-08-21
4490
关于机器学习实战,那些教科书里学不到的12个“民间智慧”
这意味着数据量越大,这些算法就可以解决更加复杂的问题。然而,开发成功的机器学习应用程序需要一定的“民间技巧”,这在教科书或机器学习入门课程中很难找到。
CDA数据分析师
2019-05-29
3180
R 语言数据分析师养成计划——从零开始的 14 个任务
作者 CDA数据分析师 1992年,肉丝(Ross Ihaka)和萝卜特(Robert Gentleman)两个人在S语言(贝尔实验室开发的一种统计用编程语言)的基础上开始构思一种新的用于统计学分析的开源语言,直到1995年第一个版本正式发布(和各位年龄相仿)。因为他们名字的第一个字母都是R,所以这门语言就被叫做R。这两个人都是统计学教授出身,再加上R语言的生父S语言,所以R语言在统计学方面有着纯正的血统! 如果你平时的工作会涉及到统计学,那么接触R语言实在是太正常不过了。因为R语言本身为统计而生,
CDA数据分析师
2018-02-26
1K0
基于 R 语言和 SPSS 的决策树算法介绍及应用
文 | 刘昭东, 软件工程师, IBM 机器学习在各个领域都有广泛的应用,特别在数据分析领域有着深远的影响。决策树是机器学习中最基础且应用最广泛的算法模型。本文介绍了机器学习的相关概念、常见的算法分类和决策树模型及应用。通过一个决策树案例,着重从特征选择、剪枝等方面描述决策树的构建,讨论并研究决策树模型评估准则。最后基于 R 语言和 SPSS 这两个工具,分别设计与实现了决策树模型的应用实例。 机器学习概念 机器学习 (Machine Learning) 是近 20 多年兴起的一门多领域交叉学科,涉及概率论
CDA数据分析师
2018-02-24
1.4K0
以“上大学分析”为例体验什么是数据挖掘
谈到BI,就会谈到数据挖掘(Data mining)。数据挖掘是指用某些方法和工具,对数据进行分析,发现隐藏规律并利的一种方法。下面我们将通过具体的例子来学习什么是数据挖掘。 案例“上大学分析”-体验
CDA数据分析师
2018-02-11
7680
【干货】数据挖掘的10大分析方法
1.C4.5 C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法.C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进: 1)用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足; 2)在树构造过程中进行剪枝; 3)能够完成对连续属性的离散化处理; 4)能够对不完整数据进行处理。 C4.5算法有如下优点:产生的分类规则易于理解,准确率较高。其缺点是:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。 2.Thek-m
CDA数据分析师
2018-02-11
1.6K0
细思极恐!大数据和机器学习揭示十二星座的真实面目
原文链接:http://bbs.pinggu.org/thread-5905227-1-1.html “为什么我的论文总发表不了,是不是我天生就不是做研究的料?”很多同学在写论文中遇到挫折,经常会发出
CDA数据分析师
2018-02-05
1.6K0
随机之美——机器学习中的随机森林模型
摘要:随机森林和决策树相比,能更好的防止过拟合。虽然每个基分类器很弱,但最后组合的结果通常很强,这也类似于:“三个臭皮匠顶个诸葛亮”的思想。对比发现Random Forest(随机森林)和SVM(支持向量机)名列第一、第二名。 01 树与森林 在构建决策树的时候,可以让树进行完全生长,也可以通过参数控制树的深度或者叶子节点的数量,通常完全生长的树会带来过拟合问题。过拟合一般由数据中的噪声和离群点导致,一种解决过拟合的方法是进行剪枝,去除树的一些杂乱的枝叶。 注:你可能需要参考前面的文章:《0x0B 菩提决策
CDA数据分析师
2018-02-05
1.5K0
数据分析与数据挖掘的联系和区别!
数据挖掘挖什么? 前一篇我总结了一些软件的区别和选择。在数据分析的学习道路上,放正了心态(心术篇),扎实了基础(理论篇),熟练了工具(软件篇)后,无论是学术研究还是业务应用,基本可以独立地进行数据分析的工作了,而更多技能的提升需要在数据分析这个平台里不断的进行实战研究,不断提升对业务的敏锐分析,不断的精通对软件的创新演练。 然而,有了这些还不够,数据分析只是在已定的假设,先验约束上处理原有计算方法,统计方法,将数据分析转化为信息,而这些信息需要进一步的获得认知,转化为有效的
CDA数据分析师
2018-02-05
2.6K0
技能 | 基于树的建模-完整教程(R & Python)
简介: 基于树的学习算法被认为是最好的方法之一,主要用于监测学习方法。基于树的方法支持具有高精度、高稳定性和易用性解释的预测模型。不同于线性模型,它们映射非线性关系相当不错。他们善于解决手头的任何问题(分类或回归)。 决策树方法,随机森林,梯度增加被广泛用于各种数据科学问题。因此,对于每一个分析师(新鲜),重要的是要学习这些算法和用于建模。 决策树、随机森林、梯度增加等方法被广泛用于各种数据科学问题。因此,对于每一个分析师(包括新人),学习这些算法并用于建模是非常重要的。 本教程是旨在帮助初学者从头学习基于
CDA数据分析师
2018-02-05
7470
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档