首页
学习
活动
专区
工具
TVP
发布

张俊红

专栏作者
356
文章
554938
阅读量
91
订阅数
如何向5岁小孩解释什么是支持向量机(SVM)?
编辑:王萌(深度学习冲鸭公众号) 著作权归作者所有,本文仅作学术分享,若侵权,请联系后台删文处理 今天和大家分享一个入门级分类方法的讲解吧! 什么是SVM? 关于什么是SVM这个事情,就要必须要说一说刘强西救爱人的故事: 在很久以前的情人节,魔鬼抢走了刘强西的爱人,旅馆老板刘强西便发誓要救他的爱人。 来到魔鬼的城堡前,魔鬼和他玩了一个游戏,只要他通过了就放走他的爱人。 魔鬼在桌子上似乎有规律放了两种颜色的球,说:“你用一根棍分开它们?要求:即便再放更多球之后,仍然能将它们分开。” 于是刘强西这样放,干
张俊红
2022-09-27
2200
30个数据科学工作中必备的Python包!
来源丨数据STUDIO 在本文中,云朵君将介绍一些非常独特的并且好用的 Python 包,它们可以在许多方面帮助你构建数据的工作流。 Python 可以说是最容易入门的编程语言,在numpy,scipy等基础包的帮助下,对于数据的处理和机器学习来说Python可以说是目前最好的语言,在各位大佬和热心贡献者的帮助下Python拥有一个庞大的社区支持技术发展,开发两个各种 Python 包来帮助数据人员的工作。 1、Knockknock Knockknock是一个简单的Python包,它会在机器学习模型训练结束
张俊红
2022-08-26
1.2K0
数据科学中的10个重要概念和图表
“当算法给你一条曲线时,一定要知道这个曲线的含义!” 1、偏差-方差权衡 这是一个总是在机器学习最重要理论中名列前茅的概念。机器学习中的几乎所有算法(包括深度学习)都努力在偏差和方差之间取得适当的平衡,这个图清楚地解释了二者的对立关系。 2、基尼不纯度与熵 Gini(缺乏同质性的度量)和 Entropy(随机性的度量)都是决策树中节点不纯度的度量。 对于这两个概念更重要的是要了解它们之间的关系,以便能够在给定的场景中选择正确的指标。 基尼不纯度(系数)通常比熵更容易计算(因为熵涉及对数计算)
张俊红
2022-08-26
4360
提高数据科学效率的 8 个Python神库!
来源丨数据STUDIO 在进行数据科学时,可能会浪费大量时间编码并等待计算机运行某些东西。所以我选择了一些 Python 库,可以帮助你节省宝贵的时间。 1、Optuna Optuna 是一个开源的超参数优化框架,它可以自动为机器学习模型找到最佳超参数。 最基本的(也可能是众所周知的)替代方案是 sklearn 的 GridSearchCV,它将尝试多种超参数组合并根据交叉验证选择最佳组合。 GridSearchCV 将在先前定义的空间内尝试组合。例如,对于随机森林分类器,可能想要测试几个不同的树的最大深度
张俊红
2022-08-26
4820
机器学习通识篇知识分享
机器学习定义 机器学习(Machine Learning)本质上就是让计算机自己在数据中学习规律,并根据所得到的规律对未来数据进行预测。 机器学习包括如聚类、分类、决策树、贝叶斯、神经网络、深度学习(Deep Learning)等算法。 机器学习的基本思路是模仿人类学习行为的过程,如我们在现实中的新问题一般是通过经验归纳,总结规律,从而预测未来的过程。机器学习的基本过程如下: 机器学习基本过程 机器学习发展历程 从机器学习发展的过程上来说,其发展的时间轴如下所示: 机器学习发展历程 从上世纪50年代的图
张俊红
2022-07-19
3770
14种数据异常值检验的方法!
来源:宅码 作者:AI 本文收集整理了公开网络上一些常见的异常检测方法(附资料来源和代码)。不足之处,还望批评指正。 一、基于分布的方法 1. 3sigma 基于正态分布,3sigma准则认为超过3sigma的数据为异常点。 图1: 3sigma def three_sigma(s):    mu, std = np.mean(s), np.std(s)    lower, upper = mu-3*std, mu+3*std    return lower, upper 2. Z-score
张俊红
2022-05-30
1.2K0
快别「一句wòcào行天下」,清华开源了个神器专治词穷!
鱼羊 发自 凹非寺 量子位 | 公众号 QbitAI 奈何本人没文化,一句(哔——)行天下。 这位胖友,不知你行走江湖,是否也有过这样的烦恼? 那么这里有个神器,可就值得好好说道说道了。 “听我说谢谢你,因为有你,温暖了四季”用成语应该怎么说? 在搜索框内输入你想表达的意思,再在词性一栏里选择成语,AI立马就能给你抛出几十上百个选项。 背景颜色越深,代表系统推荐程度越高。 要是碰上啥看不懂的,鼠标一点,就能查看具体释义。 还不只是中文,比如当你想脱口而出一句“鹅妹子嘤”,但又想知道有没有更华丽的中文表达
张俊红
2022-05-23
4720
【PDF下载】无意中发现的另三本统计学入门好书
本来昨晚全身心准备学习材料来,但是无意中检索到三本统计学的pdf,分别翻看了一遍。 第一本统计学,一共130+页,全书一气呵成,很少见到把统计学的概念串联的,这么好的,所以忍不住再发出来。 书中一幅图,原始频率分布直方图 这也是此书的一大特点,它不是一上来累计概念,而是从最基本的统计常识演绎出统计学的主要理论概念,写的比较通俗。做到这点,显然不容易。需要很深的统计学功底,并有很长地应用统计学的实践经历,才有可能写出来。 电子书下载 三本统计学书PDF已经打包好,获取步骤如下: 1. 点击下方名片,关注
张俊红
2022-04-14
1.4K0
图解10大机器学习算法
今天给大家分享一篇机器学习算法的文章,利用图解的方式介绍了10大常见的机器学习算法。看正文: ---- 在机器学习领域,有种说法叫做“世上没有免费的午餐”,简而言之,它是指没有任何一种算法能在每个问题上都能有最好的效果,这个理论在监督学习方面体现得尤为重要。 举个例子来说,你不能说神经网络永远比决策树好,反之亦然。模型运行被许多因素左右,例如数据集的大小和结构。因此,你应该根据你的问题尝试许多不同的算法,同时使用数据测试集来评估性能并选出最优项。 当然,你尝试的算法必须和你的问题相切合,其中的门道便是机器学
张俊红
2022-03-25
4920
机器学习常用术语超全汇总
点击关注|设为星标|干货速递 ---- 刚接触机器学习框架 TensorFlow 的新手们,这篇由 Google 官方出品的常用术语词汇表,一定是你必不可少的入门资料!本术语表列出了基本的机器学习术语和 TensorFlow 专用术语的定义,希望能帮助您快速熟悉 TensorFlow 入门内容,轻松打开机器学习世界的大门。 A A/B 测试 (A/B testing) 一种统计方法,用于将两种或多种技术进行比较,通常是将当前采用的技术与新技术进行比较。A/B 测试不仅旨在确定哪种技术的效果更好,而且还有助于
张俊红
2022-03-03
8470
一篇来自10年数据总监关于数据分析师的理解
本文作者为数据海洋,海洋老师从一个数据分析师成长为管理过近百人的数据团队的负责人,这中间总结了不少经验,也踩了不少坑,现在他把这些分享出来,希望可以帮助到大家。总共有三篇,本篇为第一篇,主要写了数据分析师的入门需要的基本的知识,逻辑,工作方法。
张俊红
2020-02-10
3.5K1
如何轻松学习Python数据分析?
今天这篇文章来聊聊如何轻松学习『Python数据分析』,我会以一个数据分析师的角度去聊聊做数据分析到底有没有必要学习编程、学习Python,如果有必要,又该如何学习才能做到毫不费力。
张俊红
2019-05-05
7100
机器学习优化算法(一)
我们在前面说过机器学习中的损失函数,其实机器学习中的每一个模型都是在求损失函数的最优解,即让损失达到最小值/极小值,求解方式有多种,本篇讲讲其中两个基本的优化方法:
张俊红
2018-10-08
1.1K0
机器学习中的参数调整
总第102篇 前言 我们知道每个模型都有很多参数是可以调节的,比如SVM中使用什么样的核函数以及C值的大小,决策树中树的深度等。在特征选好、基础模型选好以后我们可以通过调整模型的这些参数来提高模型准确率。每个模型有很多参数,而每个参数又有很多不同的取值,我们该怎么调,最简单的一个方法就是一个一个试。sklearn中提供了这样的库代替了我们手动去试的过程,就是GridSearchCV,他会自己组合不同参数的取值,然后输出效果最好的一组参数。 GridSearchCV参数解释 GridSearchCV(es
张俊红
2018-04-17
2.4K0
机器学习中的交叉验证
总第100篇 本篇讲讲机器学习中的交叉验证问题,并利用sklearn实现。 前言 在说交叉验证以前,我们先想一下我们在搭建模型时的关于数据切分的常规做法[直接利用train_test_split把所有的数据集分成两部分:train_data和test_data,先在train_data上进行训练,然后再在test_data上进行测试评估模型效果的好坏]。 因为我们训练模型时,不是直接把数丢进去就好了,而是需要对模型的不断进行调整(比如参数),使模型在测试集上的表现足够好,但是即使模型在测试集上效果好,不
张俊红
2018-04-11
1.8K0
机器学习中的特征选择
总第98篇 本篇讲解一些特征工程部分的特征选择(feature_selection),主要包括以下几方面: 特征选择是什么 为什么要做特征选择 特征选择的基本原则 特征选择的方法及实现 特征选择是什么 特征选择也称特征子集选择,是从现有的m个特征中选出对机器学习有用的n个特征(n<=m),以此降低特征维度减少计算量,同时也使模型效果达到最优。 为什么要做特征选择 在实际业务中,用于模型中的特征维度往往很高,几万维,有的一些CTR预估中维度高达上亿维,维度过高会增大模型计算复杂度,但是在这么多维数据中,并
张俊红
2018-04-11
2.1K0
机器学习中非平衡数据处理
总第97篇 这一篇主要说一下机器学习中非平衡数据的处理方式以及用python如何实现. 在前面的一篇推文中我们提到过,非平衡数据会影响最后的评判效果,严重的会带来过拟合的效果,即模型总是把样本划分到样本量较多的那一种。为了让模型的评判更准确,我们需要对非平衡数据进行一定的处理,主要有以下几种方式: 欠采样 过采样 人工合成 调权重 在开始介绍不同的处理方式之前,我们先引入一组非平衡数据。 #导入一些相关库 from sklearn.model_selection import train_test_s
张俊红
2018-04-11
1.3K0
机器学习模型效果评估
总第96篇 前言 前面的推文中介绍了几种常用的机器学习算法,每个算法都有各自的优劣势,我们应该选择根据每个算法的优劣势去合理的选择适合我们需求的算法,以此达到效果最优,那么什么样的效果才是最优的,用
张俊红
2018-04-11
2K0
朴素贝叶斯详解
总第78篇 一、统计知识 01|随机事件: 1、概念 随机事件是在随机试验中,可能出现也可能不出现,而在大量重复试验中具有某种规律性的事件叫做随机事件(简称事件)。随机事件通常用大写英文字母A、B、C等表示。随机试验中的每一个可能出现的试验结果称为这个试验的一个样本点,记作ωi。全体样本点组成的集合称为这个试验的样本空间,记作Ω.即Ω={ω1,ω2,…,ωn,…} 随机事件中的事件形式可能由各种形式,比如{"正面","反面"},{"优","良","差"}。 2、条件概率 P(A|B)=P(AB)/P(B
张俊红
2018-04-11
8950
机器学习开篇
总第76篇 声明: 1、接下来的关于机器学习的专题内容都会借鉴李航老师的《统计学习方法》。 2、李航老师的书籍中把机器学习称为统计机器学习,我们在文章中简称为统计学习。 01|统计学习概览: 1、统计学习的概念 统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。 2、统计学习的对象 统计学习的对象是数据,它从数据出发,提取数据的特征,抽象出数据的模型,发现数据中的知识,然后对数据进行分析与预测。 作为统计学习的对象,数据的形式是多样的,包括存在于计算机中的各种数字、
张俊红
2018-04-11
5730
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档