首页
学习
活动
专区
工具
TVP
发布

机器学习和数学

专栏作者
68
文章
99832
阅读量
31
订阅数
[机智的机器在学习] 机器学习中的归一化和正则化问题
今天我们要说的是,在机器学习常用的算法里面,那些需要归一化,那些不需要,通过scikit-learn中的预处理的一些方法,实际了解如何正则化和归一化数据。看完本文,应该对于一般的机器学习任务,都可以轻松上手操作。 先看一下归一化是什么意思,对于一个机器学习任务来说,首先要有数据,数据怎么来?一种情况是别人整理好给你,一种是自己造数据,根据不同的业务场景,自己提取想要的数据,一般来自各个维度的数据,也就是常说的统计口径不一样,造成的结果是得到的数据大小范围变换非常大,并且可能数据类型也不一样,统计学里面把
用户1622570
2018-04-12
2.1K0
[数据结构与算法] Python实现二分查找
可能有人会问,学习机器学习还要不要学习数据结构,知乎上有个帖子,对这个问题有很多讨论,但是答案基本都是一致的,要学!但是这块其实我掌握的并不好,本科的数据结构就没学好,后来就没学了,直到去年有段时间打算恶补一下,买了《数据结构和算法 python语言实现》,书写的挺好的,就是看着头疼,基本概念可以看懂,就是实现起来不是很明白。然后后来就去实习了,在公司做的是深度学习的东西,根本用不到,所以好久不看就又忘记了,唉,也是醉了。最近各大互联网公司都开始秋招了,如果是做算法方向的,基本笔试题都会涉及数据结构,我参加
用户1622570
2018-04-12
8620
[数据结构与算法] 线性表总结
线性表也是基本的数据结构之一,Python里面的list和tuple,就是线性表的一种实现。 首先什么是表呢,其实很简单,比如【元素1,元素2,。。。,元素n】,这样的一种数据的组织方式就是表,一个表里可以包含0个或者多个元素,只有0个元素的表,叫做空表。1,2,。。。,n叫做下标,元素的个数叫做表的长度。表元素之间的关系叫做下一个关系,比如元素2是元素1的下一个元素,这是一种顺序关系。 前驱元素和后继元素 在一个表中,存在唯一一个首元素和尾元素。就是元素1和元素n,除了元素1以外,每个元素都有唯一一个前驱
用户1622570
2018-04-12
8570
[数据结构与算法] 链接表总结
上一次说到了顺序表,链接表和顺序表一样,也是线性表。那为什么有了线性表还要有链接表呢?总之就是当数据过大时,顺序表存在一些存储方面的限制,而链接表比顺序表要更有效。链接表的主要不同之处在于使用了链接技
用户1622570
2018-04-12
8800
[数据结构与算法] 链表的其他类型
单链表是最简单的链表,单链表的一种变形就是循环单链表,其中最后一个结点的next域不用None,而是指向表的第一个结点,这样就形成了一种循环结构,所以叫循环单链表。 双链表:单链表只有1个方向的链接,只能做一个方向的扫描和逐步操作。单链表的next指针域指向下一个结点,而双链表结点除了具有next指针外,还有一个previous指针,指向上一个结点。单链表中查找元素只能从头结点开始,根据他的next指针域找到下一个结点,而双链表最大的区别在于不仅能找到下一个结点,还能找到上一个结点。 循环双链表:然后看下什
用户1622570
2018-04-12
8510
[算法与数据结构] 《算法导论》堆排序笔记
堆排序的实现是靠叫做“堆”的数据结构来实现的。所以学习堆排序,首先要了解什么是堆 堆 堆是一个数组,每个结点表示数组中的一个元素,堆可以看做是一个近似的完全二叉树。完全二叉树是所有叶结点深度相同,且所有内部结点度为2的2叉树。 树的高度:从结点x向下到某个叶结点最长简单路径中边的条数 表示堆的数组A包括两个属性:A.length给出数组元素的个数,A.heap-size表示有多少个堆元素存储在该数组中。 最大堆和最小堆 最大堆:除了根以外的所有结点i都要满足 A[PARENT(i)] >= A[i] 意思是
用户1622570
2018-04-12
8240
[数据结构和算法]《算法导论》动态规划笔记(2)
上一次介绍了动态规划解决钢条切割问题,这次介绍一下动态规划的原理,什么样的最优化问题适合用动态规划解决? 具有的两个基本特征:最优子结构和子问题重叠。 最优子结构 如果一个问题的最优解包含其子问题的最优解,称此问题具有最优子结构性质。 最优子结构发现过程: 证明问题最优解的第一个组成部分是做出一个选择。 对于一个给定问题,在其可能的第一步选择中,假定已经知道那种选择才会得到最优解。 给定可获得最优解的选择后,你确定这次选择会产生哪些子问题,以及如何最好地刻画子问题空间。 利用“剪切-粘贴”的技术证明:作为构
用户1622570
2018-04-12
6470
[数据结构和算法]《算法导论》动态规划笔记(1)
动态规划是求解最优化问题的方法,这类问题有很多可行解,每个解都有一个值,我们希望寻找具有最优值的解。我们称这个解为问题的一个最优解,而不是最优解,因为可能有多个解都达到最优值。 钢条切割问题 Serl
用户1622570
2018-04-12
7860
[机智的机器在学习] 利用TensorFlow实现多元线性回归分类器
从今天的推文开始,我打算把经典的机器学习算法,都用tf实现一遍。这样一来可以熟悉一下机器学习算法,二来可以对tf有比较好的掌握,如果你是新手,那就跟着我的节奏,一起学习吧。讲的不好,大神轻拍~。 为了节省时间,有兴趣的童鞋可以直接去Github上clone,使用~,欢迎来点star~。 Github 地址: https://github.com/Alvin2580du/machine_learning_with_tensorflow.git # 导入需要的模块 # - * - coding: utf-8 -
用户1622570
2018-04-12
1.1K0
[机智的机器在学习] TensorFlow实现Kmeans聚类
对于机器学习算法来说,主要分为有监督学习和无监督学习,前面有篇文章介绍过机器学习算法的分类,不知道的童鞋可以去看看。然后今天要讲的Kmeans算法属于无监督算法,也就是说它的输入只要训练集没有标签的。说到Kmeans, 就不得不提什么是聚类?简单说就是“合并同类项”,把性质相近的物体归为一类,就是聚类。这样就自然会产生两个问题,1,怎么确定分类的种类数目,也就是说,把所有的样本数据分为几类比较合适? 2,怎么衡量归在一类的样本“性质”是不是相近?如果解决了这两个问题,那么简单的聚类问题就解决了。 Kmean
用户1622570
2018-04-12
2.5K0
[编程经验] 拉勾网爬虫数据的后续处理
上一篇我们介绍了如何爬拉勾的数据,这次介绍一下如何分析爬下来的数据,本文以自然语言处理这个岗位为例。 上次那个爬虫的代码有一点问题,不知道大家发现没有,反正也没有人给我说。。然后后面我把我最后改好的代码附在本文的最后。 本文主要分析的是岗位职责和岗位要求,基本思路是先分词,然后统计词频,最后最词云展示出来。先看下效果 从这个图可以看出来,自然语言处理大多数需要掌握深度学习,需要用深度学习去解决问题,然后是工作经验,项目经验,以及对算法的理解。 首先分词,要正确分词,需要有一份高质量的词典,因为在岗位
用户1622570
2018-04-11
2K0
[机智的机器在学习] 卷积神经网络入门教程(2)
今天继续回归卷积神经网络的入门教程,主要是介绍全连接网络的训练过程,通俗的讲就是我们入门教程(1)里面讲的是全连接网络长什么样,神经元之间的关系是什么样的,里面的参数代表什么意思,这些都是说了的,对吧!然后全连接网络的训练就是怎么计算参数的值是多少,比如说我们有一直线方程y=kx + b,里面的k和b就是两个未知的参数,然后计算这两个参数就是通过两个点的坐标,利用二元一次方程组来计算。这个计算的过程,在NN里面叫做训练!也就是说网络(也可以理解为模型或者方程)建好了以后是不知道里面的参数值是多少的,需要根据
用户1622570
2018-04-11
6650
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档