首页
学习
活动
专区
工具
TVP
发布

Brian

专栏作者
72
文章
129597
阅读量
22
订阅数
R语言性能Tips和GC
最近团队在使用R语言作为算法的实践语言,通过人工策略和xgboost算法进行一些价格算法的控制和输出,发现一些代码中对于内存、CPU、程序设计思想以及现代统计算法并不是很熟悉,于是特写此篇普及一下知识,也算是我对R语言的入门文章吧。
吕海峰
2018-08-08
1.6K0
结构化机器学习流程
机器学习可以通过结构化的流程来梳理:1.定义问题和需求分析->2.数据探索->3.数据准备->4.评估算法->5.优化模型->6.部署。
吕海峰
2018-08-08
1.1K0
机器学习常用算法-k近邻算法
概述 今天介绍一下机器学习常用算法,以及常用的数据处理技巧等。我们都知道机器学习针对特定任务从经验中学习,并且使得我们的任务效果越来越好。我们看一机器学习的workflow,如下所示: 数据采集和标记->数据清洗->特征选择->模型选择->模型训练和测试->模型性能评估和优化->模型使用即上线。 我们一般通过Python来实现机器学习常用算法的程序,所以基于Python语言常用的机器学习类库及其第三方扩展库有:IPython,Jupyter,numpy,matplotlib,scipy,scikit-lea
吕海峰
2018-07-03
8450
机器学习常用算法-线性回归算法
概述 有时候我们需要预测连续值的映射关系,比如房价预测问题。不想之前的是几个类别,它的输出值是实数。这个时候一般通过线性回归算法进行拟合。 线性回归 h_\theta(x)=\theta_0+\theta_1x 上面这个例子是针对数据集x和y,预测函数根据数据输入x会预测出h(x),我们的目的是找出一个合适θ参数值,是的预测值h(x)和y值的整体误差最小。我们一般通过均方差成本函数来衡量模型对训练样本拟合的好坏程度。如下: J(\theta)=J(\theta_0,\theta_1)=\frac 1{2
吕海峰
2018-06-13
6820
熵的理解
---- 熵 熵在信息论中代表随机变量不确定度的度量。一个离散型随机变量X的熵H(X)定义为: image.png 明确定义的科学名词且与内容无关,而且不随信息的具体表达式的变化而变化。是独立于形式,反映了信息表达式中统计方面的性质。是统计学上的抽象概念。信息熵的一种解释是,它表示的是最短的平均编码长度。同样的,不确定性越大,熵就越大。信息熵的单位是比特(bit)。我们举两个简单的例子: 第一个例子: 32支球队,在无任何先验信息的前提下,用二分法猜冠军队伍,最多猜5次,即: image.png 第二个例子
吕海峰
2018-04-03
7020
线性代数基础之A的LU分解
---- 概述 在线性代数基础之矩阵乘法已经介绍了矩阵乘法的行图像和列图像代表什么什么意义,包括在求解Ax=b的线性方程组是通过消元法来求解该方程组以及矩阵的逆通过Gauss-Jordan方法来求得矩阵的逆矩阵。 简单的描述如下: 矩阵右乘 image.png 矩阵左乘 image.png A的LU分解 image.png 二阶矩阵的LU分解 image.png 三阶矩阵的LU分解 image.png
吕海峰
2018-04-03
1.2K0
统计学基础一之数据描述和随机变量
---- 概述 最近在梳理统计学基础,发现一些统计学的基本知识已经全部还给老师。由于在学习和工作中用到一部分,所以又重新拿了起来。统计学:主要分为描述统计学和推论统计学。 数据集的集中趋势 在描述数据的集中趋势几种概念: 1.平均值:所有数字的平均,描述集中趋势的某特定数字。 2.众数:出现次数(频率最多)最多的数字。描述的是离散值频率最多的数字。 3.中位数:从小到大排序,排序索引中间的数字。 以上都是描述数字集的中间趋势。 4.极差:最大值减去最小值。数字之间越紧密,极差越小;反之亦然。 5.中程数:最
吕海峰
2018-04-03
1.3K0
机器学习读书笔记一
---- 概述 最近在看周教授的《机器学习》,书中很多理论知识非常适合入门和学习。故把每一章的自己读书笔记和记录给写下来。 基本术语 机器学习:机器学习致力于研究如何利用经验来改善系统自身的性能。机器学习所研究的内容是关于在计算上从数据中产生模型的算法。 书中通过西瓜的例子生动的阐述了很多内容,比如收集了一些西瓜数据:(色泽=青绿;根蒂=蜷缩;敲声=浊响),(色泽=乌黑;根蒂=硬挺;敲声=沉闷),…… Data Set:记录的集合,比如这些西瓜数据。 Instance:每条记录是关于一个事件或者对象。 At
吕海峰
2018-04-03
5030
机器学习之K近邻算法
---- 概述 AI不断的火起来了,作为工程化的码农,也得奔向国际化轨道了。至于机器学习是什么,不知道找百科。现在大多数机器学习都是采用监督学习形式。我们学习一下KNN算法。 KNN KNN(K近邻)算法属于监督学习的分类问题,采用不同feature之间的距离方法进行分类。 1.优点:精度高、对异常值不敏感、无数据输入规定,不需要训练算法。 2.缺点:计算复杂度和空间复杂度高。 3.原理:依据训练样本集中的每个数据对应一个标签,每个数据集中每一个数据与分类一一对应关系,输入没有标签的数据后KNN算法将新数据
吕海峰
2018-04-03
4970
AWK 深入浅出教程
---- 概述 awk是一门解释性文本处理语言,它在文本处理领域中非常强大和方便。awk有三个主要的类型是: AWK - 原先来源于 AT & T 实验室的的AWK. NAWK - AT & T 实验
吕海峰
2018-04-03
1.4K0
Python 深浅拷贝
Python浅拷贝和深度拷贝 今天面试了一个计算机专业研究生且大学出身也很好,但是面试的结果来看并没有达到我的预期。很多基础计算机的知识貌似都不是很懂,更别说对操作系统、编译原理和算法的深度造化了。不排除高级语言和IDE隐藏了很多细节,但是当你去追求更高性能或者你想进阶的话,我想说底层的东西真的很重要。只有你完全掌握这些底层的东西,你才能通过高级语言特性来优化你的业务和应用。虽然有点扯淡,还是开始咱们今天聊一下Python的浅拷贝和深度拷贝。 对象赋值 在Python中大致可以分为immutable和mu
吕海峰
2018-04-03
7830
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档