首页
学习
活动
专区
工具
TVP
发布

自学笔记

自己学习人工智能的一些笔记
专栏成员
79
文章
57184
阅读量
17
订阅数
kaggle-(Santander Value Prediction Challenge)
https://www.kaggle.com/greenarrow2018/santander-value-prediction-challenge
西红柿炒鸡蛋
2020-10-26
6700
Astar Algorithm
参考文献:https://www.gamedev.net/reference/articles/article2003.asp 这篇东西写的贼好。
西红柿炒鸡蛋
2020-09-10
8140
PAT甲级题目
PAT甲级的题目有关于树的题目,1053,1086,1090,1102,1106,1115,1119,1038,1110,1020,1043
西红柿炒鸡蛋
2020-03-20
4810
Machine Learning in Action:KNN Algorithm
对于分类问题,最主要的任务就是找到对应数据合适的分类。而机器学习的另一项任务就是回归,比如CTR预测之类的。ml算法按照有无label可以分为有监督学习和无监督学习,对于无监督学习的算法比较经典的有聚类算法,有监督的相对来说较多,回归类算法基本都是的。按照参数有可以划分成有参数模型和无参数模型和半参数模型,有参数模型有两个特征,一个是用参数代表从训练数据中获得的信息,只有当target function包含在了hypothesis set里面才会收敛。无参数模型是没有参数的,直接存储所以的训练数据,也就是不再用参数代表训练数据,比如KNN,无训练过程,而且一定收敛。对于半参数模型,参数一定有,但是一定收敛,最经典的就是神经网络模型,神经网络模型在理论上是可以拟合所有的target function,所有只要训练数据够多,一定可以收敛,因为他的hypothesis set包含了所以的target function。 如何选择算法,需要考虑两个方面:首先是使用这个算法的目的是什么,想要完成什么任务,其次就是数据怎么来,规模多大。开放ml程序一般要经历一下步骤,首先是收集数据,准备输入数据,也就是数据预处理,分析输入数据,训练算法。
西红柿炒鸡蛋
2019-03-21
3930
Chapter 6:Similarity-Based Methods
,其中Q是一个半正定的协方差矩阵,是多维度数据之间的方差。马氏距离比高斯距离考虑的更全面,因为他把数据的维度和数据的大小都考虑了进来。中间的Q矩阵就是起到这个作用,
西红柿炒鸡蛋
2019-03-05
6470
Data Structure_图
交通运输,社交网络,互联网,工作的安排,闹区活动等等都可以用到图论处理。图可以分成两大类,一类是无向图,就是没有方向的,就好像两个人都互相认识一样,有向图就是单方面的联系,一个人认识另一个人,但是另一个人确不认识。当然,无向图也可以看成是一种特殊的有向图。图还可以根据权值分成两类,有权图和无权图,也就是边的权值,无权值只是表示了这个边存在与否而已,有权图表示的就是这个边的重要性,也可以看成是长度等等。图还有一个重要是性质,就是连通性的问题
西红柿炒鸡蛋
2019-01-23
8000
Data Structure_堆_二叉树_并查集
堆这种数据结构的应用很广泛,比较常用的就是优先队列。普通的队列就是先进先出,后进后出。优先队列就不太一样,出队顺序和入队顺序没有关系,只和这个队列的优先级相关,比如去医院看病,你来的早不一定是先看你,因为病情严重的病人可能需要优先接受治疗,这就和时间顺序没有必然联系。优先队列最频繁的应用就是操作系统,操作系统的执行是划分成一个一个的时间片的,每一次在时间片里面的执行的任务是选择优先级最高的队列,如果一开始这个优先级是固定的可能就很好选,但是在操作系统里面这个优先级是动态变化的,随着执行变化的,所以每一次如果要变化,就可以使用优先队列来维护,每一次进或者出都动态着在优先队列里面变化。在游戏中也有使用到,比如攻击对象,也是一个优先队列。所以优先队列比较适合处理一些动态变化的问题,当然对于静态的问题也可以求解,比如求解1000个数字的前100位出来,最简单的方法就是排序了,,但是这样多此一举,直接构造一个优先队列,然后出的时候出一百次最大的元素即可。这个时候算法的复杂度就是
西红柿炒鸡蛋
2019-01-23
3690
EM Algorithm
EM算法和之前学的都不太一样,EM算法更多的是一种思想,所以后面用几个例子讲解,同时也会重点讲解GMM高斯混合模型。
西红柿炒鸡蛋
2019-01-23
6010
Optimization of Machine Learning
机器学习就是需要找到模型的鞍点,也就是最优点。因为模型很多时候并不是完全的凸函数,所以如果没有好的优化方法可能会跑不到极值点,或者是局部极值,甚至是偏离。所以选择一个良好的优化方法是至关重要的。首先是比较常规的优化方法:梯度下降。以下介绍的这些算法都不是用于当个算法,可以试用于能可微的所有算法。
西红柿炒鸡蛋
2019-01-23
5010
The Optimization of the Adaboost and Gradient Boosted Decision Tree
再回到我们上篇文章讲到的Adaboost算法,我们要从Adaboost算法推导出GBDT。首先回顾一下上篇文章的Adaboost,主要思想就是把弱分类器集中起来得到一个强的分类器。首先第一次建造树的时候每一个样本的权值都是一样的,之后的每一次训练只要有错误,那么这个错误就会被放大,而正确的权值就会被缩小,之后会得到每一个模型的α,根据每一个树的α把结果结合起来就得到需要的结果。
西红柿炒鸡蛋
2019-01-23
4460
Recommended System
推荐系统的核心问题就在于为用户推荐与其兴趣相似度比较高的商品。比如在微博上,用户至上想打发时间,并不是想准确的查看某条信息,在首页中查看每一条微博,为了帮助他筛选出一批他们可能感兴趣的信息,此时就需要分析出该用户的兴趣,从海量信息中选择出与用户兴趣相似的信息,并将这些信息推荐给用户。推荐系统就是这样,根据用户的历史和社交情况推荐与其喜好相符的商品或信息。 这时候就需要一个相似度函数
西红柿炒鸡蛋
2019-01-23
6430
Hidden Markov Model
等等,这种序列叫可见状态序列,但在HMM里面,还存在一个隐含状态链,比如这个状态链可能是
西红柿炒鸡蛋
2019-01-23
6190
Label Propagation
Label propagation是基于标传播的一种社区划分算法。Label Propagation Algorithm简称LPA算法,也可以是说是一种划分小团体的算法。这种社区划分的方法有很多,LPA只是一种最简单的一种。比如,以微博为例,用户在微博上可以关注感兴趣的人,同样也会被其他人关注,这样用户和用户之间就存在了关系,使用LPA就可以对用户进行聚类操作,相同兴趣点的用户可以聚类在一起,划分一起之后就可以统一进行推荐了,这样就可以用LPA。
西红柿炒鸡蛋
2019-01-23
8030
Random Forest
随机森林还是没有脱离聚合模型这块,之前学过两个aggregation model,bagging和decision tree,一个是边learning边uniform。首先是boostrap方式得到数据D1,之后训练做平均;另一个也是边learning但是做的是condition,直接用数据D做conditional切分。
西红柿炒鸡蛋
2019-01-23
6470
支持向量机(Support Vector Machine)
linear regression , perceptron learning algorithm , logistics regression都是分类器,我们可以使用这些分类器做线性和非线性的分类,比如下面的一个问题:
西红柿炒鸡蛋
2019-01-23
4540
Matrix Factorization
机器学习的作用就是要从一堆数据中学习到学习到某种能力,然后用这种skill来预测未来的结果。比如一个电影推荐的例子,我们手上有很多的电影数据,现在就需要训练一个机器学习的模型来使得这个模型可以预测一个新来的用户会喜欢什么电影,然后推荐过去。或者是对用户没有看过的电影进行评分预测。
西红柿炒鸡蛋
2019-01-23
6790
机器学习可行性与VC dimension
在银行评估贷款申请人的授信请求前,会进行风险评估。符合申请则通过,反之驳回。长时间的数据和申请使得银行从中找到了一些规律并开始learning,所以风险评估就是一个learning的过程,流程图如下:
西红柿炒鸡蛋
2019-01-23
4240
ClusterAlgorithm
p=2时就说平时计算的几何距离,当p趋向于正无穷的时候,其实求的就不是x,y的距离了,而是求x y中最长的一个了。因为如果x大于y,在指数增长下x回远大于y,所以y会被忽略的。这也是比较常用的了。
西红柿炒鸡蛋
2019-01-23
3320
Data Structure_Visualization排序可视化走迷宫生成迷宫扫雷
选择排序很简单,遍历所有元素,查看一下他们的之后最小的元素和当前元素交换即可。模板函数使用上面的swing模板。为了更清楚显示出排序的过程,可以用不同颜色代表排好序和未排好序的。
西红柿炒鸡蛋
2018-12-28
9540
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档