首页
学习
活动
专区
工具
TVP
发布

AI小白入门

专栏成员
163
文章
205593
阅读量
36
订阅数
清华大学唐杰教授:人工智能的下个十年
本文从人工智能发展的历史开始,深入分析人工智能近十年的发展,阐述了人工智能在感知方面取得的重要成果。
yuquanle
2020-10-23
8130
【NLP】文本生成评价指标的进化与推翻
文本生成目前的一大瓶颈是如何客观,准确的评价机器生成文本的质量。一个好的评价指标(或者设置合理的损失函数)不仅能够高效的指导模型拟合数据分布,还能够客观的让人评估文本生成模型的质量,从而进一步推动text generation 商业化能力。
yuquanle
2020-06-24
5.1K0
147页详述「结构在神经网络中的复兴」,图注意力网络一作博士论文公开
在一项针对 2019 年到 2020 年各大顶会论文关键词的统计中,「图神经网络」的增长速度位列榜首,成为上升最快的话题。
yuquanle
2020-06-04
4370
【ML】回归树算法原理及实现
由于现实中的很多问题是非线性的,当处理这类复杂的数据的回归问题时,特征之间的关系并不是简单的线性关系,此时,不可能利用全局的线性回归模型拟合这类数据。在上一篇文章"分类树算法原理及实现"中,分类树算法可以解决现实中非线性的分类问题,那么本文要讲的就是可以解决现实中非线性回归问题的回归树算法。
yuquanle
2020-05-25
6870
【机器学习】谱聚类
本文介绍了一种定义在图上聚类算法-谱聚类。首先介绍谱聚类其实是保持图上节点之间的相似性对节点进行向量表示。然后介绍了谱聚类的目标函数-最小化原始相似性矩阵与样本向量表示,相似性的乘积,由此导出谱聚类与拉普拉斯矩阵的关系。最后介绍了谱聚类算法特点,其实际为成对相似性保持(pair-wise)算法。
yuquanle
2020-04-20
8100
【机器学习】密度聚类
本文介绍了一种无参的密度聚类算法-DBSCAN。首先介绍了DBSCAN的类表示为一簇密度可达的样本点,相似性度量为密度可达。然后介绍了DBSCAN中几个基本定义: -邻域,核心对象,密度可达,密度直达,噪声点,基于此绍了DBSCAN算法的实现流程。最后介绍了算法的特点,能发现任意簇,抗噪性强,聚类时间长,存在维度灾难问题。
yuquanle
2020-04-18
7640
【机器学习】EM算法
本文介绍了一种经典的迭代求解算法—EM算法。首先介绍了EM算法的概率理论基础,凸函数加jensen不等式导出算法的收敛性,算法核心简单概况为固定其中一个参数,优化另一个参数逼近上界,不断迭代至收敛的过程。然后介绍高斯混合,朴素贝叶斯混合算法基于EM算法框架的求解流程。最后介绍了基于概率隐因子的LDA主题模型,这一类基于隐因子模型-包括因子分解,概率矩阵分解皆可通过EM算法求解,且与EM思想相通。
yuquanle
2020-04-15
9130
【机器学习】模型聚类
本文介绍了混合高斯聚类算法。首先介绍了混合高斯的类表示是一个高斯模型,相似性度量定义为服从类参数为高斯分布,其是一种典型的基于模型的密度聚类算法。然后介绍了混合高斯模型假设类间服从伯努利分布,类内服从高斯分布,结合最大似然函数给出了混合高斯模型的目标函数。最后介绍了混合高斯模型的EM求解流程。
yuquanle
2020-04-15
6390
【机器学习】Kmeans
本文介绍了K-means聚类算法。首先介绍了K-means算法是一种原型聚类算法,其类表示为类中心点,常用欧式距离作为相似性度量。然后由类内紧致准则给出了Kmeans的目标函数及算法流程,指出了Kmeans是一种基于硬划分的聚类算法,同时介绍了一种基于软划分(概率划分)的模糊C均值算法。最后介绍了Kmeans算法的特点,线性复杂度,初始值选取敏感,相似性度量需要结合应用场景。
yuquanle
2020-04-15
7170
【机器学习】层次聚类
本文介绍了层次聚类算法。首先抛出了聚类理论中两个关键问题:何为类,何为相似,同时介绍了聚类中常用两种评价指标:内部指标和外部指标。然后介绍了层次聚类算法:凝聚层次聚类和分裂层次聚类算法,两者皆以样本集作为类表示,常用欧式距离作为相似性度量,分层次聚类。最后介绍了层次聚类算法的特点,可视化,复杂度。
yuquanle
2020-04-15
1.2K0
【机器学习】孤立森林
本文介绍了一种基于树集成的异常检测方法,其核心思想是“异常点是容易被孤立的离群点”。首先介绍了孤立森林算法的设计思路。然后介绍了孤立森林算法的特点和适用场景。最后给出了sklearn中孤立森林算法的几个重要参数。
yuquanle
2020-04-15
2K0
【机器学习】Adaboost
本文介绍了集成学习中Boosting的代表算法Adaboost。首先介绍了Adaboost的Boosting思想:1)学习器的投票权重,2)更新样本权重,巧妙之处在于这两个权重的设计使得Adaboost如此优美。然后介绍了Adaboost的前向加法思想,即不断拟合上一次分类器的损失。最后以前向加法模型中的特例(二分类)导出Adaboost的指数损失理解,再次回归到Adaboost的学习器权重和样本更新权重为何如此设计。
yuquanle
2020-04-07
5770
【智能司法】可解释的Rationale增强罪名预测系统
论文标题:Interpretable Rationale Augmented Charge
yuquanle
2020-03-31
9480
【竞赛】一种提升多分类准确性的Trick
随机森林是一种高效并且可扩展性较好的算法, K最近邻算法则是一种简单并且可解释较强的非参数化算法。在本篇文章中,我们针对多分类问题提出了一种将随机森林和KNN算法相结合框架,我们先用训练数据对随机森林模型进行训练然后用训练好的随机森林模型对我们的训练集和测试集进行预测分别得到训练集和测试集的概率矩阵,然后将测试集中的可疑样本取出并在概率空间中进行KNN训练测试,我们的框架很大地提升了测试集中可疑样本的预测准确率;此外我们从预测的概率空间对训练数据进行噪音的过滤与删除,从而进一步提升了我们模型的预测准确率。在大量实验数据的测试中,我们的方法都取得了非常显著的效果。
yuquanle
2020-03-13
1.9K0
【ML】面试准备,关于Adaboost & GBDT算法你需要知道的那些
上一份笔记在介绍决策树的过程中我们提到了“决策树是许多集成学习算法的基础算法”。那么,什么是集成学习算法、集成学习算法有哪几种、它们彼此之间有什么区别、集成学习算法合起来性能一定会超过基础学习器吗?在接下来的几份笔记中,我们将会针对几种集成学习算法针对高频问题做推导和解答。
yuquanle
2020-03-13
5840
【ML】深入理解CatBoost
CatBoost是俄罗斯的搜索巨头Yandex在2017年开源的机器学习库,是Boosting族算法的一种。CatBoost和XGBoost、LightGBM并称为GBDT的三大主流神器,都是在GBDT算法框架下的一种改进实现。XGBoost被广泛的应用于工业界,LightGBM有效的提升了GBDT的计算效率,而Yandex的CatBoost号称是比XGBoost和LightGBM在算法准确率等方面表现更为优秀的算法。
yuquanle
2020-02-24
9890
【机器学习】隐马尔可夫模型
本文介绍了隐马尔可夫模型,首先介绍了隐马尔科夫模型定义,核心思想是引入了隐状态序列(引入隐状态是所有隐因子模型最巧妙的地方,如:隐因子分解,LDA),然后介绍了隐马尔科夫模型要解决的三个问题,1)在参数已知的情况下计算可观测序列的总概率,2)在给出观测序列数据时学习模型的参数,3)在参数已知的情况下通过维特比解码预测出所有产生可观测序列中概率最大的一条不可观测序列,即序列标注问题。
yuquanle
2020-02-21
8980
【DL】2020 年了,深度学习接下来到底该怎么走?
在过去的一年,深度学习技术在各个领域一如既往地取得了不少进展。然而当前深度学习技术(本文中称为深度学习1.0)仍然存在着一些明显的局限,例如在解决有意识任务方面的不足。那么针对这些局限性,在未来的一年,有哪些可能的解决方案?深度学习又会在哪些方面带来有希望的突破?
yuquanle
2020-02-20
4070
【DL】训练神经网络时如何确定batch的大小?
当我们要训练一个已经写好的神经网络时,我们就要直面诸多的超参数啦。这些超参数一旦选不好,那么很有可能让神经网络跑的还不如感知机。因此在面对神经网络这种容量很大的model前,是很有必要深刻的理解一下各个超参数的意义及其对model的影响的。
yuquanle
2020-02-20
8680
【NLP】搜索引擎核心技术与算法:词项词典与倒排索引优化
首先回顾一下构建倒排索引的几个主要步骤: (1) 收集待建索引的文档; (2) 对这些文档中的文本进行词条化; (3) 对第2步产生的词条进行语言学预处理,得到词项; (4) 根据词项对所有文档建立索引。 可以看到,上诉过程中非常重要的一步就是获得词项,那么词项是什么,又是怎么获得的呢?
yuquanle
2020-02-20
2K0
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档