ICML论文精选:无监督学习的研究和应用

深度学习的类型按照数据是否有标记来区别可以分为三种:监督学习、半监督学习和无监督学习。事实上人类不可能把每件事都手把手的教给AI。无监督学习应该才是未来的趋势。

ICML给无监督学习单独开了一个专区,包括无监督学习的研究和应用。我们今天主要来关注一下无监督学习应用方面的论文。

深度嵌入的无监督聚类分析(Unsupervised Deep Embedding for Clustering Analysis)

聚类分析对许多数据驱动的应用领域来说非常重要,并且已经以距离函数和分组算法的表现形式被广泛彻底的研究过了。而聚焦于聚类分析的学习表现的研究相对来说则比较少。这篇论文,我们提出了一个深度嵌入式聚类方法(Deep Embedded Clustering,DEC),它可以使用深度神经网络实现同时学习特征表示和聚类任务。

这种方法在图像和文本语言识别领域的实验中的表现比现今最好的方法都有显著的提升。

用于检查数据的马尔可夫调制标记的泊松过程(Markov-modulated Marked Poisson Processes for Check-in Data)

论文建立了一个时间连续的概率模型来研究由时间和位置组成的“通过检查点(check-in)”的轨迹数据。我们将数据组织成一种标记点变化进程的实现,并且是一种由马卡洛夫跳跃进程(Markov jump process,MJP)条结果的强烈的标记分布式排列。

论文也将通过给每个用户分配一个“优先地点”的方式将用户异质性考虑到了模型之中。还通过放弃“Bag of words”(忽略掉文本的语法和语序,用一组无序的单词来表达一段文字或者一个文档的方法)假设和在连续时间中执行的方式扩展了潜在狄利克雷分布的考虑。

分层复合泊松分解(Hierarchical Compound Poisson Factorization)

分层泊松分解(HPF)已经被证明在极端稀疏的推荐系统中具有很好的扩展性。但是由于稀疏系统和响应模型的紧密耦合特性限制了后者的表达丰富性。本文介绍了一种分层复合泊松分解函数(Hierarchical Compound Poisson Factorization,HCPF),既有良好的泊松伽马架构,与高维极端稀疏矩阵相比又同时具有HPF良好的扩展性。这个新的算法经过了九个离散型和三个连续型数据集的测试,都表明HCPF在捕捉稀疏度和响应之间的关系的性能优于HPF。

在单细胞的基因表达数据校正技术变化的狄利克雷过程混合模型(Dirichlet Process Mixture Model for Correcting Technical Variation in Single-Cell Gene Expression Data)

论文介绍了一种单细胞基因数据表达的迭代标准和聚类方法。新兴的细胞RNA编码技术可以允许人们发现和描述关于细胞的很多信息。但是现在的数据很容易被实验的错误结果或者细胞特性的描述偏差影响。目前的解决方法:研究生物信号前先执行总体的误差纠正,并不能从根本上解决问题。

论文提出的模型由分层贝叶斯混合模型和细胞特异性规模的因素组成,用来帮助数据的重复迭代和聚类,梳理清楚由生物信号产生的技术误差。并且证明了这种方法要比现行的方法更有优势。

多时间序列的非参数关系回归模型的自动构建(Automatic Construction of Nonparametric Relational Regression Models for Multiple Time Series)

论文建立了两个相关的、可以通过找到导致变化的共同因素同时处理三组时间序列数据的核心学习方法。这种学习方法对现实中一些数据集做出了更加精确的模型建立。解决了之前系统精确度、特异性和描述准确度不够的问题。

人类的学习应该属于半监督学习和无监督学习的结合。因此这两种领域的研究都很有关注的价值。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2016-06-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技评论

清华大学岂凡超:义原的介绍和义原的自动推荐 | AI研习社76期大讲堂总结

义原(Sememe)在语言学中是指最小的不可再分的语义单位,而知网(HowNet)则是最著名的义原知识库。近些年来,包括知网在内的语言知识库在深度学习模型中的重...

663
来自专栏量化投资与机器学习

【贝叶斯系列】在研究机构如何应用贝叶方法论进行量化投资

贝叶斯方法与量化投资 贝叶斯方法在量化投资中有哪些应用股票分类 市场趋势识别 波动率估计 投资组合风险 股票分类 构造投资组合的方法是买入好的 股票(未来收...

2629
来自专栏机器学习和数学

[机智的机器在学习] 卷积神经网络入门教程(1)

机智的机器在学习,就像机智的你现在在学习一样,当你在看这篇文章的时候,你就是在学习,学习的材料(数据)就是这篇文章。学习的结果就是你了解了卷积神经网络是个什么鬼...

3386
来自专栏AI科技评论

CVPR 2018 中国论文分享会之「视觉与语言」

本文为 2018 年 5 月 11 日在微软亚洲研究院进行的 CVPR 2018 中国论文宣讲研讨会中第四个 Session——「Vision and Lang...

963
来自专栏机器之心

学界 | 让深度学习告别密集计算,新技术可减少95%计算量

选自phys.org 机器之心编译 参与:机器之心编辑部 莱斯大学的计算机科学家已经改编了一种普遍使用的技术来快速检查数据从而削减计算量,因此深度学习所需的能...

2575
来自专栏PPV课数据科学社区

【涨姿势】统计名词和数据挖掘术语大盘点

一、数据挖掘术语 【算法】指的是用于实现某一数据挖掘技术-如分类树、辨识分析等等的特定程序。 【属性】也被称为“特性”、“变量”、或者从数据库的观点,是...

3086
来自专栏鸿的学习笔记

The Brain vs Deep Learning(四)

现在我们经历了整个过程,让我们把所有这一切都放在全文中,看看大脑如何使用所有的这一切。大多数神经元每秒重复接收输入和发射的过程约50到1000次; 射击频率高度...

421
来自专栏机器之心

学界 | 南京理工大学ICCV 2017论文:图像超分辨率模型MemNet

选自arXiv 机器之心编译 参与:路雪 利用卷积神经网络让图片清晰化的研究目前正成为计算机视觉领域的热点方向。近日,南京理工大学邰颖、杨健、许春燕与密歇根州立...

2885
来自专栏AI科技评论

深度 | 用于大规模行人重识别的行人对齐网络

1.Motivation 近年来,对行人重识别(person re-ID)问题的研究也越来越多了。类比于自然语言处理(nlp)的话,大家或者集中于语义层面的设计...

3528
来自专栏机器之心

学界 | 跟着大神回顾ACL 2018:大会亮点一览

很高兴看到很多论文都在从方法上研究现有模型以及它们捕获的内容,而不是一直在引入更新的模型。进行这样的研究最常用的办法是自动创建一个侧重于泛化行为的某个特定方面的...

822

扫码关注云+社区