ICML论文精选:无监督学习的研究和应用

深度学习的类型按照数据是否有标记来区别可以分为三种:监督学习、半监督学习和无监督学习。事实上人类不可能把每件事都手把手的教给AI。无监督学习应该才是未来的趋势。

ICML给无监督学习单独开了一个专区,包括无监督学习的研究和应用。我们今天主要来关注一下无监督学习应用方面的论文。

深度嵌入的无监督聚类分析(Unsupervised Deep Embedding for Clustering Analysis)

聚类分析对许多数据驱动的应用领域来说非常重要,并且已经以距离函数和分组算法的表现形式被广泛彻底的研究过了。而聚焦于聚类分析的学习表现的研究相对来说则比较少。这篇论文,我们提出了一个深度嵌入式聚类方法(Deep Embedded Clustering,DEC),它可以使用深度神经网络实现同时学习特征表示和聚类任务。

这种方法在图像和文本语言识别领域的实验中的表现比现今最好的方法都有显著的提升。

用于检查数据的马尔可夫调制标记的泊松过程(Markov-modulated Marked Poisson Processes for Check-in Data)

论文建立了一个时间连续的概率模型来研究由时间和位置组成的“通过检查点(check-in)”的轨迹数据。我们将数据组织成一种标记点变化进程的实现,并且是一种由马卡洛夫跳跃进程(Markov jump process,MJP)条结果的强烈的标记分布式排列。

论文也将通过给每个用户分配一个“优先地点”的方式将用户异质性考虑到了模型之中。还通过放弃“Bag of words”(忽略掉文本的语法和语序,用一组无序的单词来表达一段文字或者一个文档的方法)假设和在连续时间中执行的方式扩展了潜在狄利克雷分布的考虑。

分层复合泊松分解(Hierarchical Compound Poisson Factorization)

分层泊松分解(HPF)已经被证明在极端稀疏的推荐系统中具有很好的扩展性。但是由于稀疏系统和响应模型的紧密耦合特性限制了后者的表达丰富性。本文介绍了一种分层复合泊松分解函数(Hierarchical Compound Poisson Factorization,HCPF),既有良好的泊松伽马架构,与高维极端稀疏矩阵相比又同时具有HPF良好的扩展性。这个新的算法经过了九个离散型和三个连续型数据集的测试,都表明HCPF在捕捉稀疏度和响应之间的关系的性能优于HPF。

在单细胞的基因表达数据校正技术变化的狄利克雷过程混合模型(Dirichlet Process Mixture Model for Correcting Technical Variation in Single-Cell Gene Expression Data)

论文介绍了一种单细胞基因数据表达的迭代标准和聚类方法。新兴的细胞RNA编码技术可以允许人们发现和描述关于细胞的很多信息。但是现在的数据很容易被实验的错误结果或者细胞特性的描述偏差影响。目前的解决方法:研究生物信号前先执行总体的误差纠正,并不能从根本上解决问题。

论文提出的模型由分层贝叶斯混合模型和细胞特异性规模的因素组成,用来帮助数据的重复迭代和聚类,梳理清楚由生物信号产生的技术误差。并且证明了这种方法要比现行的方法更有优势。

多时间序列的非参数关系回归模型的自动构建(Automatic Construction of Nonparametric Relational Regression Models for Multiple Time Series)

论文建立了两个相关的、可以通过找到导致变化的共同因素同时处理三组时间序列数据的核心学习方法。这种学习方法对现实中一些数据集做出了更加精确的模型建立。解决了之前系统精确度、特异性和描述准确度不够的问题。

人类的学习应该属于半监督学习和无监督学习的结合。因此这两种领域的研究都很有关注的价值。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2016-06-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器学习算法与Python学习

干货 | 【深度学习】 在 【推荐算法】 上的应用研究进展

关键字全网搜索最新排名 【机器学习算法】:排名第一 【机器学习】:排名第一 【Python】:排名第三 【算法】:排名第四 文章来源:知乎 作者:赵鑫 深度学...

5996
来自专栏AI科技评论

学界 | 一言不合就想斗图?快用深度学习帮你生成表情包

AI科技评论按:斯坦福大学的两个学生 Abel L Peirson V 和 Meltem Tolunay 发表了自己的 CS224n 结业论文—— 用深度神经网...

1195
来自专栏大数据

单因子测试框架

SignalFactorAnalyse单因子测试框架哪些因子可以为组合提供超额收益?这是构建多因子模型的第一步,也是最关键一步。 特征选择非常关键,只有把握关键...

2325
来自专栏大数据文摘

AI说人“画” | 什么?咱俩说的是一个“模型”嘛!

1363
来自专栏新智元

【干货】18个技巧实战深度学习,资深研究员的血泪教训

【新智元导读】资深工程师 Nikolas Markou 回顾他多年来在一线使用深度学习的经验,总结出 18 个能让你充分发挥深度神经网络潜力的诀窍,简洁明了,直...

3287
来自专栏量子位

全面超越人类!Google称霸SQuAD,BERT横扫11大NLP测试

在机器阅读理解顶级水平测试SQuAD1.1中,Google AI团队新发布的BERT模型,交出了一份惊人的成绩单。

1653
来自专栏数据科学与人工智能

简明数据科学(2):简单点,概念的解释简单点

原文:Data Science Simplified Part 2: Key Concepts of Statistical Learning 翻译:Kaise...

3487
来自专栏人工智能头条

模仿学习(Imitation Learning)完全介绍

3715
来自专栏量子位

举个卡戴珊的例子,讲讲Hinton的Capsule是怎么回事 | 教程+代码

Nick Bourdakos 文 李林 若朴 编译自 HackerNoon 量子位 出品 | 公众号 QbitAI ? Capsule Networks,或者说...

2805
来自专栏AI科技大本营的专栏

深度文本匹配在智能客服中的应用

文本匹配是自然语言理解中的一个核心问题,它可以应用于大量的自然语言处理任务中,例如信息检索、问答系统、复述问题、对话系统、机器翻译等等。这些自然语言处理任务在很...

976

扫码关注云+社区