iPIN 研究员李双印博士独家解析:循环聚焦机制如何与主题模型碰撞火花?

AI 科技评论按:李双印博士目前在香港科技大学攻读博士后,师从香港科技大学计算机系主任杨强教授。他的主要研究方向主要包括数据挖掘、人工智能、文本建模、深度学习,论文曾被 IJCAI、ICDM、UAI 等顶级国际会议收录。李双印作为第一作者的论文《Recurrent Attentional Topic Model》入选 oral presentation,入选口头展示论文(oral),AI科技评论与李博士日前进行了交流,并整理成文与读者分享。

李双印博士

李双印在 iPIN 的工牌号为 intern01。在公司里,大家只知道叫他「大师兄」,但他与 iPIN 的渊源,很多在公司实习的研究生们也不甚清楚。这一切最早还要追溯到 2013 年,当时李双印还在中山大学跟随潘嵘教授攻读博士,并在微软亚洲研究院(MSRA)实习,主要的工作是用深度学习的方法实现半结构化文本建模。彼时 iPIN 成立伊始,CEO 杨洋邀请潘嵘教授一同合作,李双印也跟随导师到 iPIN 参与算法研发工作,自然成为了第一号实习生。

AI科技评论此前对 iPIN 做过不少覆盖和报道,目前 iPIN 在信息提取、语义认知及检索排序等积累了实践经验,涵盖高考志愿填报、招聘及生涯规划等领域。在李双印看来,iPIN 的业务主要集中人和企业的商业价值挖掘,凭借语义认知平台,将人从繁琐的工作中释放出来,聚焦更具价值的商业决策。「在技术上,我们的进展还是比较突出的,比如文本生成、文本分类、检索排序等、都有很深的基础和经验。」而李双印在 AAAI 2017 上发表的这篇论文,则属于在语义认知方面研究工作的一个探索。

循环机制与聚焦机制在深度神经网络上的应用十分广泛,而李双印之前一直是做主题模型的相关课题,因此他很自然地想到,能否将这两种方法应用于主题模型上,并提出了名为「Recurrent Attentional Topic Model(简称 RATM)」的新概念。句子作为一种文本信息的基本组成单元,RATM 主要基于文本中句子之间的主题连贯性,利用文档中的单词信息,以及句子间的序列信息对文档进行有效建模。文档建模与分类是一个非常古老的问题,对于它的解决没有止境。不论是之前的基于贝叶斯理论的主题模型,还是当前火热的深度学习技术等,在文本特征提取与分类上,本质上都是提供了一种提取文本特征信息的方法。

在 AAAI 2017 oral presentation 时,李双印博士介绍了 RATM 如何应用于社会经济图谱,这是一个针对整个经济社会的各个主体,以及主体间关系进行建模和量化的一个庞大系统。其中的各个主体(比如人、职位、学校、公司、行业等),这些比较高层次的信息相当于金字塔的塔顶。而基础概念(类似于百科和 wiki 中的词条)相当于塔底,即语言系统中基础信息的认知、关系以及推理,「缺少这些基础的信息认知,社会经济图谱就像空中楼阁。因此,我们还需要对语言系统中的基础信息进行建模和认知。我们在单词,句子及文本上的建模研究和探索,比如提出 RATM 模型,都是在试图解决社会经济图谱和基础信息之间的鸿沟,并希望能够将社会经济图谱构建的更加完善和落地。」

作为研究性课题,李双印表示目前该论文成果尚未应用于实际场景中。他认为,此工作未来的主要研究方向,依然会集中于充分利用文本特点,如何快速提取有效的文本及句子的特征向量,以及向量的可解释性。此前AI 科技评论在报道国内企业的 AAAI 2017 论文收录情况时,也提及了这篇论文。iPIN CEO 杨洋在接受采访时也表示,他们会尝试将机器在决策中的分析过程以逻辑的形式梳理出来。相信在未来,iPIN 在认知框架上会有更多的尝试和突破。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-03-02

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

【重磅】谷歌量子计算在量子化学领域取得实质突破

【新智元导读】Google Research 今日发文,自上月在 Nature 发文介绍最新通用量子计算机原型后,这一次谷歌研究员和多所高校合作,首次在没有耗费...

2946
来自专栏新智元

【深度】小度VS最强大脑声纹识别战成平局,吴恩达详解技术原理

【新智元导读】 2016年1月13日晚,百度人工智能代表“小度”与最强大脑选手孙亦廷在声纹识别上展开人机大战,最终双方战平。本文带来百度首席科学家吴恩达对百度声...

2466
来自专栏数据猿

DeepMind又发布了新AI 这次的目标是摄影师

Creatism的诞生也许真的代表着人工智能向人类又更近了一步。 作者 | 大文 谷歌旗下的英国人工智能企业DeepMind最近又一次发布了新的AI,这次他们准...

3164
来自专栏机器人网

机器人新里程碑:观察1次,就能模仿人类操作

OpenAI是一家由伊隆·马斯克赞助,总部位于旧金山的非营利研究实验室,近日实验室宣布在机器人工作领域取得了里程碑式研究成果。基于全新算法,人类在虚拟现实环境中...

2655
来自专栏新智元

递归神经网络之父:打造无监督式通用神经网络人工智能

【新智元导读】瑞士人工智能实验室IDSIA的科学事务主管Jürgen Schmidhuber 1997年率领团队提出了简化时间递归神经网络的长短期记忆时间递归神...

4035
来自专栏新智元

贾佳亚港中文团队冠军技术分享:最有效的COCO物体分割算法

【新智元导读】物体分割(instance segmentation)是如今视觉领域最热最核心的一个问题。在这届国际图像识别权威竞赛MS COCO当中,香港中文大...

3806
来自专栏大数据文摘

大咖丨张钹院士:人工智能赶超人类的三大法宝

1063
来自专栏新智元

拿下人脸识别“世界杯”冠军!松下-NUS 和美国东北大学实战分享

【新智元导读】被业界称为人脸识别“世界杯”的微软百万名人识别竞赛 MS-Celeb-1M 冠军团队技术分享。Panasonic-NUS 合作团队认为,竞赛最大的...

35810
来自专栏新智元

微软首席研究员童欣:深度学习将席卷计算机图形,VR/AR爆发临近

【新智元导读】微软亚洲研究院网络图形组培养了一大批中国图形学的人才。其首席研究员童欣,内部人称“童姥”,近日接受了新智元专访。在微软做了近20年图形的他认为,计...

35411
来自专栏钱塘大数据

苹果首份人工智能报告:一篇关于机器学习的论文

在人工智能强势来袭的今天,无论是Google、Facebook亦或是一些创新企业,都离不开高频的讨论这个话题,然而作为世界科技巨头的领先者之一的苹果一直以来似乎...

39811

扫描关注云+社区