哈工大-腾讯联合实验室亮相国际学术会议COLING 2016

小Q在COLING:

COLING,The International Conference on Computational Linguistics,国际计算语言学会议。

第26届国际计算语言学会议(The 26th International Conference on Computational Linguistics,COLING 2016)于2016年12月11-16日在日本大阪召开。COLING 是自然语言处理和计算语言学领域的重要国际会议,由国际计算语言学委员会(The International Committee on Computational Linguistics,ICCL)举办,每两年一届。哈工大-腾讯联合实验室部分代表参加会议并分享了实验室在对话机器人、情感分析等方面的工作。

图:参会代表在联合实验室展台前合影

哈尔滨工业大学是最早与腾讯公司开展科研合作的高校之一。早在2006年,哈工大社会计算与信息检索研究中心(HIT-SCIR)就开始与腾讯合作开展文本分类方面的科研项目,随着合作的不断深入,哈尔滨工业大学和腾讯公司于2008年成立联合实验室。依托联合实验室,腾讯技术团队与哈工大社会计算与信息检索研究中心师生在自然语言处理、信息检索、社会媒体计算等多个领域持续合作,每年都有不同的科研题目开展。目前,腾讯参与到联合实验室的是AI平台及AI Lab的NLP相关团队,合作主要专注于对话机器人和情感分析两个科研方向,即此次在COLING上分享的两个主题。

谈起与腾讯合作的意义,哈工大社会计算与信息检索研究中心(SCIR)主任刘挺教授讲到:“众所周知,基于互联网的海量真实数据,我们研究人员可以更好地设计和训练模型。此外,拥有数亿用户的真实系统的性能需求和用户反馈,以及腾讯对互联网应用的发展趋势的洞察,也会帮助我们发现具有实用价值的研究点。好的问题和真实的训练数据,对发表高水平的论文很有帮助。”仅在此次COLING上,SCIR就发表了7篇论文,并斩获了大会举办的中文语法检查评测比赛的第一名。这个成绩,归功于SCIR师生扎实的学术功底和研究创新能力,也得益于SCIR对校企合作的重视。

另一方面,SCIR师生在研究上的长期积累和前沿探索,又为腾讯的技术研发注入创新能量,助力其构建技术壁垒。腾讯AI平台总监王迪谈到,“我们非常看重SCIR在基础NLP上的深厚沉淀,以及在情感分析和对话机器人上的领先研究。与哈工大师生的每一次讨论,基于不同视角的观点碰撞都会给我们的技术研发带来很多启发。”腾讯非常重视基础研究,此次COLING上,腾讯AI平台孟凡东博士也发表了题为《Interactive Attention for Neural Machine Translation》的论文,并将于12月15日下午做口头报告。

联合科研项目不但丰富了双方的研发储备,同时也培养了一批NLP领域的优秀人才,且不论其它知名企业,仅在腾讯从事研发工作的SCIR的毕业生就有二十余位。腾讯AI平台基础NLP负责人周连强是SCIR的毕业生,近两年其团队也在参与对话机器人的合作项目,他谈到,“每次与项目组的师弟们讨论问题,都有种还在实验室的感觉,会有一种作为师兄的责任感。讨论完项目后经常会聊起学业和职业规划,甚至诗和远方。师弟们问到腾讯的情况时,我都会非常客观地介绍,他们也都很信任我。”SCIR主任刘挺老师谈到,“参加过校企合作项目的同学在选择就业岗位时一般都不会盲目,因为他们通过项目对工业界的发展趋势、企业的运作机制和文化以及市场上的人才需求现状等都有了第一手的了解。”

在COLING上谈起联合实验室在学术、应用和人才各方面取得成绩的原因,腾讯高校合作高级经理杨敏女士认为,“长期合作建立的互信、互补的研发优势,契合双方战略的选题,企业对过程而非结果的重视,双方对人才生态的共同关注,求实创新的态度等是比较关键的因素。”

过去的十年,在哈工大-腾讯联合实验室,校企双方从“共享”走到“共赢”。未来的十年,联合实验室将继续前行,探索更加融合的“共生”合作模式。

今夏,SCIR刘挺教授、秦兵教授、车万翔副教授和张伟男博士等四位老师受邀担任腾讯AI Lab犀牛鸟学术顾问,为腾讯在AI上的战略布局提供学术智库。

今天,在COLING2016上,SCIR和腾讯AI Lab又并肩站在同一个位置,向学术界和工业界分享科研成果。

明天,相信腾讯-哈工大联合实验室会探索出更有益于整个生态的合作模式,不断建设产学研合作的新模态。


HIT-SCIR

哈尔滨工业大学社会计算与信息检索研究中心 (HIT-SCIR)汇聚了刘挺教授,秦兵教授,张宇教授、车万翔副教授、陈毅恒博士,张伟男博士等一大批专注于NLP研究的老师和高素质的研究生,是一个充满科研活力的团队。研究方向包括语言分析、信息抽取、情感分析、问答系统、社会媒体处理和对话系统等六个方面。

HIT-SCIR坚持理论研究与技术研发相结合的原则,一方面在向技术极限挑战的过程中发表高水平的论文,另一方面将陆续完成的阶段性成果适时地转化为实用技术。

近年来,HIT-SCIR发表论文100余篇,其中在ACL、SIGIR、IJCAI、EMNLP等顶级国际学术会议上发表20余篇论文;并积极参加国内外技术评测,并取得优异成绩,包括国际CoNLL’2009七国语言句法语义分析评测总成绩第一名。

通过与企业合作,研究中心的多项技术已应用于企业产品中,为社会服务。此外,基于HIT-SCIR的多年积累开发出的“语言技术平台LTP”(ltp-cloud.com),已免费共享给600多家研究机构,获2010年钱伟长中文信息处理科学技术一等奖,2016年黑龙江省科技进步一等奖。

2016年,SCIR又公布了一款自主研发的以微信服务号为载体的一款聊天机器人——笨笨(微信公众号:benbenrobot)。

从任务角度,聊天机器人目前主要分为两类,一类是任务型(task-oriented)的聊天机器人,像Siri,Cortana等,用户给定指令,机器人负责执行;另一类是非任务型(non-task-oriented)的聊天机器人,比如微软小冰,主要陪用户聊天以及情感陪护等。笨笨目前是兼顾两者,既能陪用户闲聊,又能从用户的话语中分析出是否是在对他下命令,从而进行指令执行与回复。

从技术角度,聊天机器人或者对话系统主要分为三大模块,自然语言理解模块、对话管理模块以及回复生成模块。自然语言理解模块主要应用SCIR积攒多年的LTP平台,利用其分词、命名实体识别等技术来解析用户的输入。对话管理模块是聊天机器人的“大脑”,此处采用传统方法结合深度学习技术综合应用,在该模块既要判断当前用户的对话状态,还要进行对话策略学习判断将当前对话分发到哪个模块中进行回复。

目前笨笨主要有四大功能——即聊天、问答、指令执行、新闻推荐。在聊天功能的回复生成技术实现中,既应用了传统的基于检索的方式,也采用了目前比较流行的从序列到序列的回复生成方式。问答功能可进行知识型问答和天气查询等。指令执行可识别出用户是否有消费意图,从而进行机票、火车票、酒店等的预订。此外还可以根据用户历史信息进行用户画像,给用户推荐感兴趣的新闻。

笨笨的负责人张伟男博士讲到,“由于目前人机对话在数据获取及清洗、评价方式、多轮对话策略学习及奖励函数构造等技术上的不成熟,使得笨笨的功能离人们的预期可能还有段距离,也希望大家能有耐心,好好调教它,陪它一起长大变强。”

微信扫描二维码,调教可爱的笨笨

腾讯AI平台及AI Lab

腾讯AI平台为腾讯很多产品研发核心的智能模块,注重前沿研究向产品的转化。在NLP领域,腾讯AI平台有十多年深厚的积累,和NLP相关的研发方向有搜索、推荐、基础NLP和大数据等。

搜索方面,负责腾讯产品的搜索平台的研发,通过定制和云搜两种搜索解决方案,支持着腾讯上百个产品的搜索功能。最近在QQ音乐搜索、微信搜索上有众多创新的尝试,比如Query深度意图识别、语义匹配、基于深度学习的语义相似度计算等。其中微信搜索项目获得2016年上半年腾讯公司级技术突破奖。

推荐方面,目前重点关注资讯类推荐业务。其搭建的推荐平台具备统一数据接入、分类、Tagging、多来源用户画像关联、推荐实验平台、CTR预估、个性化Push等核心技术模块;目前已应用于天天快报、QQ看点、腾讯体育等。其中天天快报个性化推荐项目也获得2016年上半年腾讯公司级技术突破奖。

基础NLP在分词、命名识别、句法分析、知识图谱等方面的多年积累已通过文智平台对外开放;同时也开展了一些探索性的研究,比如研发了聊天机器人小悦悦,可关注微信公众号“小悦悦”进行体验。在2016年全国知识图谱与语义计算大会组织的知识图谱竞赛中,基础NLP团队在实体链接任务上获得第一名。

大数据方面,重点关注预测和舆情分析。开发的票房预测和股票预测等解决方案,已应用于腾讯影业的电影票房预测分析系统和企鹅影业的腾讯视频播放量预估以及电视剧采买ROI评估系统。同时,也与国内一些知名媒体开展舆情方面的合作,搭建媒体监测平台,帮助媒体及时发现热点事件。

腾讯AI Lab是2016年腾讯公司在AI战略上的重要布局,成立数月以来,已聚集了全球数十位人工智能科学家、50位世界一流AI博士。腾讯AI Lab 主要专注机器学习、计算机视觉、语音识别、自然语言处理等人工智能领域的研究。基于腾讯亿万用户海量数据及在互联网各垂直领域的技术优势,腾讯AI Lab立志打造世界顶尖人工智能团队。腾讯AI Lab诚挚欢迎AI研究者的加入。

原文发布于微信公众号 - 腾讯高校合作(Tencent_UR)

原文发表时间:2016-12-13

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

CMU教授炮轰谷歌:一切都是商业计划,机器学习原理停留在20年前!

【新智元导读】Twitter今天出现了一条惊爆tread:CMU助理教授Simon DeDeo炮轰谷歌大脑,认为他们没在做真正的科学,只是用强大的算力以及招揽到...

870
来自专栏数据派THU

张甜甜:在实践中迈进数据科学领域 | 优秀毕业生专访

[ 导读 ] 清华-青岛数据科学研究院(以下简称“数据院”)自2014年4月成立以来,秉承“学校统筹,问题引导,社科突破,商科优势,工科整合,业界联盟”24字指...

1285
来自专栏人工智能快报

谭铁牛院士谈人工智能发展新动态

◆ ◆ ◆ ◆ 11月25日,模式识别与人工智能学科前沿研讨会在自动化所召开。会上,谭铁牛院士做“人工智能新动态”报告,回顾了近代以来历次科技革命及其广泛影响,...

3506
来自专栏数据冰山

奥迪大喊六声,又出了张皮蛋

6月5日,奥迪把Q8的全球首发放在深圳,一面数据的小伙伴近水楼台,从深南大道的办公楼跑去欢乐海岸一睹新车。发布会现场当然气氛热烈,但是Q8这款车在广大网友心目中...

1062
来自专栏DT数据侠

数据科学,谁说女性不可以?| 数据科学50人·万菁

万菁,State Farm (全美最大保险与金融服务公司之一)首席数据科学家(Principal Data Scientist),美国普渡大学计算机专业博士。她...

640
来自专栏华章科技

【深度长文】人工智能过去60年沉浮史,未来60年将彻底改变人类

导读:对于人工智能来说,前60年的人工智能历程,可以用“无穷动”来形容;后60年的人工智能发展,可以用“无穷大”来期许。

1162
来自专栏数据派THU

【独家】DataVisor:基于Spark平台的智能大数据网络反欺诈(视频+PPT+课程精华笔记)

[导读]为了让清华大学大数据能力提升项目的学生在基础学习和科研的基础之上,更好地了解大数据技术行业领域中的应用,清华-青岛数据科学研究院支持开设了金融大数据方向...

3518
来自专栏钱塘大数据

大数据兴起预示“信息时代”进入新阶段

导读:大数据已成为媒体与大众关注的新技术,大数据的应用也预示着信息时代将进入一个新阶段,但人们对大数据的认识有一个不断加深的过程。首先从“信息时代新阶段”、数据...

4344
来自专栏吉浦迅科技

HTC健康医疗事业部如何利用Big Data和AI提供精准医疗产品和服务

HTC健康医疗事业部拥有与AI相关的专业论文目前超过30篇,部门总经理张智威说,看似不多,但深度够,也曾被加州柏克莱大学援引,绝对是业界顶尖。

1923
来自专栏AI科技评论

人工智能的未来就看这些实验室的了

GAIR 今年夏天,雷锋网将在深圳举办一场盛况空前的“全球人工智能与机器人创新大会”(简称GAIR)。大会现场,谷歌,DeepMind,Uber,微软等巨头的人...

38711

扫码关注云+社区

领取腾讯云代金券