【犀牛鸟学问】发现数据之美

腾讯高校合作

发布于 2018-06-04 16:13:22

9420

发布于 2018-06-04 16:13:22

文章被收录于专栏：腾讯高校合作

2018年3月29日，由腾讯高校合作与CCF YOCSEF 深圳联合主办的 “未来数据智能”学术论坛在深圳飞亚达科技大厦举行。本次论坛是“犀牛鸟学问”2018年的首场活动，同时开启了“犀牛鸟基金”五周年系列活动。

本次论坛邀请到了ACM, IEEE, AAAS, SIAM Fellow, Professor Vipin Kumar、中国香港科技大学陈雷教授、浙江大学纪守领教授、中国香港大学Reynold Cheng副教授，带来了一场场精彩的演讲。

▲ Kumar教授演讲

明尼苏达大学的Vipin Kumar教授是犀牛鸟海外学术专家，由IEEE 与腾讯联合邀请参与本次论坛。 Kumar教授做了题为“Big Data in Climate: Opportunities and Challenges for Machine Learning and Data Mining”的演讲，通过森林火灾、植被动态、地表水动态变化几个具体场景介绍了人工智能和数据挖掘在气候与环境研究中的应用与挑战。

全球森林火灾监测的预测模型中，主要挑战是预测类别的高度不平衡以及数据标签的不完整和低质量。解决方案是第一步利用不完美的标记数据学习分类模型，第二步将分类模型的预测与不完美标签进行结合，以牺牲召回率为代价提升准确率，第三步利用利用空间邻域，生物网络或社交网络等关系结构来提高罕见类实例的召回率。最终预测模型在准确率和召回率方面均有了大幅性能提升。

热带森林植被变化场景主要是利用RNN在空间和时间进行建模。研究递归地更新每个标注者的专业知识并估计真实的标签，进而解决由于每个标注者在不同的植被类型上的专业水平不同导致的不完美标注问题；利用LSTM模型对每年的时间和空间依赖性建模，并提出了增量学习策略来更新LSTM模型，进而处理时间异质性的预测；最终汇总类别，收集样本并验证结果。

第三个例子是对全球内陆地表水动态进行建模和绘制，主要研究包括提出处理数据异构性的集成学习方法，通过集成多个分类器来区分不同的模式的正负例；使用高阶信息约束物理一致的标签，处理数据质量较差的问题；进行跨空间和时间的信息传递等。

最后，Kumar教授做了总结，提出气候中的大数据为更好的理解地球气候和环境以及提高机器学习研究提供了很好的机会，需要研究“理论导向的数据科学”，也就是用新的方法来指导科学应用中的知识发现过程。这些方法同样适用于生态系统管理、粮食生产、地理空间情报、神经科学和流行病学等领域。

▲ 陈雷教授演讲

中国香港科技大学的陈雷教授做了题为“Human-Powered Machine Learning”的演讲，提出将HI与AI相结合的思想。

陈雷教授谈到，人脑所能解决的问题主要包括计算问题（如逻辑、分析、数学等）和创作性问题（如想象、音乐、艺术等），而AI不同，例如IBM 的Watson在医学诊断方面的准确率和速度远高于人工诊断，AI能够向顾客推荐和展示最相关的产品等等。但机器学习也有不擅长解决或不能解决的问题：Quora依据用户投票展示排名，一个明显更好的答案却排在后面，这是由于投票受到人为操纵的干扰；情感分析在解决多个人观点时处理得不好；机器进行语言翻译对于语义理解和短文本分析有很多问题；在谷歌上搜索森林火灾图片却出现一些不相关图片排在前面；数据标签出错的代价可能非常高昂，比如自动驾驶，等等。

因此，陈雷教授提出将人类参与到机器学习闭环中，人类需要作为老师、作为机器运行的子程序、作为评价机器学习好坏的客户，即“Make AI More Human”。“Human-in-the-loop”指充分利用机器学习的高效和人工标记数据的准确性。机器来完成大多数工作，当机器不确定时进行人工参与。其具有三个挑战：一是激励机制的设计（Wikipedia和Stackoverflow都是无偿的）；二是任务的分配（考虑积极性、优先性、专业性）；三是验证机制（如何验证机器学习结果）。Human-in-loop Image Labeling包括少部分的Human Labeling和大部分的Semi-supervised Labeling，在只有1%人工标记的情况下，准确率超过95%。

最后，陈雷教授做了总结，并提出“Machines evolve to help, but not to replace humans”。以后不再是“man vs machine”，而是人与机器的合作。

▲ 纪守领教授演讲

CCF-腾讯犀牛鸟基金获奖者，浙江大学的纪守领教授带来了题为“电商黑灰产威胁情报挖掘与分析”的演讲。利用数据挖掘与人工智能技术协助电商精确打击黑灰产业网站。

纪守领教授一直致力于数据驱动安全、AI安全、大数据安全隐私、对抗学习等领域的研究，发表国际高水平会议论文80余篇。本次分享的主题——电商黑灰产业，一直以来是各大电商平台非常棘手的问题。本次项目从工业界需求出发，希望用最实际的办法，真真切切地帮助互联网电商黑灰产业的问题。

研究挑战主要是检测电商黑灰产的关键词并且通过已知的关键词挖掘出更多的关键词。研究首先分析了电商黑灰产的运作方式，例如刷客、空包、自动刷单助手等等。然后设计了一整套反黑灰产的自动检测系统。系统主要包括数据收集、文本处理、黑灰产关键词检测识别、以及最后通过关键词找到黑灰产业源头并提交给相关法律部门进行处理，打击黑灰产。这套系统从最初的34个黑灰产关键词，通过系统的数据挖掘和智能分析，最终拓展到1013个，增加了近30倍。并有望在更多的实际应用场景中落地使用。

▲ 郑振刚副教授演讲

中国香港大学的郑振刚（Reynold Cheng）副教授作了题为“Meta Paths and Meta Structures: Analyzing Large Heterogeneous Information Networks (元路径与元结构：分析大规模异质信息网络)”的主题报告。

郑教授首先以DBLP参考文献网络、IMBD电影网络、Facebook网络为例，介绍异质信息网络（HIN），这是一种对象和边均以类型为标注的图模型，可用于包括链路预测、实体画像和数据集成等应用场景中。接下来分享了分析HIN的一种重要概念——元路径（Meta-Path）。元路径本质上是HIN两个节点之间的由节点类型和边类型组成的序列，基于元路径可以定义并计算两个HIN对象之间的相关性（紧密性），包括路径计数（path count）、路径受限随机游走（PCRW）、有偏路径受限随机游走（BPCRW）等。紧接着郑教授介绍了他们团队发表在WWW2015上的元路径发现的工作，以及发表在CIKM16上的查询推荐（query recommendation）的工作。

进一步地，郑教授介绍了如何将元路径泛化到元结构，即由对象类型和边类型构成的有向无环图。元结构比元路径更具表达性，它可以描述两个HIN对象之间的复杂关系。在此基础上，元路径用于计算相关性的三种度量依次对应泛化到基于元结构的度量方法，即SC、SCRW、SPCRW。

最后，郑教授讨论了HIN的未来研究方向，包括HIN中的有效查询、元路径/结构的发现和挖掘以及HIN和众包的结合。

左起: CCF YOCSEF 深圳分论坛主席雷凯；腾讯高校合作黄婷婷；Kumar教授；陈雷教授；郑振刚副教授；纪守领教授；腾讯高校合作陈伟

四场演讲从不同的角度带来了最新的人工智能研究成果，充分激发了与会学者的热情参与，亲切交流碰撞出思维的火花，闪烁着学术的独特魅力。 “犀牛鸟学问”将在更多的技术领域开展学术交流，敬请期待更多精彩内容！

Kumar 教授、IEEE代表姜春琪女士访问腾讯公司

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2018-04-03，如有侵权请联系 cloudcommunity@tencent.com 删除

其他

本文分享自腾讯高校合作微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

其他

登录后参与评论

0 条评论

热度

【犀牛鸟学问】发现数据之美

【犀牛鸟学问】发现数据之美

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐