言之有物,文本数据的多元魅力

第四届浙江大学研究生国际暑期学校

大数据可视分析国际研讨班

主办:浙江大学

承办:浙江大学CAD&CG国家重点实验室

中国图象图形学学会人机交互专业委员会

中国计算机学会CAD&CG专业委员会

夏日的时光总是在飞逝中显得短暂,同学们在高温褪去的杭州迎来了可视化暑期学校的第七天。或许是突来的阴凉,拥挤的教室也不显得前日般那样闷热。在一个好天气中,暑期学校的上午授课如往常般开始。

今天的授课学者是来自韩国大学计算机信息工程学院Jaegul Choo助理教授。Jeagul 教授的主要研究方向包括机器学习,可视化以及将两者相结合的可视分析技术。在上午的课程里,他为同学们详细讲解了关于文本数据可视化方面的知识,主要内容分为了文本数据的向量编码、基础的文本数据可视化技巧、主题模型以及数据降维。同学们在听课过程中收获颇丰,不断有同学上去提问,汲取知识。

Part.1

Visual Analytics of Text Data

Jaegul Choo

Jeagul Choo 教授先通过图像数据单位像素的向量序列化表达的例子,引出了文本数据同样可以将其作为向量化表达的主题。为了使得同学们更好地理解如何将文本数据化归为一个个向量,Jeagul Choo 教授从one-hot vector入手,讲述了one-hot vector 可以将离散特征的取值扩展到欧式空间,使得特征之间的距离计算和相似度计算都十分方便。再由one-hot vector 的缺陷引到了词嵌入(Word Embedding)算法

词嵌入算法可以大幅度地减少one-hot vector 带来的词向量维度过大和数据矩阵过于稀疏的问题,同时通过向量间的余弦值大小来衡量两者之间的相似度,十分简洁有效。并且教授现场的词嵌入可视化展示(concept vector)使得同学们对其了解更加深刻。最后又提及了现在最常用并且流行的方法,即Word2Vec。依赖于深度学习,它可以自动地实现单词语义相似性的度量和词汇语义的类比。

短暂的休息过后,Jeagul Choo 教授讲述了文本数据可视化的基本方法,并且对于每个可视化方法都进行了现场的demo演示,让同学们感受到了可视化的魅力和其在帮助人们增加感知、理解数据的强大能力。在讲述过程中,主要的可视化方法涉及到了诸如词云(Word Cloud)、词树(Word Tree)、主题流(Theme River)、TIARA和词汇网络(Phrase Nets)

教授在结束文本可视化方法介绍之后,讲解了主题模型的相关知识。在文本可视化过程中,一篇文章的主题往往由不同的关键词组成,不同的关键词含有不同的概率,从而不同的主题会因为关键词的不同,其对应的权值也会不同。而主题模型是一种对于文档集合给出一系列主题的技术。Jeagul Choo 教授同样以具体的例子和计算过程帮助同学们理解其内在逻辑,并且与潜在语义索引算法(LSI)作了一个典型对比。最后,教授通过演示不同的主题建模可视化系统,如Car Reviews、TopicLens、VisIRR、TopicOnTiles,使得课堂理论与实践相结合,对同学们帮助很大。

最后,Jeagul Choo 教授讲述了数据降维的方法和思维。数据降维不仅可以使得数据量大大减小,得到更高的计算效率,而且可以做更多的预处理已到达很好的性能,以及2D/3D的可视化展示和交互操作。

课程时间有限,结束之后依旧有很多同学围在讲桌前,与教授进行探讨。更有来自四川的女同学,在Jeagul Choo 教授对她们的问题进行细致回答之后,送出了熊猫玩偶表达自己的感谢。Jeagul Choo 教授感到十分意外与欢喜,最后今日份的暑期学校就在熊猫的注视下结束了。

Part.2

讲座时间表

更多信息请查看官方网站

http://www.cad.zju.edu.cn/home/vis-summer-school-2018/

论坛记录员:陈则衔

浙江大学计算机科学与技术专业

研究兴趣:可视分析

宽视 · 善知

| 宽视以博物 · 善知以致知 |

微信号

datavis

或长按识别上图

微博号

浙大可视分析小组

或长按识别上图

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180802G1MH7N00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券