基于腾讯开源 Angel 的 LDA* 入选国际顶级学术会议 VLDB

原创

腾讯开源

修改于 2017-09-07 09:47:29

2.1K0

修改于 2017-09-07 09:47:29

2017年8月27日-9月1日，数据库领域的国际顶级学术会议VLDB(Very Large DataBase) 在德国慕尼黑召开。腾讯开源项目Angel团队的论文《LDA*：A Robust and Large-scale Topic Modeling System》，入选了今年VLDB的research track，并获邀在大会上进行Oral Presentation。

Angel：高性能分布式机器学习平台

Angel是腾讯对外开源的第一个AI项目，是一个基于参数服务器（Parameter Server）理念开发的高性能分布式机器学习平台。它由Java和Scala开发，能在社区的Yarn上直接调度运行，并支持Spark on Angel，未来将会支持图计算和深度学习框架集成。

Angel于2017年6月16日开源，Star数三天过千，受到了广泛的用户好评，吸引了来自华为、微博、小米和上海外企的开发者参与项目，并在2017 全球机器学习技术大会、Strata China 2017、新浪微博机器学习团队等线下分享，吸引了大量的机器学习爱好者。

Angel由腾讯TEG数据平台部和北京大学联合开发，兼顾了工业界的高可用性和学术界的创新性。之前已经在SIGMOD、NSR、ICDE等顶级国际会议上发表了多篇论文，这次在VLDB发表Paper，是又一个重要的标志性事件。

LDA* : 基于Angel的大规模高性能主题模型系统

主题模型是一个对文本建模的概率图模型。在主题模型中，每个文档被看成一个话题（Topic）的分布，将每个话题看成是一个在词语上的分布(Topic Distribution of Words)。通过主题模型对文本进行建模，文档被表示成一个话题分布（Topic Probability），从而可以对文档进行聚类等分析。

主题模型的应用场景非常广泛，可以用于多个领域，比如推荐系统、广告CTR预估，用户兴趣分类……但是在工业界的场景下训练主题模型，经常会遇到三个问题：

训练的数据规模非常大，2T大小的样本，3000亿个Token，要求在几个小时内跑出结果
数据和参数复杂，在各种各样的数据和参数配置下，都必须要有较好的性能
系统需要具有较高的可扩展性和鲁棒性，才能应对现网集群中的复杂情况

为了解决这些问题，LDA 基于Angel，从模型和工程上都进行了针对性优化，得益于Angel开放的参数服务器架构、良好的扩展性以及优秀的编程接口设计，解决了在复杂的数据环境中采样性能的鲁棒性以及*词倾斜分布带来的巨大网络通信流量这两个难题，具备了广泛的适用性和良好的性能，可以轻松处理TB级别的数据和十亿维度的主题模型。

优化1：基于吉布斯采样的Hybrid Sampler

吉布斯采样是一种基于马尔科夫蒙特卡罗的采样方法，常常用于求解大规模主题模型，但是在大规模数据以及话题个数较多的情况下，吉布斯采样的求解效率非常低下。

目前业界已有的解决方法，包括Sparse-Aware Samplers（简称SA）和Metropolis Hastings Samplers（简称MH）。SA采样法使得采样复杂度降低到O(Kd)，Kd的上限是文档的长度L_d和话题个数K中的较小值；MH采样法的采样复杂度为O(1)，但是因为存在接受率π，概率上需要O(1/π)次采样才能得到一个样本；而SA采样法每次采样都能够产生一个样本。

因此，SA采样法和MH采样法之间存在一个tradeoff。Angel团队做了详尽的实验找到了SA、MH两种采样法的交叉点，LDA* 有效地将F+LDA（SA采样法）和WarpLDA（MH采样法）结合起来，设计了一个新的Hybrid Sampler。

“它采用了两个启发式的规则来构建这个Hybrid Sampler。在第一个规则中，将数据集分成两个部分，文档较长的数据集和文档较短的数据集，然后使用F+LDA来采样较短的文档集合，使用WarpLDA采样较长的文档集合；在第二个规则中，将两个具有不同收敛速度的sampler结合起来，在一次迭代中，每个token话题的采样都能产生一个样本，因此对于WarpLDA来说，需要动态地设定其MH步长，而对于F+LDA来说，则不需要进行任何改变。

根据实验，Hybrid Sampler在所有的数据集上和参数配置下，都能获得最好的性能。

优化2：非对称架构，实现模型并行

主题模型的训练常常需要大规模的数据集和较大的话题个数，因此分布式训练常常用于进行大规模的主题模型训练。已有的系统，包括LightLDA，YahooLDA和Petuum，其实都是采用参数服务器的架构来进行分布式训练，但是由于词分布的倾斜特性，标准的参数服务器架构会在Worker端产生较大的网络通信开销，因此每个worker几乎都需要把整个词-话题（Word-Topic）矩阵模型从PSServer上拉取下来，这个对性能会有很大的影响。

在实际的测试下，由于词分布的倾斜性，导致大部分的网络开销都产生于长尾的词语，这些长尾的词语产生的网络开销造成了在数据量和模型参数较大时带来的性能损失。因此，LDA 对于这类长尾词语进行了特殊的处理，将一部分长尾词语的采样推送到PSServer端进行，从而避免了对词-话题矩阵的拉取操作。由于在这样的架构中，PSServer不仅仅作为一个分布式存储，还参与了一定的计算任务，从而某种程度上实现了模型并行，这种架构为非对称架构。依托于Angel良好的接口设计和psFunc功能，LDA的这种非对称架构可以非常轻松的实现，而不用对Core进行任何的修改。

性能数据：在腾讯真实的推荐数据集上最高是原有系统的 9 倍

为了进行全面的评测，LDA 和之前开源的Petuum，以及微软的LightLDA，在2个数据集上进行对比。一个是开源的PubMED，一个是腾讯真实的推荐数据集。实验结果表明，在数据量越大的情况下，LDA 的优势越明显。

PubMED数据集上，LDA*的速度，分别是Petuum和LightLDA的5倍

在腾讯真实的推荐数据集上，LDA* 是Petuum的9倍，是lightLDA的2.6倍。

大规模生产数据为了更好的体现LDA 的性能，在腾讯内部生产集群上，LDA 使用更大的数据集进行训练。从下图的数据集可以看到，最大的一个数据集有3000亿个token，大约1.8TB的数据量。在所有的任务中，话题数设置为8000。

数据集规模如下

请在Github上Star Angel项目，与我们探讨

除了LDA算法，Angel还提供了Logistic Regression、Matrix Factorizaiton、GBDT等业内常用的高性能算法。未来，伴随着Angel开源的发展和推广，希望业界会有更多的公司，能够从Angel中受益，轻松拥有构建大规模模型的能力。也欢迎对机器学习有兴趣的同仁一起贡献代码。

Github: https://github.com/tencent/angel