# 双线性汇合(bilinear pooling)在细粒度图像分析及其他领域的进展综述

1. 数学准备

1.1 符号

1.2 数学性质

1.3 双线性

2. 双线性汇合

2.1 细粒度分类中的双线性汇合

Tsung-Yu Lin, Aruni RoyChowdhury, and Subhransu Maji. Bilinear CNN models for fine-grained visual recognition. ICCV 2015: 1449-1457.

Tsung-Yu Lin, Aruni RoyChowdhury, and Subhransu Maji. Bilinear convolutional neural networks for fine-grained visual recognition. TPAMI 2018, 40(6): 1309-1322.

Mohammad Moghimi, Serge J. Belongie, Mohammad J. Saberian, Jian Yang, Nuno Vasconcelos, and Li-Jia Li. Boosted convolutional neural networks. BMVC 2016.

Moghimi等人提出BoostCNN，利用多个双线性CNN的boosting集成来提升性能，通过最小二乘目标函数，学习boosting权重。然而这会使得训练变慢两个量级。

Tsung-Yu Lin and Subhransu Maji. Improved bilinear pooling with CNNs. BMVC 2017.

Lin和Maji探索了对格拉姆矩阵不同的规范化方案，并发现对格拉姆矩阵进行0.5矩阵幂规范化压缩格拉姆矩阵特征值的动态范围

Peihua Li, Jiangtao Xie, Qilong Wang, and Wangmeng Zuo. Is second-order information helpful for large-scale visual recognition? ICCV 2017: 2089-2097.

Li等人提出MPN-COV，其对深度描述向量的协方差矩阵进行0.5矩阵幂规范化

Peihua Li, Jiangtao Xie, Qilong Wang, and Zilin Gao. Towards faster training of global covariance pooling networks by iterative matrix square root normalization. CVPR 2018: 947-955.

Xing Wei, Yue Zhang, Yihong Gong, Jiawei Zhang, and Nanning Zheng. Grassmann pooling as compact homogeneous bilinear pooling for fine-grained visual classification. ECCV 2018: 365-380.

Wei等人认为，格拉姆矩阵会受视觉爆发（visual burstiness）现象的影响。视觉爆发是指一个视觉元素在同一个图片中多次出现，这会影响其他视觉元素的作用。关于视觉爆发的更多信息请参阅Herve Jegou, Matthijs Douze, and Cordelia Schmid. On the burstiness of visual elements. CVPR 2009: 1169-1176.

Wei等人提出格拉斯曼（Grassmann）/子空间汇合，令X的SVD分解为X=U∑VT，记矩阵U的前k列为UkRD*K，该汇合结束输出

Tsung-Yu Lin, Subhransu Maji, and Piotr Koniusz. Second-Order democratic aggregation. ECCV 2018: 639-656.

Lin等人使用民主聚合来使不同深度描述向量的贡献接近。

2.2 不同阶的汇合

Qilong Wang, Peihua Li, and Lei Zhang. G2DeNet: Global Gaussian distribution embedding network and its application to visual recognition. CVPR 2017: 6507-6516.

Wang等人提出G2DeNet，同时利用了一阶和二阶信息

Mengran Gou, Fei Xiong, Octavia I. Camps, and Mario Sznaier. MoNet: Moments embedding network. CVPR 2018: 3175-3183.

Gou等人对描述矩阵X进行增广

Marcel Simon, Yang Gao, Trevor Darrell, Joachim Denzler, and Erik Rodner. Generalized orderless pooling performs implicit salient matching. ICCV 2017: 4970-4979.

Simon等人提出α-汇合，统一表示平均汇合和双线性汇合.α-汇合形式化为

α=1时，代表平均汇合

α=2时，代表双线性汇合

，其表示了测试图像的第j个深度描述向量和第n张训练图像的第i个深度描述向量的匹配程度，也就是对应图像区域的匹配程度。通过对γnij进行可视化，我们可以观察哪些区域对于细粒度分类最有帮助。

3. 精简双线性汇合

3.1 PCA降维

Tsung-Yu Lin, Aruni RoyChowdhury, and Subhransu Maji. Bilinear CNN models for fine-grained visual recognition. ICCV 2015, pages: 1449-1457.

Tsung-Yu Lin, Aruni RoyChowdhury, and Subhransu Maji. Bilinear convolutional neural networks for fine-grained visual recognition. TPAMI 2018, 40(6): 1309-1322.

Lin等人将双线性汇合输入的一个分支先使用1*1的卷积进行降维，例如将512维降维到64维。以VGG-16为例，最终格拉姆矩阵将由R512x512降维到R512x64。在实际应用中，用PCA对这个1X1卷积的参数进行初始化。

3.2 近似核计算

Yang Gao, Oscar Beijbom, and Ning Zhang, and Trevor Darrell. Compact bilinear pooling. CVPR 2016: 317-326

Gao等人使用深度描述向量的低维投影的内积近似二次多项式核

Yin Cui, Feng Zhou, Jiang Wang, Xiao Liu, Yuanqing Lin, and Serge J. Belongie. Kernel pooling for convolutional neural networks. CVPR 2017: 3049-3058.

Cui等人进一步利用核近似，借助于tensor sketch捕获更高阶的特征交互，提出核汇合。

Kaiyu Yue, Ming Sun, Yuchen Yuan, Feng Zhou, Errui Ding, and Fuxin Xu. Compact generalized non-local network. NIPS 2018, accepted.

Yue等人将非局部（non-local）网络（参见下文）应用到细粒度识别中，并对核函数泰勒展开进行近似。

3.3 低秩双线性分类器

Shu Kong and Charless C. Fowlkes. Low-rank bilinear pooling for fine-grained classification. CVPR 2017: 7025-7034.

Yanghao Li, Naiyan Wang, Jiaying Liu, and Xiaodi Hou. Factorized bilinear models for image recognition. ICCV 2017: 2098-2106.

Li等人通过对参数矩阵进行低秩近似来完成图像分类任务，同时其也包含了一阶信息。Li等人所提出的的FBN结构可以用于所有的卷积和全连接层。

Sijia Cai, Wangmeng Zuo, and Lei Zhang. Higher-order integration of hierarchical convolutional activations for fine-grained visual categorization. ICCV 2017: 511-520.

Cai等人捕获了更高阶的特征交互，并对参数进行秩1近似。

Kaicheng Yu and Mathieu Salzmann. Statistically-motivated second-order pooling. ECCV 2018: 621-637.

Yu和Salzmann对参数矩阵进行低秩近似，并给双线性汇合的每一步一个概率上的解释。这个操作可以被等价为对深度描述向量进行1X1卷积后在

Chaojian Yu, Xinyi Zhao, Qi Zheng, Peng Zhang, and Xinge You. Hierarchical bilinear pooling for fine-grained visual recognition. ECCV 2018: 595-610.

4. 双线性汇合的其他应用

4.1 风格迁移和纹理合成

Leon A. Gatys, Alexander S. Ecker, Matthias Bethge. Image style transfer using convolutional neural networks. CVPR 2016: 2414-2423.

Yanghao Li, Naiyan Wang, Jiaying Liu, and Xiaodi Hou. Demystifying neural style transfer. IJCAI 2017: 2230-2236.

Li等人发现，考虑一张训练图像和一张测试图像对应的格拉姆矩阵G和G'，风格损失项

Akira Fukui, Dong Huk Park, Daylen Yang, Anna Rohrbach, Trevor Darrell, and Marcus Rohrbach. Multimodal compact bilinear pooling for visual question answering and visual grounding. EMNLP 2016: 457-468.

Fukui等人提出MCB，对图像和文本特征进行精简双线性汇合。

Jin-Hwa Kim, Kyoung Woon On, Woosang Lim, Jeonghee Kim, JungWoo Ha, and Byoung-Tak Zhang. Hadamard product for low-rank bilinear pooling. ICLR 2017.

Kim等人提出MLB，对参数矩阵进行低秩近似。假设图像描述向量是x，文本描述向量是z，那么它们的双线性汇合的格拉姆矩阵是

Zhou Yu, Jun Yu, Jianping Fan, and Dacheng Tao. Multi-modal factorized bilinear pooling with co-attention learning for visual question answering. ICCV 2017: 1839-1848.

Zhou Yu, Jun Yu, Chenchao Xiang, Jianping Fan, and Dacheng Tao. Beyond bilinear: Generalized multi-modal factorized high-order pooling for visual question answering. TNNLS 2018, in press.

Yu等人提出MFB，也是对参数矩阵进行低秩近似。和MLB相比，分数向量 y的每一项都由

4.3 动作识别

Rohit Girdhar and Deva Ramanan. Attentional pooling for action recognition. NIPS 2017: 33-44.

Girdhar和Remanan对参数矩阵做了秩1近似W=UVT，即

Xiaolong Wang, Ross B. Girshick, Abhinav Gupta, and Kaiming He. Non-local neural networks. CVPR 2018: 7794-7803.

5. 总结

• 双线性汇合结果的规范化。目前发现矩阵幂规范化对提升性能很有帮助，是否还有其他规范化方法，以及能否设计出其在GPU的高效实现？
• 精简双线性汇合。目前研究的一大关注点是对参数矩阵进行低秩近似，是否还有其他精简双线性汇合方法？
• 双线性汇合原理。目前对双线性汇合原理的理解围绕着深度描述向量之间的二阶多项式核展开，是否还有其他对双线性汇合原理的理解方法？

0 条评论

• ### 机器学习中的最优化算法总结

对于几乎所有机器学习算法，无论是有监督学习、无监督学习，还是强化学习，最后一般都归结为求解最优化问题。因此，最优化方法在机器学习算法的推导与实现中占据中心地位。...

• ### 论文解读 Channel pruning for Accelerating Very Deep Neural Networks

本文提出了一种新的裁枝方法，用于加速深层卷积神经网络。对于一个训练好的模型，本文方法通过一个2步迭代的算法逐层裁枝，优化函数是LASSO回归和最小二乘法重建误差...

• ### 机器学习发展历史回顾

机器学习是现阶段解决很多人工智能问题的主流方法，作为一个独立的方向，正处于高速发展之中。最早的机器学习算法可以追溯到20世纪初，到今天为止，已经过去了100多年...

• ### 11. 图像合成与图像融合

我们经常看到一些很奇妙的PS技术，例如下面这张，它把1928年的一位叫做Frankie Yale的黑帮老大被杀时的照片，与现在这栋房子的照片无缝融合在一起：

• ### 数据版"吐槽大会": 国产综艺节目年终盘点

作者介绍：徐麟，目前就职于互联网公司数据部，哥大统计数据狗，从事数据挖掘&分析工作，喜欢用R&Python玩一些不一样的数据

• ### 初探下一代网络隔离与访问控制

概述 安全域隔离是企业安全里最常见而且最基础的话题之一，目前主要的实现方式是网络隔离（特别重要的也会在物理上实现隔离）。对于很小的公司而言，云上开个VPC就实...

• ### Android计时与倒计时实现限时抢购的5种方法

在购物网站的促销活动中一般都有倒计时限制购物时间或者折扣的时间,这些都是如何实现的呢?

• ### 人脸识别中的数据不确定性学习（CS AI)

建模数据不确定性对噪声图像很重要，但很少用于人脸识别。 先锋工作PFE通过将每个人脸图像嵌入建模为高斯分布来考虑不确定性。 这是相当有效的，但是，它只使用现有的...

• ### 记一次ijkplayer的编译过程

从视频直播到播放器，现在很多的产品都集成了视频播放的功能，而目前市面上有比较主流的有第三方框架有：