本文是开源项目https://github.com/datawhalechina/transformers-quick-start-zh项目中计算机视觉的第一篇。关于预训练模型请查阅2021年如何科学的“微调”预训练模型?和transformer简介请查阅我们用transformer干啥?
五五开黑节,打游戏被安排,冲浪刷到Facebook一篇十分有意思的文章:Emerging Properties in Self-Supervised Vision Transformers。我看到的图是这样的:
图1 中间是原始视频,中间是有监督学习segmentation得到的,右边是无监督学习DINO得到的。
直接好家伙,太厉害了。于是我就去b站上随手找了个猫咪视频试了一下,发现还真靠谱,于是就对这篇文章做了一个视频解读。第一次做视频解读,第一次写CV里的transformer,欢迎大家拍砖交流。
视频的核心要点是: