20190624一周文章阅读和收藏: 图像分类、检测，NLP，Python编程

kbsc13

发布于 2019-08-16 15:59:58

7380

发布于 2019-08-16 15:59:58

文章被收录于专栏：AI 算法笔记

图片来自 Pixabay, 作者：seth0s

前言

打算每周整理下这周看过觉得不错的文章，主要是机器学习、深度学习、Python编程方向的，包括但不局限于论文、综述、有趣的项目以及工具教程推荐，目前这个系列的名字还没想好，就先这样命名吧

这周时间是 6 月 24 日到 6 月 29 日看到的一些文章，总共是 13 篇文章，涉及的领域是：

多标签图像分类的综述
目标检测的综述
实例分割论文介绍
NLP 中的 attention 和 Embedding 介绍
四种归一化算法
MobieNet V1 到 V3 的三个版本介绍
强化学习基础入门
Python 的 49 个学习资源
Python 字符串处理方法
一个爬虫项目--爬取无版权图片
Github上对新手友好的项目推荐
Mac 电脑配置、软件推荐、开发环境设置

部分文章是有完整看完的，部分是觉得不错，可以收藏看看的。

AI

计算机视觉

这周看到几篇不同方向的综述、论文介绍文章：

1. 【技术综述】多标签图像分类综述

多标签图像分类是指每张图片不只有一个标签，以前比较常见的图像分类，其实都属于单标签，比如鸟类识别，每张图片仅有一个标签就是类别，而多标签，就不仅仅有类别，可能还有鸟的羽毛颜色、鸟嘴是短还是长、尾巴颜色等等，另一种多标签图分类的情况则是一张图片包含多个类别，比如下面这张图片就包含了电脑、手机、眼睛、鼠标、水杯等等几个类别。

事实上，现实生活中的图片中往往包含多个类别的物体，这也更加符合人的认知习惯，文章主要从以下几个方面进行介绍：

传统的机器学习方法
深度学习的方法
评价指标
数据集
多标签分类的挑战和困难

2. 最全综述 | 图像目标检测

目标检测是计算机视觉里面最热门的一个大方向了，这篇文章先介绍了常用的主流的目标检测算法：

R-CNN 系列--R-CNN、Fast R-CNN、Faster R-CNN、Mask R-CNN
YOLO 系列
SSD

最后推荐了一些知乎、公众号以及博客。

感觉这篇文章是非常适合入门，想了解目标检测的同学看看和学习，毕竟目前最常用的主流的目标检测算法都有介绍。

3. Cascade R-CNN升级！目标检测制霸COCO，实例分割超越Mask R-CNN

一篇新的论文“Cascade R-CNN: High Quality Object Detection and Instance Segmentation”，来自目标检测算法 Cascade R-CNN 作者，他对 Cascade R-CNN 算法进行扩展应用于实例分割。

Cascade R-CNN 是在 2017 年末提出的一个目标检测算法，并且被 CVPR 2018 录用，曾经长时间占据 COCO 检测数据集精度榜首。

这篇新的论文已经开源代码了，其论文和代码地址如下

论文地址：

https://arxiv.org/abs/1906.09756v1

代码地址：

https://github.com/zhaoweicai/cascade-rcnn（Caffe版）

代码地址：

https://github.com/zhaoweicai/Detectron-Cascade-RCNN（Detectron版）

自然语言处理

4. 干货|最全自然语言处理attention综述

attention，也就是注意力机制，也是最近几年深度学习出现比较多的一个技术，不仅在图像方面有应用，在 NLP 方面也有应用，这篇就详细介绍了在 NLP 方面的注意力机制。

5. Embedding从入门到专家必读的十篇论文

这篇文章主要是介绍 NLP 方向利用到 Embedding 的论文，包括在 Word2vec基础、衍生及应用、Graph Embedding 方向的 10 篇论文。

当然，图像方面也会用到 Embedding 的技术，比如人脸识别、图像搜索方面。

归一化算法

6. 如何区分并记住常见的几种 Normalization 算法

从 BatchNormalization 算法开始，后续逐渐有了更多的归一化算法，这篇文章主要介绍了四种：

Batch Normalization (BN)
Layer Normalization (LN)
Instance Normalization (IN)
Group Normalization (GN)

这些归一化算法的主要区别在于操作的 feature map 维度不同。

文章结合了 Pytorch 代码，介绍它们具体的操作，最后给出一个非常形象的类比：

这摞书总共有 N 本，每本有 C 页，每页有 H 行，每行 W 个字符。 计算均值时 BN 相当于把这些书按页码一一对应地加起来（例如：第1本书第36页，加第2本书第36页……），再除以每个页码下的字符总数：N×H×W，因此可以把 BN 看成求“平均书”的操作（注意这个“平均书”每页只有一个字） LN 相当于把每一本书的所有字加起来，再除以这本书的字符总数：C×H×W，即求整本书的“平均字” IN 相当于把一页书中所有字加起来，再除以该页的总字数：H×W，即求每页书的“平均字” GN 相当于把一本 C 页的书平均分成 G 份，每份成为有 C/G 页的小册子，对这个 C/G 页的小册子，求每个小册子的“平均字”

网络模型

7. 轻量级神经网络MobileNet，从V1到V3

MobieNet 的第一次提出是谷歌在 2017 提出来的，其目标就是设计一个可以在移动设备上使用的神经网络，也就是速度需要足够快，也就是计算量要小，而 MobieNet 的做法，其实就是将 VGG中的标准卷积层换成深度可分离卷积，更详细的可以阅读这篇文章。

V1 到 V3 版本的 MobieNet 论文分别如下

MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications，CVPR2017
MobileNetV2: Inverted Residuals and Linear Bottlenecks，CVPR2018
Searching for MobileNetV3，2019

其中 V3 版本是 2019 年 3月提出的，并且用到了神经网络结构搜索(NAS)技术，当然我其实没有了解这方面的内容，不过，最近也看到 medium 上有一篇文章介绍这个技术，感兴趣的可以查看下，不过需要访问外国网站：

深度学习的未来：神经架构搜索(NAS)