60年技术简史，带你读懂AI的前世今生

发布时间：2019-07-10 15:30:06 所属栏目：经验来源：佚名

导读：人类的进化发展史就是一部人类制造和使用工具的历史，不同的工具代表了人类的进化水平。从石器时代、铁器时代、蒸汽时代、电气时代再到现在的信息时代，我们使用更加先进便捷的工具来改变生产和生活。工具的目的是延伸和拓展人类的能力，我们跑得不快，但

那个时候要训练较深的神经网络是非常tricky的事情，因此也有类似Glorot等人的《Understanding the difficulty of training deep feedforward neural networks》，大家在使用深度学习工具时可能会遇到Xavier初始化方法，这个方法的作者正是Xavier Glorot。那个时候能把超参数选好从而能够训练好的模型是一种”黑科技”，我记得还有一本厚厚的书《Neural Networks: Tricks of the Trade》，专门介绍各种tricks。

深度卷积神经网络

深度学习受到大家的关注很大一个原因就是Alex等人实现的AlexNet在LSVRC-2012 ImageNet这个比赛中取得了非常好的成绩。此后，卷积神经网络及其变种被广泛应用于各种图像相关任务。从2012年开始一直到2016年，每年的LSVRC比赛都会产生更深的模型和更好的效果。

Alex Krizhevsky在2012年的论文《ImageNet classification with deep convolutional neural networks》开启了这段”深度”竞争之旅。

2014年的冠军是GoogleNet，来自论文《Going deeper with convolutions》，它提出了Inception的结构，通过这种结构可以训练22层的深度神经网络。它同年的亚军是VGGNet，它在模型结构上并没有太多变换，只是通过一些技巧让卷积网络变得更深(18层)。

2015年的冠军是ResNet，来自何恺明等人的论文《Deep residual learning for image recognition》，通过引入残差结构，他们可以训练152层的网络，2016年的文章《Identity Mappings in Deep Residual Networks》对残差网络做了一些理论分析和进一步的改进。

2016年Google的Szegedy等人在论文《Inception-v4, inception-resnet and the impact of residual connections on learning》里提出了融合残差连接和Incpetion结构的网络结构，进一步提升了识别效果。

下图是这些模型在LSVRC比赛上的效果，我们可以看到随着网络的加深，分类的top-5错误率在逐渐下降。

60年技术简史，带你读懂AI的前世今生

图：LSVRC比赛

目标检测和实例分割

前面的模型主要考虑的是图片分类任务，目标检测和实例分割也是计算机视觉非常常见的任务。把深度卷积神经网络用到这两个任务上是非常自然的事情，但是这个任务除了需要知道图片里有什么物体，还需要准确的定位这些物体。为了把卷积神经网络用于这类任务，需要做很多改进工作。

当然把CNN用于目标检测非常自然，最简单的就是先对目标使用传统的方法进行定位，但是定位效果不好。Girshick等人在2014年在论文《Rich feature hierarchies for accurate object detection and semantic segmentation》提出了R-CNN模型，使用Region Proposal来产生大量的候选区域，最后用CNN来判断是否是目标，但因为需要对所有的候选进行分类判断，因此它的速度非常慢。

60年技术简史，带你读懂AI的前世今生

图：R-CNN

2015年，Girshick等人提出了Fast R-CNN，它通过RoI Pooling层通过一次计算同时计算所有候选区域的特征，从而可以实现快速计算。但是Regional Proposal本身就很慢，Ren等人在同年的论文《Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks》提出了Faster R-CNN，通过使用Region Proposal Networks(RPN)这个网络来替代原来的Region Proposal算法，从而实现实时目标检测算法。为了解决目标物体在不同图像中不同尺寸(scale)的问题，Lin等人在论文《Feature Pyramid Networks for Object Detection》里提出了Feature Pyramid Networks(FPN)。

60年技术简史，带你读懂AI的前世今生

图：Fast R-CNN

60年技术简史，带你读懂AI的前世今生

图：Faster R-CNN

因为R-CNN在目标检测任务上很好的效果，把Faster R-CNN用于实例分割是很自然的想法。但是RoI Pooling在用于实例分割时会有比较大的偏差，原因在于Region Proposal和RoI Pooling都存在量化的舍入误差。因此何恺明等人在2017年提出了Mask R-CNN模型。

60年技术简史，带你读懂AI的前世今生

图：Mask R-CNN

从这一系列文章我们可以看到深度学习应用于一个更复杂场景的过程：首先是在一个复杂的过程中部分使用深度神经网络，最后把所有的过程End-to-End的用神经网络来实现。

此外，Redmon等人《You only look once: Unified, real-time object detection》提出了YOLO模型(包括后续的YOLOv2和YOLOv3等)，Liu等人也提出的SSD: Single Shot MultiBox Detector模型，这些模型的目的是为了保持准确率不下降的条件下怎么加快检测速度。

生成模型

（编辑：上饶站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

3/14

首页

尾页

建站容易运营难！站长	WordPress后台的默认分
GTranslateWordPress外	服务器被大流量攻击怎