您好、欢迎来到现金彩票网!
当前位置:刘伯温论坛 > 图像几何学 >

卷积学习与图像识别的技术发展

发布时间:2019-06-26 21:42 来源:未知 编辑:admin

  自20世纪80年代兴起的神经网络热潮已经退去,神经网络再次成为常规科学。托马斯·库恩(Thomas Kuhn)曾将科学革命之间的时间间隔描述为,科学家在一个已经确定的范式或解释框架内进行理论推定、观察和试验的常规工作阶段。1987 年,杰弗里·辛顿去了多伦多大学,并继续着渐进式改进,虽然这些改进都没有像曾经的玻尔兹曼机那样展现出魔力。辛顿在21 世纪头十年成为加拿大高等研究院(Canadian Institute for Advanced Research,简称CIFAR)神经计算和自适应感知项目(Neural Computation andAdaptive Perception,简称 NCAP)的带头人。该项目由来自加拿大和其他国家的约25 位研究人员组成,专注于解决机器学习的难题。我是由杨立昆担任主席的NCAP 顾问委员会的成员,会在每年 NIPS 会议召开之前参加该项目的年会。神经网络的先驱们在缓慢而稳定的过程中探索了机器学习的许多新策略。虽然他们的网络有许多有价值的应用,但却一直没有满足20 世纪 80 年代对该领域抱有的很高的期望。不过这并没有动摇先驱者们的信念。回想起来,他们一直是在为飞跃性的突破奠定基础。

  NIPS 会议是 20 世纪 80 年代神经网络的孵化器,为其他可处理大型高维数据集的算法打开了大门。弗拉基米尔·瓦普尼克的支持向量机于1995 年引发了轰动,为 20 世纪 60 年代就被遗弃的感知器网络开辟了一个新篇章。使支持向量机成为功能强大的分类器,并出现在每个神经网络工作者工具包中的,是“内核技巧”(kernel trick),这是一种数学转换,相当于将数据从其采样空间重新映射到使其更容易被分离的超空间。托马索·波吉奥开发了一种名为“HMAX”的分级网络,可以对有限数量的对象进行分类。这表明,网络的性能会随着其深度的增加而提高。

  在21 世纪的头几年里,图形模型被开发出来,并与被称为“贝叶斯网络”(Bayes networks)的丰富的概率模型相结合,后者是基于18 世纪英国数学家托马斯·贝叶斯(Thomas Bayes)提出的一个定理,该定理允许使用新的证据来更新先前的信念。加州大学洛杉矶分校的朱迪亚·珀尔,在早些时候曾将基于贝叶斯分析的“信念网络”(belief networks)引入人工智能,通过开发能够利用数据在网络中学习概率的方法,对贝叶斯分析进行了加强和扩展。这些网络以及其他网络的算法为机器学习研究人员打造出了强大的工具。

  随着计算机的处理能力继续呈指数增长,训练更大规模的网络成为可能。大家曾普遍认为,具有更多隐藏单元、更宽的神经网络,比具有更多层数、更深的网络的效果更好,但是对于逐层训练的网络来说并非如此,并且误差梯度的消失问题(the vanishing error gradientproblem)被发现减慢了输入层附近的学习速度。然而,当这个问题最终被克服的时候,我们已经可以对深度反向传播网络进行训练了,而且该网络在基准测试中表现得更好。随着深度反向传播网络开始在计算机视觉领域挑战传统方法,2012 年的NIPS 大会上出现了这样一句话:“神经信息处理系统”里的“神经”又回来了。

  在20 世纪的最后10 年以及21 世纪前10 年的计算机视觉领域,在识别图像中的对象方面取得的稳步进展,使得基准测试(用于比较不同方法)的性能每年能提高百分之零点几。方法改进的速度十分缓慢,这是因为每个新类别的对象,都需要有关专家对能够将它们与其他对象区分开来所需的与姿态无关的特征进行甄别。随后,在2012年,杰弗里·辛顿和他的两名学生艾力克斯·克里泽夫斯基(AlexKrizhevsky)和伊利娅·苏特斯科娃向 NIPS 会议提交了一篇论文,关于使用深度学习训练AlexNet 识别图像中的对象,AlexNet 是本章要重点讨论的深度卷积网络。以拥有22 000 多个类别,超过1 500 万个标记过的高分辨率图像的ImageNet 数据库作为基准,AlexNet 史无前例地将识别错误率降低到了18%。这次性能上的飞跃在计算机视觉社区中掀起了一股冲击波,加速推动了更大规模网络的发展,现在这些网络几乎已经达到了人类的水平。到2015 年,ImageNet 数据库的错误率已降至3.6%。当时还在微软研究院的何恺明及其同事使用的低错误率深度学习网络,在许多方面都与视觉皮层十分相似;这类网络由杨立昆最早提出,并最初把它命名为“Le Net”。

  图9-1 杰弗里·辛顿和杨立昆是深度学习领域的大师。这张照片是 2000 年左右在加拿大高等研究院的神经计算和自适应感知项目会议上拍摄的,该项目是深度学习领域的孵化器。图片来源:杰弗里·辛顿。

  卷积网络多年来一直在经历许多渐进式改进。一个重要的补充,是将一个区域上的每个特征聚合起来,叫作“池化”(pooling)。这种操作提供了一种平移不变性(translation invariance)的量度,类似于由休伯尔和威泽尔在初级视觉皮层中发现的复杂细胞,能够通过一个图块对整个视野中相同方向的线做出响应。另一个有用的操作是增益归一化(gain normalization),就是调整输入的放大倍数,使每个单元都在其操作范围内工作,在皮层中是通过反馈抑制(feedbackinhibition)实现的。Sigmoid 输出函数也被线性整流函数(rectifiedlinear units,简称ReLUs)取代。在输入达到一个阈值之前这些单元的输出都为零,超过阈值之后则输出和输入呈线性增长。该操作的优点在于:低于阈值的单元被有效地排除在网络外,这更接近真实神经元中阈值的作用。

  卷积网络的每一个性能的改进,其背后都有一个工程师可以理解的计算理由。但有了这些变化,它越来越接近20 世纪 60 年代我们所了解的视觉皮层的体系结构,尽管当时我们只能去猜测简单和复杂单元的功能是什么,或者层级结构顶部的分布式表征的存在意味着什么。这说明了生物学与深度学习之间存在相得益彰的共生关系的潜力。

  加州大学圣迭戈分校的帕特里夏·丘奇兰德不仅是心灵哲学家,同时也研究神经哲学。知识最终取决于大脑如何表达知识的说法,显然没有人阻止哲学家认为知识是独立于世界而存在的一种东西,用伊曼努尔·康德(Immanuel Kant)的话来说,就是“Ding an sich”(物自身)。但同样清楚的是,如果我们(和其他动物一样)要在现实世界中生存,背景知识就是必不可少的。经过训练的多层神经网络的隐藏单元之间的活动模式,与被逐次记录下的大量生物神经之间的活动模式存在显著的相似性。受到这种相似性的驱动,帕特里夏和我在1992 年编写了《计算脑》(The Computational Brain)一书,为基于大量神经元的神经科学研究开发了一个概念框架。(该书现在已经出到第二版了,如果你想更多地了解大脑式的运算,这会是一本很好的入门参考。)麻省理工学院的詹姆斯·狄卡罗(James DiCarlo)最近比较了猴子视觉皮层层级结构中不同神经元和深度学习神经网络中的单元,训练它们识别相同图片中的对象,分别观察它们的响应(见图9–2)。他得出结论:深度学习网络中每层神经元的统计特性,与皮层层级结构中神经元的统计特性非常接近。

  深度学习网络中的单元与猴子视觉皮层中神经元性能存在相似性,但其原因仍然有待研究,尤其是考虑到猴子的大脑不太可能使用反向传播方式来进行学习。反向传播需要将详细的错误信号反馈给神经网络每层中的每个神经元,其精度比生物神经网络中已知反馈连接的精度要高得多。但其他学习算法在生物学上似乎更合理,例如玻尔兹曼机学习算法,该算法使用了已经在皮层中被发现的赫布突触可塑性。这引出了一个有趣的问题,是否存在一种深度学习的数学理论,能够适用于一大类学习算法(包括皮层中的那些)呢?在第7 章中,我提到了对视觉层级结构的上层分类表面的分析,其决策表面比更低层级的表面更平坦。对决策表面的几何分析可能会引出对深度学习网络和大脑更深入的数学理解。

  深度学习神经网络的一个优点是,我们可以从网络中的每个单元提取“记录”,并追踪信息流从一层到另一层的转变。然后可以将分析这种网络的策略用于分析大脑中的神经元。关于技术的一个奇妙之处在于,技术背后通常都有一个很好的解释,并且有强烈的动机来得到这种解释。第一台蒸汽发动机是由工程师根据他们的直觉建造的;解释发动机如何工作的热力学理论随后出现,并且帮助提升了发动机的效率。物理学家和数学家对深度学习网络的分析也正在顺利进行着。

  自20 世纪 60 年代以来,神经科学已经走过了漫长的道路,从我们目前对大脑的了解中可以获得很多东西。1990 年,帕特里夏·高德曼–拉奇克(Patricia Goldman-Rakic)训练了一只猴子来记住一个地点,作为提示,该地点会短暂地被一盏灯照亮;她还训练这只猴子在一段时间的延迟之后,把眼睛移动到被记住的地点。在记录了猴子前额叶皮层的活动后,她在报告中提到,一些最初对提示做出回应的神经元在延迟期间仍然保持活跃状态。心理学家把人类的这种活动称为“工作记忆”,也正因为有了工作记忆,我们在执行任务(比如拨打电线 项内容。

  传统的前馈网络将输入传到网络中,一次传播一层网络。结合工作记忆,可以使后续的输入与之前的输入在网络中留下的痕迹进行交互。例如,把法语句子翻译成英文时,网络中的第一个法语单词会影响后续英语单词的顺序。在网络中实现工作记忆的最简单方法,是添加人类皮层中常见的循环连接。神经网络中某一层内的循环连接和之前那些层的反馈连接,使得输入的时间序列可以在时间上整合起来。

  这种网络在20 世纪 80 年代被探索并广泛应用于语音识别。在实践中,它在具有短程依赖性的输入方面效果很好,但当输入之间的时间间隔很长,输入的影响会随着时间的推移发生衰减,网络性能就会变差。1997 年,赛普·霍克莱特(Sepp Hochreiter)和尤尔根·施密德胡博(Jürgen Schmidhuber)找到了一种方法来克服衰变问题,他们称之为“长短期记忆”(long short-term memory,简称 LSTM)。默认情况下,长短期记忆会传递原始信息,而不会发生衰减(这就是猴子前额叶皮层的延迟期中发生的事情),并且它也有一个复杂的方案来决定如何将新的输入信息与旧信息整合。于是,远程依赖关系可以被选择性地保留。神经网络中这种工作记忆版本沉寂了长达20 年之久,直到它在深度学习网络中再次被唤醒和实现。长短期记忆和深度学习的结合在许多依赖输入输出序列的领域都取得了令人瞩目的成功,例如电影、音乐、动作和语言。

  施密德胡博是位于瑞士南部提契诺州(Ticino)曼诺小镇的 Dalle Molle 人工智能研究所的联合主任。该小镇靠近阿尔卑斯山,周围有一些绝佳的徒步地点。神经网络领域的这位颇具创造性、特立独行的“罗德尼·丹泽菲尔德”相信他的创造力并没有得到足够的赞誉。

  因此,在蒙特利尔举办的2015 年NIPS 会议的一次小组讨论会上,他再次向与会人员介绍了自己,“我,施密德胡博,又回来了”。而在巴塞罗那举行的2016 年 NIPS 大会上,他因培训宣讲人没有对自己的想法给予足够的关注,而打乱对方的演讲长达5 分钟。

  这是米兰的时装周,衣着光鲜的模特们带着超凡脱俗的表情在T台上走秀(见图9–7)。时尚界正在经历暗潮涌动:“‘很多工作正在消失,’西尔维娅·文图里尼·芬迪(Silvia Venturini Fendi)在她的时装秀开场前说道,‘机器人会承担旧的工作,但它们唯一无法取代的就是我们的创造力和思维。’”现在想象一下经过训练的新一代对抗网络,它们可以生产新款式和高级时装,式样几乎无穷无尽。时尚界可能正处于一个新时代的边缘,而许多其他依赖创意的行业也面临着相同的处境。

  当前的大多数学习算法是在25 年前开发的,为什么它们需要那么长的时间才能对现实世界产生影响呢?20 世纪 80 年代的研究人员使用的计算机和标记数据,只能证明玩具问题的原理。尽管取得了一些似乎颇有前景的成果,但我们并不知道网络学习及其性能如何随着单元和连接数量的增加而增强,以适应现实世界问题的复杂性。人工智能中的大多数算法缩放性很差,从未跳出解决玩具级别问题的范畴。我们现在知道,神经网络学习的缩放性很好,随着网络规模和层数的不断增加,其性能也在不断增强。特别是反向传播技术,它的缩放性非常好。

  我们应该对此感到惊讶吗?大脑皮层是哺乳动物的一项发明,在灵长类动物,尤其是人类中得到了高度发展。随着它的扩展,更多的功能慢慢出现,并且更多层次被添加到了关联区域,以实现更高阶的表征。很少有复杂系统可以实现如此高级的缩放。互联网是为数不多的已经被扩大了100 万倍的工程系统之一。一旦通信数据包协议建立起来,互联网就会开始进化,正如DNA 中的遗传密码使细胞演化成为可能一样。

  使用相同的一组数据训练许多深度学习网络,会导致生成大量不同的网络,它们都具有大致相同的平均性能水平。我们想知道的是,所有这些同等优秀的网络有哪些共同之处,而对单个网络进行分析并不能揭示这一点。理解深度学习原理的另一种方法是进一步探索学习算法的空间;我们只在所有学习算法的空间中对几个位置进行了抽样尝试。从更广泛的探索中可能会出现一种学习计算理论,该理论与其他科学领域的理论一样深奥,可能为从自然界中发现的学习算法提供更多的解释。

  图9-8 约书亚·本吉奥是 CIFAR“机器学习和大脑学习”项目的联合主任。这位在法国出生的加拿大籍计算机科学家,一直是应用深度学习处理自然语言问题这个领域的领导者。杰弗里·辛顿、杨立昆和约书亚·本吉奥所取得的进展,为深度学习的成功奠定了基础。图片来源:约书亚·本吉奥。

  尽管深度学习网络的能力已经在许多应用中得到了证明,但如果单靠自身,它们在现实世界中永远都无法存活下来。29 它们受到了研究者的青睐,后者为其提供数据,调整超参数,例如学习速度、层数和每层中的单元数量,以改善收敛效果,还为其提供了大量计算资源。另一方面,如果没有大脑和身体的其他部分提供支持和自主权,大脑皮层也无法在现实世界中存活。在一个不确定的世界中,这种支持和自主权是一个比模式识别更难解决的问题。

http://airgomusic.com/tuxiangjihexue/439.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有