展会信息港展会大全

0.1 什么是神经网络
来源:互联网   发布日期:2011-09-02 15:52:33   浏览:19235次  

导读:《神经网络与机器学习(原书第3版)》本书是关于神经网络的全面的、彻底的、可读性很强的、最新的论述。全书共15章,主要内容包括Rosenblatt感知器、通过回归建...

第0章  导言

0.1  什么是神经网络

自从认识到人脑计算与传统的数字计算机相比是完全不同的方式开始,关于人工神经网络(一般称为“神经网络”(neural network))的研究工作就开始了。人脑是一个高度复杂的、非线性的和并行的计算机器(信息处理系统)。人脑能够组织它的组成成分,即神经元,以比今天已有的最快的计算机还要快许多倍的速度进行特定的计算(如模式识别、感知和发动机控制)。例如,考虑人类视觉,这是一个信息处理任务。视觉系统的功能是为我们提供一个关于周围环境的表示,并且更重要的是提供我们与环境交互(interact)所需的信息。具体来说,完成一个感知识别任务(例如识别一张被嵌入陌生场景的熟悉的脸)人脑大概需要100~200毫秒,而一台高效的计算机却要花费比人脑多很多的时间才能完成一个相对简单的任务。

再举一个例子:考虑一只蝙蝠的声呐。声呐就是一个活动回声定位系统。除了提供目标(例如飞行的昆虫)有多远的信息外,蝙蝠的声呐可以搜集目标的相对速度、目标大小、目标不同特征的大小以及它的方位角和仰角的信息。所有这些信息都从目标回声中提取,而所有需要的复杂神经计算只在李子般大小的脑中完成。事实上,一只回声定位的蝙蝠可以灵巧地以很高的成功率追逐和捕捉目标,这一点足以使雷达或声呐工程师们自叹弗如。

那么,人脑或蝙蝠的脑是如何做到这一点的呢?脑在出生的时候就有很复杂的构造和具有通过我们通常称为的“经验”来建立它自己规则的能力。确实,经验是经过时间积累的,人脑在出生后头两年内发生了非常大的进化(即硬接线),但是进化将超越这个阶段并继续进行。

一个“进化中”的神经系统是与可塑的大脑同义的。可塑性(plasticity)允许进化中的神经系统适应(adapt)其周边环境。可塑性似乎是人类大脑中作为信息处理单元的神经元功能的关键,同样,它在人工神经元组成的神经网络中亦是如此。最普通形式的神经网络,就是对人脑完成特定任务或感兴趣功能所采用的方法进行建模的机器。网络一般用电子元件实现或者用软件在数字计算机上模拟。在本书中,我们集中介绍一类重要的神经网络,这类网络通过学习过程来实现有用的计算。为了获得良好性能,神经网络使用一个很庞大的简单计算单元间的相互连接,这些简单计算单元称为“神经元”或者“处理单元”。据此我们给出将神经网络看作一种自适应机器的定义1:神经网络是由简单处理单元构成的大规模并行分布式处理器,天然地具有存储经验知识和使之可用的特性。神经网络在两个方面与大脑相似:

1.神经网络是通过学习过程从外界环境中获取知识的。

2.互连神经元的连接强度,即突触权值,用于存储获取的知识。用于完成学习过程的程序称为学习算法,其功能是以有序的方式改变网络的突触权值以获得想要的设计目标。

对突触权值的修改提供了神经网络设计的传统方法。这种方法和线性自适应滤波器理论很接近,而滤波器理论已经很好地建立起来并被成功地应用在很多领域(Widrow and Stearns,1985;Haykin,2002)。但是,受人脑的神经元会死亡以及新的突触连接会生长的事实所启发,神经网络修改它自身的拓扑结构也是可能的。

神经网络的优点

很明显,神经网络的计算能力可通过以下两点得到体现:第一,神经网络的大规模并行分布式结构;第二,神经网络的学习能力以及由此而来的泛化能力。泛化(generalization)是指神经网络对未在训练(学习)过程中遇到的数据可以得到合理的输出。这两种信息处理能力让神经网络可以找到一些当前难以处理的复杂(大规模)问题的好的近似解。但是在实践中,神经网络不能单独做出解答,它们需要被整合在一个协调一致的系统工程方法中。具体来说,一个复杂问题往往被分解成若干个相对简单的任务,而神经网络处理与其能力相符的子任务。但是,我们在建立一个可以模拟人脑的计算机结构(如果可能)之前还有很长的路要走,认识这一点是很重要的。

神经网络具有下列有用的性质和能力:

1.非线性(nonlinearity):人工神经元可以是线性或者非线性的。由非线性神经元互相连接而成的神经网络自身是非线性的,并且从某种特别意义上来说非线性是分布于整个网络中的。非线性是一个非常重要的特性,特别是当产生输入信号(如语音信号)的内部物理机制是天生非线性的时候。

2.输入输出映射(input-output mapping):称之为有教师学习(learning with a teacher)或监督学习(supervised learning)的关于学习的流行方法。它使用带标号的训练样例(training example)或任务样例(task example)对神经网络的突触权值进行修改。每个样例由一个唯一的输入信号(input signal)和相应的期望(目标)响应(desired(target)response)组成。从一个训练集中随机选取一个样例提供给网络,网络就调整它的突触权值(自由参数),以最小化期望响应和由输入信号以适当的统计准则产生的网络实际响应之间的差别。使用训练集中的很多样例来重复训练神经网络,直到网络达到对突触权值没有显著修正的稳定状态为止。先前已经使用过的训练样例可能还要在训练期间以不同顺序重复使用。因此对当前问题来说,神经网络是通过建立输入输出映射来从样例中学习的。这样的方法使人想起了非参数统计推断(nonparametric statistical inference)的研究,它是非模型估计统计处理的一个分支,或者从生物学角度看,称为白板学习(tabula rasa learning,Geman等,1992)。这里使用“非参数”这一术语表示的一个事实是,没有对输入数据的统计模型作任何先验假设。比如,考虑一个模式分类(pattern classification)任务,这里的要求是把代表具体物体或事件的输入信号分类到几个预先分好的类中去。关于这一问题的非参数方法中,要求利用样本集“估计”输入信号空间中模式分类任务的任意决策边界,并且不使用概率分布模型。而监督学习方法也隐含了类似的观点,这就提示在神经网络的输入输出映射和非参数统计推断之间存在相近的类比。

3.自适应性(adaptivity):神经网络具有调整自身突触权值以适应外界环境变化的固有能力。特别是,一个在特定运行环境下接受训练的神经网络,在环境条件变化不大的时候可以很容易地进行重新训练。而且,当它在一个不稳定(nonstationary)环境(即它的统计特性随时间变化)中运行时,可以设计神经网络使得其突触权值随时间实时变化。用于模式分类、信号处理和控制的神经网络与它的自适应能力相耦合,就可以变成能进行自适应模式分类、自适应信号处理和自适应控制的有效工具。作为一般规则,在保证系统保持稳定时,一个系统的自适应性越好,它被要求在一个不稳定环境下运行时其性能就越具鲁棒性。但是,需要强调的是,自适应性不一定总能导致鲁棒性,实际还可能导致相反结果。比如,一个短时常数自适应系统可能变化过快,以至于对干扰扰动有所反应,从而引起系统性能的急剧恶化。为了获得自适应性的最大好处,系统的主要时间常数应该长到可以忽略干扰扰动,却依然足够短以能反应环境的重要变化。这一问题通常被称为稳定性可塑性困境(Grossberg,1988)。

4.证据响应(evidential response):在模式分类问题中,神经网络可以设计成不仅提供选择哪一个特定模式的信息,还提供关于决策的置信度信息。后者可以用来拒判那些可能出现的过于模糊的模式,从而进一步改善网络的分类性能。

5.上下文信息(contextual information):神经网络的特定结构和激发状态代表知识。网络中每一个神经元都受网络中所有其他神经元全局活动的潜在影响。因此,神经网络将很自然地能够处理上下文信息。

6.容错性(fault tolerance):一个以硬件形式实现的神经网络具有天生的容错性,或者说具有鲁棒计算的能力,在这种意义上其性能在不利的运行条件下是逐渐下降的。比如,一个神经元或它的连接损坏了,存储模式的记忆性在质量上会被削弱。但是,由于网络信息存储的分布特性,在网络的总体响应严重恶化之前这种损坏是分散的。因此,原则上,神经网络从性能上显示了一个缓慢恶化的过程而不是灾难性的失败。有一些关于鲁棒性计算的经验证据,但通常它是不可控的。为了确保网络事实上的容错性,有必要在设计训练网络的算法时采用正确的度量(Kerlirzin and Vallet,1993)。

7.VLSI实现(VLSI implementability):神经网络的大规模并行性使它具有快速处理某些任务的潜在能力。这一特性使得神经网络很适合使用超大规模集成(very-large-scale-integrated,VLSI)技术来实现。VLSI的一个特殊优点是可以提供一个以高度分层的方式来捕捉真实复杂行为的方法(Mead,1989)。

8.分析和设计的一致性:基本上,神经网络作为信息处理器具有通用性。我们这样说是因为涉及神经网络应用的所有领域都使用同样的记号。这一特征以不同的方式表现出来:

神经元,不管形式如何,在所有的神经网络中都代表一种相同成分。

这种共性使得在不同应用中的神经网络共享相同的理论和学习算法成为可能。

模块化网络可以用模块的无缝集成来实现。

9.神经生物类比:神经网络的设计是由与人脑的类比引发的,人脑是一个容错的并行处理的实例,说明这种处理不仅在物理上是可实现的,而且还是快速、高效的。神经生物学家将(人工)神经网络看作是一个解释神经生物现象的研究工具。另一方面,工程师对神经生物学的关注在于将其作为解决复杂问题的新思路,这些问题比基于常规的硬件线路设计技术所能解决的问题更复杂。下面两个例子说明了这两种观点:

在Anastasio(1993)中,将前庭视觉反射(vestibulo-ocular reflex,VOR)的线性系统模型和基于在0.6节描述及第15章中详细讲述的递归网络的神经网络模型进行了比较。前庭视觉反射是眼球运动系统的一部分,其作用是让眼球向与头转动方向相反的方向运动,以维持视觉(视网膜)图像的稳定性。VOR由前庭核酸的前端神经元调节,前端神经元从前庭感知神经元中接受头部旋转信息并加以处理,将结果告知眼球肌肉的动作神经元。输入(头部旋转信息)和输出(眼球旋转)可以精确确定,因此VOR很适合建模。另外,它是比较简单的反射作用,并且其组成神经元的神经生理学的内容已经被很好地阐述过了。在三种神经类型中,前端神经元(反射内层神经元)在前庭核酸中是最复杂、也是最引人注意的。VOR以前已经用集块线性系统描述器和控制理论模型化了。这些模型对解释VOR的整体性质有一些作用,但是对了解其组成神经元特性却用处不大。这种情况通过建模神经网络已经被大大改善了。VOR的递归网络模型(使用第15章描述的实时递归学习算法设计)能通过调节VOR的神经元(特别是前庭核酸神经元)重现和解释处理信号时的静态、动态、非线性和分布式等多方面特性。

视网膜不同于人脑的其他任何部分,是我们开始将外部环境的物理图像投射到一行接收器上形成的视觉表示和第一个神经图像相结合的地方。它是眼球后部的神经组织薄层,其功能是将光学图像转换成神经图像并沿光神经传输给大量的视觉中枢以便进一步处理。这是一个复杂的工作,可以从视网膜的突触组织得到证明。在脊椎动物的视网膜中,光图像转化成神经图像的过程由三个阶段组成(Sterling,1990)。

1)受体神经元层的图像传导。

2)结果信号(产生于对光刺激的反应)由化学性突触传输给一层双极细胞。

3)同样,由化学性突触把结果信号传给神经节细胞的输出神经元。

在两个突触阶段(即从受体到双极细胞和从双极细胞到神经节细胞),有专门侧向连接的神经元,分别称为水平细胞的神经元和无长突细胞的神经元。这些神经元的工作是修改突触层之间的传输。另外还有称为中间网状细胞的离心元素,它们的工作是将信号从内部突触层传到外部突触层。一些研究人员已经建立了模拟视网膜结构的电子芯片。这些电子芯片称为神经形态(neuromorphic)集成电路,这个术语由Mead(1989)所创造。神经形态的图像传感器是由一排感光器与每个图形元素(像素)的模拟回路结合而成的。它能模拟视网膜适应局部的亮度变化、检测边缘以及检测运动。神经生物学模拟(例如神经形态集成电路)有另一个重要的应用:它提供了一种希望和信念,并在一定程度上提供一种存在性证明,即对神经生物结构的物理上的了解对电子学工艺和超大规模集成电路技术有多方面的影响。


赞助本站

人工智能实验室
AiLab云推荐
展开

热门栏目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能实验室 版权所有    关于我们 | 联系我们 | 广告服务 | 公司动态 | 免责声明 | 隐私条款 | 工作机会 | 展会港