文档库 最新最全的文档下载
当前位置:文档库 › ELM-Chinese-Brief

ELM-Chinese-Brief

ELM-Chinese-Brief
ELM-Chinese-Brief

什么是超限学习机1

Guang‐Bin Huang

School of Electrical and Electronic Engineering, Nanyang Technological University, Singapore

egbhuang@https://www.wendangku.net/doc/e68483828.html,.sg

1.摘要

近年来,超限学习机(Extreme Learning Machine, ELM)作为一种新兴的机器学习方法,在全世界许多研究者的不断研究下,已经成为了一个热门研究方向。超限学习机主要有以下四个特点。(1)超限学习理论探讨了一个60年来在神经网络、机器学习和神经科学领域悬而未决的问题:在学习过程中隐层节点/神经元是否需要调整。与常识和传统神经网络不同,该理论证明,对于大多数神经网络和学习算法(如隐层激活为函数傅里叶级数,生物学习等),隐层节点/神经元不需要迭代式的调整,而早期工作并没有提供随机隐层节点前馈神经网络的理论基础。(2)超限学习机既属于通用单隐层前馈网络,又属于多隐层前馈网络(包括生物神经网络)。(3)超限学习机的相同构架可用作特征学习,聚类,回归和(二类/多类)分类问题。(4)相比于超限学习机,支持向量机(SVM)和最小二乘支持向量机(LS‐SVM)趋向于得到次优解。支持向量机和最小二乘支持向量机也没考虑多层前馈网络中隐层的特征表征。

2.介绍

正如Huang等[6]指出:“一般来讲,‘超限’指超过传统人工学习方法的局限,并向类脑学习靠拢。超限学习机的提出,是为了打破传统人工学习方法和生物学习机制之间的屏障。‘超限学习机’基于神经网络泛化理论,控制理论,矩阵理论和线性系统理论,代表了一整套不需要调整隐层神经元的机器学习理论。”

为了更清楚的理解其本质,我们从其哲学观,理论,网络结构,网络神经元类型,学习目标和算法等角度分析超限学习机。

3. 超限学习机的信念、哲学观和目标

超限学习机的研究开始于我们对生物学习和神经网络泛化理论[14]的直观思考。进一步来讲,超限学习机发展的基础是Frank Rsenblatt的多层“感知机”[9],支持向量机[15],最小二乘支持向量机[16],傅里叶级数,线性系统,数值方法和矩阵理论等,以及必要的衍生。

1 Hao‐Qi Sun摘要翻译自G.‐B. Huang, “What are Extreme Learning Machines? Filling the Gap between Frank Rosenblatt's Dream and John von Neumann's Puzzle,”Cognitive Computation, vol. 7, pp. 263‐278, 2015.

Frank Rosenblatt[9]相信多层前馈网络(感知机)可以让电脑“走路、说话、看东西、写东西、繁衍自己并拥有自我存在的意识”。Minsky和Papert[17]不相信感知机有

这样的学习能力,因为没有隐层的感知机甚至无法学习简单的抑或问题。类似这样的

反例让许多研究者对人工神经网络望而却步,并导致了1970年代的“人工智能之冬”。根据我们的理解,Rosenblatt的梦想和Minsky的反例之间蕴含着一个值得深思的道理。Rosenblatt并不能在神经网络研究之初给出一个高效的学习算法。Minsky和Papert[17]

使用的是被认为是两层感知机的,有输入输出层但没有隐层的前馈网络。但是实际上,一个有输入输出层但没有隐层的前馈网络就好像一个“大脑”,它有输入层(眼睛,

鼻子等)和输出层(肌肉等),却没有“中枢神经元结构”。很明显,这样的“大脑”是一个没有任何“学习和认知”能力的空壳。尽管如此,Rosenblatt和Minsky的矛盾

也告诉我们一个道理,人工智能和机器学习界的一小步,也许需要一代或几代人的很

多努力。他们的专业讨论也可以间接地激发人工神经网络领域的研究。

所以在1980年代,在隐层的地位被重视后,神经网络毫无疑问地重现辉煌。但是

与此同时,神经网络研究面临一个很直接的问题,那就是既然隐层是学习的一个不可

或缺的重要条件,研究者自然而然地认为所有网络的隐层神经元都需要不断调整。所

以从1980年代开始,成千上万来自世界各地的研究者努力地通过调整隐层来寻找通用的、可训练不同类型神经网络的学习算法。这种“令人迷惑”的情况使我们不得不早

在1995年就严肃地提出了一些问题[18]:

1)我们真的需要花费这么多人力物力来寻找这种需要人工调整隐层参数的学习算法,

并应用于不同的神经网络中吗?很明显,在生物大脑中没有调整参数的“小精灵”。

2)我们真的需要不同的学习算法来使不同类型的神经网络可以有特征学习,聚类,回

归和分类能力吗?

3)为什么生物大脑比那些集成人工学习算法的机器/电脑更加“高效”和“智能”?

4)我们是否能解决John von Neumann的困惑[19,20]:为什么“一个不完美的神经网

络,它包含很多随机连接,却能稳定的执行那些需要有完美电路才能执行的功能”?

在2003年以前,人们做了很多努力,但以上问题并没有解决。最终,我们发现问

题的关键“死结”在于:

1)Minsky和Papert[17]的反例说明隐层是必要的。

2)早期的神经网络万能逼近理论(例如[21,22])也建立在学习过程中隐层神经元必须

不断调整的假设之上。

3)所以,自然可知,人工神经网络中的隐层神经元需要不断调整。

为了解决以上的问题,我们必须解决这些关键“死结”,即对于大多数类型的神

经网络(人工神经网络或人们未知其结构和神经模型的生物神经网络),隐层神经元

很重要,但无需调整。

我们在机器学习和生物学习领域中的这种信念和哲学观最终使我们提出一种新方法,称为超限学习机(ELMs)及其相关理论。正如Huang等[6]强调,“超限”指超过

传统人工学习方法的局限,并向类脑学习靠拢。超限学习机是为了打破传统人工学习

方法和生物学习机制之间的屏障。超限学习机代表一整套机器学习方法(包括单隐层

前馈网络和多隐层前馈网络),它们不需要调整隐层神经元,同时符合神经网络泛化

理论,控制理论,矩阵理论和线性系统理论。随机地生成隐层节点是“不需要调整隐层神经元”的其中一种常用方法;与此同时,也有很多其他方法,例如核方法[6,23],奇异值分解(SVD)和局部感受域[8]。我们相信超限学习机反映了某些生物学习机制的实际情况。它的机器学习效能在2004年被确认[24],它的万能逼近性(对于“通用单隐层前馈网络”,其隐层节点可以是由一些节点构成的子网络,并/或拥有基本上任何类型的非线性分段连续激活函数的神经元(确切数学模型/公式/形状未知))在2006到2008年[5,25,26]被非常严格地证明。它的实际生物证据在2011到2013年 [27‐30] 接着出现。

超限学习机不仅面向“通用” 单隐层前馈网络,它还面向“通用” 多隐层前馈网络,其中一个节点可以是由其它隐层节点组成的子网络[5,8,26]。单隐层超限学习机也包括大多数类型的神经网络,包括sigmoid网络和径向基函数(RBF)网络(细节请参见“‘通用’单隐层前馈网络(SLFNs)”章节)。

数据压缩、特征学习、聚类、回归和分类是机器学习和机器智能的基础。超限学习机的目标是在相同超限学习机架构中实现这五种基本学习操作(参见图1)。

图1 超限学习机的基础操作和角色。感谢匿名网络设计师提供此机器人图片。

4.超限学习机理论

尽管在1950到1990年代,人们进行了一些随机sigmoid隐层神经元和/或径向基函数神经元的尝试,除了RVFL[34]以外,这些尝试并没有真正的成功和普及应用。原因如下:

1)常识认为许多种神经网络的隐层节点需要调整。

2)除了RVFL外没有理论分析。

3)除Rosenblatt感知机外,缺乏向生物学习靠拢的强力动机。

超限学习理论成功地探讨了这个具有挑战性的问题“对于各种拥有不同节点/神经元(大部分非线性分段连续激活函数)的神经网络(包括生物神经网络),它们是否可以随机生成。”尽管超限学习机既面向“通用” 单隐层前馈网络,又面向“通用” 多隐层前馈网络,它的理论在过去十年里主要集中在SLFN的探讨上。

5.万能逼近能力

严格来讲,没有一种早期工作(比如Baum[31],Schmidt等[1]和RVFL[2,32])在理论上解释了随机隐层节点能否用于sigmoid或径向基函数网络上,自然就不包括由超限学习理论覆盖的广泛神经网络类型。Lowe[35]的径向基函数网络并没有包括随机影响因子,尽管其径向基函数节点的中心是随机产生的。人们还是需要根据不同应用来调整其影响因子。换言之,这些网络[35]使用的是半随机的径向基函数节点。其详细分析请参见Huang[3]。

Baum[31]和Schmidt等[1]仅注重使用特定网络结构来处理经验性的、人工合成的小型数据(可看作超限学习机的特例)。据我们所知,这些早期工作并没有理论分析和严格理论证明。尽管简单地讲,Igelnik和Pao[32]在[4,8]中尝试证明了RVFL的万能逼近能力。但是,其证明仅适用于使用半随机sigmoid和径向基函数隐层节点的情况,即输入权值a i是随机生成的,而隐层节点偏移b i是根据训练样本x i和输入权值a i来计算得到(详情请参见Huang等[4])。

对比之下,超限学习机理论揭示了绝大多数使用非线性分段连续激活函数(包括前期工作用到的sigmoid函数和径向基函数,也包括小波函数,傅里叶级数和生物神经元)的隐层节点都可用于超限学习机,并且该网络有万能逼近能力[5,25,26]。不同于RVFL证明 [32] 中用到的半随机sigmoid和径向基函数节点,超限学习理论中的随机节点是指所有的隐层节点都是随机生成,且与训练样本独立,例如对可加性的隐层节点,输入权值a i和偏移b i都随机产生,对径向基函数网络,中心a i和影响因子b i都随机产生,傅里叶级数和小波函数中的参数随机产生等。超限学习理论第一次揭示了在各种类型的神经网络中,也包括在生物学习机制中,所以隐层节点/神经元的生成可以独立于训练样本,也可以独立于其他节点[5,6,25,26]。

定义 [5,25,26] 给定一个隐层映射h(x) = [h1(x), …, h L(x)],如果所有的隐层节点参数都是根据一个任意连续的抽样分布生成的,那么该映射被称为超限学习随机特征映射。其中,h i(x) = G i(a i,b i,x), i=1,…,L(L是隐层神经元数)。

不同的隐层节点允许有不同的激活函数G i。在大多数应用中,为了简单起见,对所有隐层节点使用相同的激活函数,即对于所有i, j=1,…L,G i=G j。

定理1 (万能逼近能力[5,25,26])给定任何非常数分段连续函数作为激活函数,

就可若调整隐层参数可让单层前馈网络逼近任何连续的目标函数f(x),那么

以根据任何连续的概率分布生成,并且可以找到合适的输出权值 使

lim → ∑

0以概率1的可能性成立。

6.分类能力

另外,超限学习理论还证明了拥有随机隐层神经元的各类型网络的分类能力。这种理论并没有被早期的工作研究。

定理2 (分类能力[23])给定任何非常数分段连续函数作为激活函数,若调整隐层参数可让单层前馈网络逼近任何连续的目标函数f(x),那么这个拥有随机隐层映射h(x)的单层前馈网络可以分割具有任何形状的不连通区域。

7.单隐层前馈网络和多隐层前馈网络

在没有完全解决单隐层问题时在超限学习机中直接引入多隐层结构会比较困难。所以在过去的十年中,大多数的超限学习机研究都注重“通用”单隐层前馈网络(SLFNs)。

7.1 “广义”单隐层前馈网络(SLFNs)

Schmidt等[1]的研究注重sigmoid网络,而Pao等[32]的研究侧重RVFL(使用simoid或径向基函数)。这两者都使用严格的标准单隐层结构,所以不是超限学习机中研究的“通用”单隐层前馈网络(SLFNs)。Schmidt等[1]提出的随机权值前馈网络类似支持向量机[15],在隐层有一个偏移量来吸收其系统误差。这是由于其在随机sigmoid节点情况下的万能逼近性并没有被证明。

?

其中,

。QuickNet和RVFL还有输入节点和输出节点的直接连接:

, ,

?

而超限学习机提出的是“通用”单隐层前馈网络及其数学展开(甚至可以不是传统的神经网络,例如小波函数和傅里叶级数):

, ,

(a)

(b)

(c)

图2 超限学习机理论[5,25,26] 表明各种类型的隐层节点都可使用,且形成的网络不一定是单隐层前馈网络。在超限学习理论中,“通用单层前馈网络”指允许存在由一些节点组成的子网络。(a) 超限学习机中全连接的隐层节点。(b) 超限学习机中随机连接/局部连接的隐层节点。(c) 超限学习机中由一些节点组成的组合节点。

基本的超限学习机提出了并不像早期工作中全连接的通用单层前馈网络。其中有三个层次的随机性(详情请参见图2):

1)全连接,其中隐层节点参数随机生成。

2)随机连接,不一定所有的输入节点都连接到某个隐层节点,而是在某个局部感受域

的输入连接到某个隐层节点。

3)一个隐层节点自己可以是一个由几个节点组成的子网络,这些节点自然形成了局部

感受域和pooling功能,所以可以学习局部特征。在这种情况下,单层超限学习机的一些局部部分可以包含多隐层。

提示:和Schmidt等[1]和Pao等[32]中每个节点只是一个sigmoid或径向基函数节

点的情况不同,超限学习机中的每个隐层节点可以是由其它节点组成的子网络,并能

又该子网络来高效实现特征学习。(详情请参见参见Huang等[8],图2和图3)。

(a)

(b)

图3 超限学习理论[5,25,26]表明各种类型的隐层节点都可用在每个超限学习层(超限学习特征映射)中,

而其中每个隐层节点可以是多个节点组成的子网络。(a) 全连接随机隐层节点下的超限学习层/特征映射。(b) 基于子网络的超限学习层/特征映射。

根据超限学习理论[5,25,26],超限学习机单层前馈网络包括,但不局限于以下类型:

1)sigmoid网络

2)径向基函数网络

3)阈值网络[36]

4)三角函数网络

5)模糊推理系统

6)完全复数神经网络[37]

7)高阶网络

8)岭多项式网络

9)小波网络

10)傅里叶级数[5,6,25,26]

11)生物神经元,其模型或激活函数可未知

(a)

(b)

图4 比较多层超限学习机和深度学习:每个超限学习层组成一个隐层,而有些沉重的节点可以是一个子网

络。和深度学习的概念不同,超限学习机(单层和多层结构)侧重于不需要调整隐层神经元的学习。(a)

超限学习机:整个网路构成一个大的单层超限学习机,且每层都可由一个超限学习机学习。每一层都由特

征表征,且训练不需调整隐层(如[8,38,39])。(b) 深度学习:特征表征由隐层给出,其中隐层神经元需要

迭代式的调整,而且这种调整也发生在整个网络上。

7.2 多隐层前馈网络

尽管如此,和Schmidt等[1]和RVFL[32]只能应用在单隐层前馈网络不同,超限学

习机的终极信条是:各种类型的多隐层网络中的隐层节点不需要调整(如[8,38,39,43])

(见图4)。尽管多层超限学习机的概念在2007年 [26] 就已给出,直到最近并没有得到使用(如 [8, 38, 39, 43] )。其精髓是:

1)Rosenblatt曾将一个训练好的老鼠的脑提取物注射到没训练的老鼠中,以期望将其

学会的行为转移到另一只老鼠身上。然而这没有考虑不同层的神经元有不同功能这一点2。和Rosenblatt感知机概念不同,我们认为若所有层次都是随机生成是不可能的。若一个多层网络中所有的层都是随机生成的,那么有用的信息也许不能传播两层或更多层以上。尽管如此,每一层都可以使用基本的超限学习机,且隐层神经元不需一层一层的调整。而且不同的层可以有不同的目标(例如超限学习机的五个基本操作:压缩、特征学习、聚类、回归和分类)。

2)隐层节点不需调整有两点意义:

a)隐层节点可以随机生成。

b)隐层节点也可以不以随机生成的方式产生,且仍然不需要调整。比如,下

一层的随机节点可以是上层的线性和或其某些节点的非线性变换。在这种

情况下,有些节点是随机生成的,而有些不是,但它们都不需要调整[8]。 3)每个单层超限学习机可以做压缩、特征学习、聚类、回归或分类。所以,超限学习

机可以按层次构建,例如一层做特征学习而下一层做分类。在这种情况下,我们得到了一个两隐层的超限学习机。就总体来说,它并不是随机生成的,它是有序的,但是每层中的节点都不需调整(比如随机生成或直接给出/计算得到,见图4a)。 4)做特征学习或聚类的超限学习层可以用来连接不同的学习模型。或作为整个网络,

其中一些层可由超限学习机来训练,而另外的层用其他模型来训练。

8.超限学习机,深度学习和支持向量机/最小二乘支持向量机的联系和区别

超限学习机与深度学习不同,因为整个超限学习机的隐层神经元不需要调整。由于超限学习机可用作特征学习和聚类,超限学习机可用在一个多层网络中作为最后的一层分类,而前面的层可由其他学习模型训练,比如深度学习(见图5)。

支持向量机起初是Cortes和Vapnik[15]为了应对多层前馈网络而提出,他们假设没有一种算法可以用来训练多层网络。我们把其对于最后一层隐层的输出函数叫做?(x) 。

1)与超限学习机和深度学习在每一层都做特征表征不同,支持向量机和最小二乘支持

向量机并不考虑在每一个内部隐层的特征表征作用(见图6)。

2)支持向量机和最小二乘支持向量机可看成单隐层网络,其隐层输出函数为?(x)。在

这种情况下,超限学习机和支持向量机/最小二乘支持向量机都是单层结构。但是,超限学习机有显式的隐层映射h(x)(对特征表征很方便),而支持向量机/最小二乘支持向量机的隐层映射?(x)是隐式的(对特征表征不方便)。

2 https://www.wendangku.net/doc/e68483828.html,/wiki/Frank-Rosenblatt

超限学习机可使用岭回归优化技术来做特征学习、聚类、回归和分类。而支持向量机/

最小二乘支持向量机主要用来基于边界最大化的二类分类。用支持向量机/最小二乘支

持向量机来做特征表征很难,因为其映射?(x)是未知的(详细比较请参见Huang等[6,23]上为什么用支持向量机和最小二乘支持向量机一般来讲是次优解的原因)。

(a)

(b)

图5 超限学习层与不同学习模型的结合:每个超限学习层可以作为一个基本学习单元加入到其他学习模型

中(比如[40‐44])。(a) 其他学习模型在不同超限学习层之间工作。(b) 超限学习层在不同学习模型之间工

作。

8.隐层神经元类型

和Schmidt等[1]和Pao等[32]只能使用sigmoid或径向基函数作为节点不同,超限

学习机对各种神经节点,以及非神经类型节点都有效。超限学习机对核学习也很有效[6,23]。

图6 超限学习机、支持向量机/最小二乘支持向量机和深度学习的关系和比较:与超限学习机和深度学习不同,(1)支持向量机/最小二乘支持向量机作为多层网络并不重视隐层中的特征表征;(2)支持向量机/最小二乘支持向量机在其原本的公式中只能直接处理二类分类问题。

9.1 实数域

由于超限学习机对各种非线性分段连续函数G(a,b,x)都有万能逼近能力,它在输出层不需要任何偏移。在超限学习理论中常用的一些激活函数有:

1)Sigmoid函数:

, , 1

2)傅里叶函数[25,46]:

, , sin ? 3)硬限幅函数[25,36]:

, , 1, if ? 0 0, otherwise

4)高斯函数[23,25]:

, , exp ‖ ‖ 5)多二次函数[23,25]:

, , ‖ ‖ / 6)小波函数[47,48]:

, , ‖ ‖ / Ψ

其中Ψ是一个小波基函数。

注释:由于一般非线性分段连续激活函数所具有的万能逼近性和分类能力,超限学习机中可以使用不同类型的隐层神经元组合。

9.2 复数域

根据Li 等[4,37],超限学习机中的随机隐层节点可以是由Kim 和Adali[50]提出的复数隐层节点,由其组成的超限学习机在复数域也有万能逼近能力。超限学习机复数隐层节点包括,但不局限于:

1) 圆函数:

tan

sin 2

2) 反圆函数:

arctan 1

arccos 3) 双曲线函数:

tanh

sinh 2

4) 反双曲线函数:

arctanh z

arcsinh z 1 /

10. 正则化网络和泛化能力

与大多数1980年代到1990年代提出的传统学习算法类似,Schmidt 等[1]和Pao 等[32]仅注重最小化训练误差,他们并不能称为正则化网络。

不同的是,人们受1998年[14]提出的,比Schmidt 等[1]和Pao 等[2]后发表的神经网络泛化性能理论启发,超限学习理论最小化训练误差,同时也要最小化输出权值的模[24,53](在这种情况下,一般来讲,超限学习机是一种正则化神经网络,但其隐层映射是不需要调整的(通过随机隐层节点、核或其他实现)):

: ‖ ‖ ‖ ‖

其中 0, 0, , 0,

,1,2,…, ∞。不同的‖ ‖ 和‖ ‖ 组合可以产生不同的学习算法,例如特征学习和聚类[7]。 是超限学习机隐层输出矩阵(随机矩阵):

?

, , ? , ,

???

, , ? , ,

而 是训练数据目标矩阵:

?

?

???

?

我们可以线性地变换超限学习机,从而得到很多(但不是全部)形式,如采用sigmoid网络加上偏移b(Schmidt等[1]),加上从输入层到输出层的直接连接(包括但不局限于QuickNet[54]和RVFL[2]);但相比原来的超限学习机它们得到的是次优解。它们的解我们可以分别称之为ELM+b和ELM+αx(详情请参见Huang等[6,23])。

对于RVFL,其隐层输出矩阵是:

, , , ? , , , ???? , , , ? , , ,

,

其中 , 是使用sigmoid或径向基函数的超限学习机隐层输出矩阵,而 是一个 的矩阵,其第i行是第i个输入样本。

像传统神经网络一样,若将输出偏移作为一个偏移神经元,那么Schmidt等[1]的隐层输出矩阵是

? ? ? 1?1??????

? ? ? 1?1

,

其中 , 是使用sigmoid函数的超限学习机隐层输出矩阵, 是一个都是常数1的 的矩阵。尽管Schmidt等[1]中的偏移b看起来像是个简单的参数,但是,从数学和机器学习角度来看,它是一个可以引起显著差异的参数。它的重要性已引起研究者的注意[6,55,56]。实际上,支持向量机和最小二乘支持向量机在最近二十年很难应用到多类分类问题上的一个主要原因,就是输出节点的偏移b。没有输出节点偏移b,支持向量机和最小二乘支持向量机的解将会很容易[6,23]。

11.闭合解和非闭合解

在很多情况下,超限学习机的闭合解可以在 2时可以得到。但是就算 2成立,我们仍可采用非闭合解[5,13,25,26,57]。而当 、 、 和 取其他值时,特别是超限学习机用于压缩、特征学习和聚类[5,7,25,26,58‐60]时,我们采用非闭合解。实际上,超限学习机万能逼近能力的证明采用的就是非闭合解的形式[5,25,26]。

12.总结

距离Frank Rosenblatt[9]梦想自己的感知机可以让电脑“走路、说话、看东西、写东西、繁衍自己并拥有自我存在的意识”已经约60年了。在神经网络的刚开始阶段,由于缺乏有效的学习算法和理论支持,很多研究者很难相信他伟大的梦想。另一方面,John von Neumann[19,20]对于为什么“一个不完美的神经网络,它包含很多随机连接,却能稳定的执行那些需要有完美电路才能执行的功能”[9]感到疑惑。超限学习理论及其框架或许可以填补Frank Rosenblatt的梦想与John von Neumann的困惑之间的空白:

图7 超限学习机的基本要素

1)超限学习机可用于训练广泛类型的多隐层前馈网络:每个隐层可以用一个单层超限

学习机来训练,可用来特征学习、聚类、回归或分类。而整个网络可以被看成是一个不用调整隐层节点的单层超限学习机(详细总结请参见图7)。

2)超限学习层可以“插入”到多隐层前馈网络的许多局部区域,或和其他学习架构/

模型一起工作。

3)在超限学习层(“通用”单层前馈网络)里的每个隐层节点都可以是由一些节点组

成的子网络;因此可以形成局部感受域。

4)在每个隐层,从输入层到隐层节点的连接可以是全连接,或是根据不同连续概率分

布产生的随机部分连接。若该网络的有限数量的隐层节点及其连接变化了,该网络的能力仍能保持稳定。

所以从超限学习理论的观点上大体地讲,整个多层网络是有结构的、有序的,尽管它在某些层上看起来“混乱”和“无结构”。网络中的“硬布线”可以随机地在局部生成,其形式既可以是全连接,又可以是部分连接。这种整体结构化局部随机化的两方面共存,使得网络拥有了压缩、特征学习、聚类、回归和分类这五种基本学习能力。这也许能解决John von Neumann的困惑。另一方面,生物学习机制错综复杂,但我们相信“不需调整隐层节点的学习”是生物学习机制中重要的一部分。再有,随机隐层神经元和“随机连接”仅是“不需调整隐层节点的学习”的两种特定实现形式。

参考文献

[1] W. F. Schmidt, M. A. Kraaijveld, and R. P. W. Duin, “Feed forward neural networks with random weights,” in Proceedings of 11th IAPR International Conference on Pattern Recognition Methodology and Systems, (Hague, Netherlands), pp. 1–4, 1992.

[2] Y.‐H. Pao, G.‐H. Park, and D. J. Sobajic, “Learning and generalization characteristics of the random vector functional‐link net,” Neurocomputing, vol. 6, pp. 163–180, 1994.

[3] G.‐B. Huang, “Reply to “comments on ‘the extreme learning machine’ ”,” IEEE Transactions on Neural Networks, vol. 19, no. 8, pp. 1495–1496, 2008.

[4] G.‐B. Huang, M.‐B. Li, L. Chen, and C.‐K. Siew, “Incremental extreme learning machine with fully complex hidden nodes,” Neurocomputing, vol. 71, pp. 576–583, 2008.

[5] G.‐B. Huang and L. Chen, “Enhanced random search based incremental extreme learning machine,” Neurocomputing, vol. 71, pp. 3460–3468, 2008.

[6] G.‐B. Huang, “An insight into extreme learning machines: Random neurons, random features and kernels,” Cognitive Computation, vol. 6, no. 3, pp. 376–390, 2014.

[7] G. Huang, S. Song, J. N. D. Gupta, and C. Wu, “Semi‐supervised and unsupervised extreme learning machines,” IEEE Transactions on Cybernetics, vol. 44, no. 12, pp. 2405–2417, 2014.

[8] G.‐B. Huang, Z. Bai, L. L. C. Kasun, and C. M. Vong, “Local receptive fields based extreme learning machine,” IEEE Computational Intelligence Magazine, vol. 10, no. 2, pp. 18–29, 2015.

[9] F. Rosenblatt, “The perceptron: A probabilistic model for information storage and organization in the brain,” Psychological Review, vol. 65, no. 6, pp. 386–408, 1958.

[10] A. Rahimi and B. Recht, “Random features for large‐scale kernel machines,” in Proceedings of the 2007 Neural Information Processing Systems (NIPS2007), pp. 1177–1184, 3‐6 Dec, 2007.

[11] Q. Le, T. Sarl?s, and A. Smola, “Fastfood approximating kernel expansions in loglinear time,” in Proceedings of the 30th International Conference on Machine Learning, (Atlanta, USA), 16‐21 June 2013.

[12] P.‐S. Huang, L. Deng, M. Hasegawa‐Johnson, and X. He, “Random features for kernel deep convex network,” in Proceedings of The 38th International Conference on Acoustics, Speech, and Signal Processing (ICASSP 2013), (Vancouver, Canada), 26‐31 May 2013.

[13] B. Widrow, A. Greenblatt, Y. Kim, and D. Park, “The no‐prop algorithm: A new learning algorithm for multilayer neural networks,” Neural Networks, vol. 37, pp. 182–188, 2013.

[14] P. L. Bartlett, “The sample complexity of pattern classification with neural networks: The size of the weights is more important than the size of the network,” IEEE Transactions on Information Theory, vol. 44, no. 2, pp. 525–536, 1998.

[15] C. Cortes and V. Vapnik, “Support vector networks,” Machine Learning, vol. 20, no. 3, pp. 273–297, 1995.

[16] J. A. K. Suykens and J. Vandewalle, “Least squares support vector machine classifiers,” Neural Processing Letters, vol. 9, no. 3, pp. 293–300, 1999.

[17] M. Minski and S. Papert, “Perceptrons: An introduction to computational geometry,” MIT Press, 1969.

[18] G.‐B. Huang, “Learning capability of neural networks,” (Ph.D. thesis, Nanyang Technological University, Singapore), 1998.

[19] J. von Neumann, “Probabilistic logics and the synthesis of reliable organisms from unreliable components,” in Automata studies (C. E. Shannon and J. McCarthy, eds.), pp. 43–98, Princeton: Princeton University Press, 1956.

[20] J. von Neumann, “The general and logical theory of automata,” in Cerebral mechanisms in behavior (L. A. Jeffress, ed.), pp. 1–41, New York: Wiley, 1951.

[21] J. Park and I. W. Sandberg, “Universal approximation using radial‐basis function networks,” Neural Computation, vol. 3, pp. 246–257, 1991.

[22] M. Leshno, V. Y. Lin, A. Pinkus, and S. Schocken, “Multilayer feedforward networks with

a nonpolynomial activation function can approximate any function,” Neural Networks, vol. 6, pp. 861–867, 1993.

[23] G.‐B. Huang, H. Zhou, X. Ding, and R. Zhang, “Extreme learning machine for regression and multiclass classification,” IEEE Transactions on Systems, Man and Cybernetics ‐ Part B, vol. 42, no. 2, pp. 513–529, 2012.

[24] G.‐B. Huang, Q.‐Y. Zhu, and C.‐K. Siew, “Extreme learning machine: A new learning scheme of feedforward neural networks,” in Proceedings of International Joint Conference on Neural Networks (IJCNN2004), vol. 2, (Budapest, Hungary), pp. 985–990, 25‐29 July, 2004.

[25] G.‐B. Huang, L. Chen, and C.‐K. Siew, “Universal approximation using incremental constructive feedforward networks with random hidden nodes,” IEEE Transactions on Neural Networks, vol. 17, no. 4, pp. 879–892, 2006.

[26] G.‐B. Huang and L. Chen, “Convex incremental extreme learning machine,” Neurocomputing, vol. 70, pp. 3056–3062, 2007.

[27] D. L. Sosulski, M. L. Bloom, T. Cutforth, R. Axel, and S. R. Datta, “Distinct representations of olfactory information in different cortical centres,” Nature, vol. 472, pp. 213–216, 2011.

[28] C. Eliasmith, T. C. Stewart, X. Choo, T. Bekolay, T. DeWolf, Y. Tang, and D. Rasmussen, “A large‐scale model of the functioning brain,” Science, vol. 338, pp. 1202–1205, 2012.

[29] O. Barak, M. Rigotti, and S. Fusi, “The sparseness of mixed selectivity neurons controls the generalizationcdiscrimination trade‐off,” The Journal of Neuroscience, vol. 33, no. 9, pp. 3844–3856, 2013.

[30] M. Rigotti, O. Barak, M. R. Warden, X.‐J. Wang, N. D. Daw, E. K. Miller, and S. Fusi, “The importance of mixed selectivity in complex cognitive tasks,” Nature, vol. 497, pp. 585–590, 2013.

[31] E. Baum, “On the capabilities of multilayer perceptrons,” Journal of Complexity, vol. 4, pp. 193–215, 1988.

[32] B. Igelnik and Y.‐H. Pao, “Stochastic choice of basis functions in adaptive function approximation and the functional‐link net,” IEEE Transactions on Neural Networks, vol. 6, no. 6, pp. 1320–1329, 1995.

[33] S. Tamura and M. Tateishi, “Capabilities of a four‐layered feedforward neural network: Four layers versus three,” IEEE Transactions on Neural Networks, vol. 8, no. 2, pp. 251–255, 1997.

[34] J. Principle and B. Chen, “Universal approximation with convex optimization: Gimmick or reality?,” IEEE Computational Intelligence Magazine, vol. 10, no. 2, pp. 68–77, 2015.

[35] D. Lowe, “Adaptive radial basis function nonlinearities and the problem of generalisation,” in Proceedings of First IEE International Conference on Artificial Neural Networks, pp. 171–175, 1989.

[36] G.‐B. Huang, Q.‐Y. Zhu, K. Z. Mao, C.‐K. Siew, P. Saratchandran, and N. Sundararajan, “Can threshold networks be trained directly?,” IEEE Transactions on Circuits and Systems II, vol. 53, no. 3, pp. 187–191, 2006.

[37] M.‐B. Li, G.‐B. Huang, P. Saratchandran, and N. Sundararajan, “Fully complex extreme learning machine,” Neurocomputing, vol. 68, pp. 306–314, 2005.

[38] J. Tang, C. Deng, and G.‐B. Huang, “Extreme learning machine Transactions on Neural Networks and Learning Systems, 2015.

[39] L. L. C. Kasun, H. Zhou, G.‐B. Huang, and C. M. Vong, “Representational learning with extreme learning machine for big data,” IEEE Intelligent Systems, vol. 28, no. 6, pp. 31–34, 2013.

[40] K. Jarrett, K. Kavukcuoglu, M. Ranzato, and Y. LeCun, “What is the best multi‐stage architecture for object recognition,” in Proceedings of the 2009 IEEE 12th International Conference on Computer Vision, (Kyoto, Japan), September 29‐October 2 2009.

[41] A. M. Saxe, P. W. Koh, Z. Chen, M. Bhand, B. Suresh, and A. Y. Ng, “On random weights and unsupervised feature learning,” in Proceedings of the 28th International Conference on Machine Learning, (Bellevue, USA), 28 June‐2 July 2011.

[42] D. Cox and N. Pinto, “Beyond simple features: A large‐scale feature search approach to unconstrained face recognition,” in IEEE International Conference on Automatic Face & Gesture Recognition and Workshops, pp. 8–15, IEEE, 2011.

[43] M. D. McDonnell and T. Vladusich, “Enhanced image classification with a fast‐learning shallow convolutional neural network,” in Proceedings of International Joint Conference on Neural Networks (IJCNN’2015), (Killarney, Ireland), July 12‐17, 2015.

[44] Y. Zeng, X. Xu, Y. Fang, and K. Zhao, “Traffic sign recognition using extreme learning classifier with deep convolutional features,” in The 2015 International Conference on Intelligence Science and Big Data Engineering (IScIDE 2015), (Suzhou, China), June 14‐16, 2015.

[45] J. A. K. Suykens, T. V. Gestel, J. D. Brabanter, B. D. Moor, and J. Vandewalle, “Least squares support vector machines,” Singapore: World Scientific, 2002.

[46] A. Rahimi and B. Recht, “Uniform approximation of functions with random bases,” in Proceedings of the 2008 46th Annual Allerton Conference on Communication, Control, and Computing, pp. 555–561, 23‐26 Sept, 2008.

[47] I. Daubechies, “Orthonormal bases of compactly supported wavelets,” Communications on Pure and Applied Mathematics, vol. 41, pp. 909–996, 1988.

[48] I. Daubechies, “The wavelet transform, time‐frequency localization and signal analysis,” IEEE Transactions on Information Theory, vol. 36, no. 5, pp. 961–1005, 1990.

[49] Y. Miche, A. Sorjamaa, P. Bas, O. Simula, C. Jutten, and A. Lendasse, “OP‐ELM: Optimally pruned extreme learning machine,” IEEE Transactions on Neural Networks, vol. 21, no. 1, pp. 158–162, 2010.

[50] T. Kim and T. Adali, “Approximation by fully complex multilayer perseptrons,” Neural Computation, vol. 15, pp. 1641–1666, 2003.

[51] C. L. P. Chen, “A rapid supervised learning neural network for function interpolation and approximation,” IEEE Transactions on Neural Networks, vol. 7, no. 5, pp. 1220–1230, 1996.

[52] C. L. P. Chen and J. Z. Wan, “A rapid learning and dynamic stepwise updating algorithm for flat neural networks and the applications to timeseries prediction,” IEEE Transactions on Systems, Man and Cybernetics ‐ Part B: Cybernetics, vol. 29, no. 1, pp. 62–72, 1999.

[53] G.‐B. Huang, Q.‐Y. Zhu, and C.‐K. Siew, “Extreme learning machine: Theory and applications,” Neurocomputing, vol. 70, pp. 489–501, 2006.

[54] H. White, “An additional hidden unit test for neglected nonlinearity in multilayer feedforward networks,” in Proceedings of the International Conference on Neural Networks, pp. 451–455, 1989.

[55] T. Poggio, S. Mukherjee, R. Rifkin, A. Rakhlin, and A. Verri, “b,” (A.I. Memo No. 2001‐011, CBCL Memo 198, Artificial Intelligence Laboratory, Massachusetts Institute of Technology), 2001.

[56] I. Steinwart, D. Hush, and C. Scovel, “Training SVMs without offset,” Journal of Machine Learning Research, vol. 12, no. 1, pp. 141–202, 2011.

[57] J. Luo, C.‐M. Vong, and P.‐K. Wong, “Sparse bayesian extreme learning machine for multi‐classification,” IEEE Transactions on Neural Networks and Learning Systems, vol. 25, no. 4, pp. 836–843, 2014.

[58] S. Decherchi, P. Gastaldo, A. Leoncini, and R. Zunino, “Efficient digital implementation of extreme learning machines for classification,” IEEE Transactions on Circuits and Systems ‐ II, vol. 59, no. 8, pp. 496–500, 2012.

[59] Z. Bai, G.‐B. Huang, D. Wang, H. Wang, and M. B. Westover, “Sparse extreme learning machine for classification,” IEEE Transactions on Cybernetics, vol. 44, no. 10, pp. 1858–1870, 2014.

[60] B. Frénay, M. van Heeswijk, Y. Miche, M. Verleysen, and A. Lendasse, “Feature selection for nonlinear models with extreme learning machines,” Neurocomputing, vol. 102, pp. 111–124, 2013.

[61] D. S. Broomhead and D. Lowe, “Multivariable functional interpolation and adaptive networks,” Complex Systems, vol. 2, pp. 321–355, 1988.

[62] S. Ferrari and R. F. Stengel, “Smooth function approximation using neural networks,” IEEE Transactions on Neural Networks, vol. 16, no. 1, pp. 24–38, 2005.

[63] L. P. Wang and C. R. Wan, “Comments on ’the extreme learning machine’,” IEEE Transactions on Neural Networks, vol. 19, no. 8, pp. 1494–1495, 2008.

[64] S. Chen, C. F. N. Cowan, and P. M. Grant, “Orthogonal least squares learning algorithm for radial basis function networks,” IEEE Transactions on Neural Networks, vol. 2, no. 2, pp. 302–309, 1991.

相关文档