本月累计签到次数:

今天获取 积分

人工神经网络

人工神经网络

528 浏览

Geoffrey Hinton最新演讲梳理,从人工神经网络到RNN应用

机械自动化类 品管人生 2016-10-19 16:04 发表了文章 来自相关话题

Ⅰ. 介绍

Geoffrey Hinton 教授上周做了一次非常棒的演讲,我学到了很多。尽管该演讲是面向普通听众,但里面的好东西要比我预期的多,非常激动能听到 Hinton 教授分享他的研究。也就是说,那些很了解深度学习的人可以认为这是将 Hinton 的想法解释给对此领域了解不多的人。



Ⅱ. 人工神经元和网络

首先,让我们先讲讲什么是人工神经元。我们对大脑中神经元如何运作进行了粗野的理想化实现,以至于通过一堆这样的神经元的协作让我们能学习这类计算方式。粗简化实现就是神经元获得一些加权输入,它从神经元突触获得一些峰值电压(动作电位)。如果该输入超过特定阈值,它就会产生与输入线性相关的输出。这被称为修正线性神经元(rectified linear neuron)。我们可以在一个网络中连接这些神经元,并训练突触强点(权重)让这些网络完成一些任务。


让我们举例说明一下这种网络能做什么。假设我采用一张依照像素强度(pixel intensity)描述的照片(每个输入是一个像素的 3 元组 RGB 值),并假设这张图像中有一百万个像素。我们把此作为输入,输出就是一串描述图像是什么的单词。这是一项难以编写的计算机程序,也没人真的知道如何编写。有人花费了超过 50 年试图写出这样的程序,我敢打赌他们并没能走多远。在机器学习领域,可以说难以做编程,所以我们打算训练人工神经网络(ANN)做这件事。


人工神经网络就是一堆这样简单的神经元连接到一起。ANN 的最简单形式被称为前馈网络,该网络的思路是你采用如上所举例的图像像素作为输入,有多层神经元对应大脑不同的皮层区,而且你还有一些输出神经元给你回应,给出的回应对应不同的类。相邻层所有神经元之间的连接强度就是权重,学习内容包括调整神经元之间的这些权重。很明显,这样的东西能被用于做昂贵的计算,只要我们能搞清楚如何改变所有连接。


接下来,我将讲一种有效又易于理解的算法,但它也完全无用。你要做的就是采用一个 ANN,在权重上给它一些初始值。你用一张图像作为输入,而且你还知道正确的输出类该是什么,然后你观察输出。然后,你要做的就是采用训练案例的一个小的子集(典型的子集),在此网络上运行这些子集,看该网络怎么样。你拿出连接强度中的一个,并稍微的扰乱它(可把它认为是一个突变)。再次在网络上运行同样测试案例的子集,看它是变的更好还是更坏。如果变的更好,继续做变动。如果变的更坏,做相反的改动。这种方法有效但却非常非常慢。在此要重点记住的是,我们在实际网络中有千百万(或数十亿)的连接。为了升级一个连接的权重,上面的流程要在网络上对同样的子集进行成千上万次的运行。在效率上这种方法基本无望,但至少知道了它如何工作。为了更加有效,我将讲下反向传播算法。




III. 反向传播算法

反向传播算法是计算权重中的改变如何影响输出误差的一种有效方式。简单的说,不再是进行随机的突变,观察反向传播是否对此进行改进,网络观察输出和你给出答案(正确的或预期的输出)之间的差别。它通过使用网络中的权重搞清楚这种差别,并搞清楚如何改变这些连接能产生输出。这只是一些基础的微积分学。因为这些权重在网络中,权重中变化的关系和输出中发生了什么不是一个未知的秘密,但却是决定性的。这意味着你可以同时搞清楚所有的权重,要比朴素算法明显的更高效。


在反向传播算法中,你在网络中用现有的权重向前运行输入,观察网络输出与你想要输出之间的不同。然后将信息在一个反向通道中反向传送到网络,用来计算突触串(权重)中的一个小变化如何改变所得答案与正确答案之间的相差。并行的对每个连接进行这种工作,你就能朝着改进差异标准的方向轻微升级所有连接。


反向传播不是一直都很流行。它发明于 20 世纪 70 年代,但它没能像机器学习科学家预想的那样有效,因为有很多隐层的深度网络没有浅层网络好,在循环网络中也不很好。到了 90 年代,大部分人都放弃它了。这基本上就是反向传播的寒冬了。在加拿大的一些人开发出的技术使得机器学习在深度网络中表现更好,而后才渡过了寒冷的冬天。由于这不是该演讲的重点,我不会深入此话题。重点是通过开发这些技术,使得反向传播有效了,从广义上来说有更多的数据集和计算能力了,全世界都在追求反向传播了。




IV. 循环神经网络

循环神经网络(RNN)是该演讲的下一个主题。为了简洁,Hinton 教授略去了很多细节(我相信你可以很轻松地在网上找到相关材料)。本文也不会深入到相关细节中,而只会简单地描述一下这种网络。RNN 是一种接受输入序列并产生输出序列的的网络。这种网络由输入神经元、输出神经元和一些隐藏神经元组成。在每个时间步骤,隐藏神经元都会接收到一些状态,而隐藏神经元的状态依赖于它们在这个时间步骤所接受到的输入,也依赖于之间步骤的输入状态——这也是它们被称作「循环(recurrent)」的原因。关于 RNN 需要注意的一点是其权重在不同的时间步骤是捆绑在一起的,这样当它经过一系列的时间步骤时,它可以重复利用同样的权重。它们的训练方式在细节上和反向传播有一些相似,此处就不谈及这些细节了。了解更多信息,请参看 Hochreiter and Schmidhuber (1997) 了解目前效果最好的循环网络类型。




V. 应用

Hinton 教授谈了一些用 RNN 完成的一些应用。这些应用不管是新是旧,都能为被探索的可能的新领域提供见解(insights),并且在计算方法也取得了一些进步。


i. 预测维基百科的下一个字符

这是 Hinton 的组在 2010、2011 年完成的一项实验。将维基百科仅看作是一个字符的序列。该网络所见到的就是一个字符的序列——5 亿个字符,该网络要做的就是预测下一个字符。不同的字符有 86 个,输入就是这 86 个字符,而输出就是预测下一个会出现的字符是什么(86 个总和为 1 的概率)。正如我之前所提到的,我不会谈论算法上的细节。我很确定如果输入是「生命的意义是」,你会对这个训练出来的网络的输出感兴趣。下面这个输出结果仅供娱乐。


The meaning oflife is the tradition of the ancient human reproduction: it is less favorable to the good boy for when to remove her bigger.


这可比 42 这个答案要有趣多了(42, 是《银河系漫游指南》一书里超级计算机对生命的意义的计算结果,非常富有喜剧性,是所有西方科技爱好者乐于引用的一个调侃型的典故。)!




ii. 一种实现机器翻译的全新方法

一个更激动人心的主题是相对较新的机器翻译应用,谷歌将其投入应用还不到两周。对于每一种语言,我们都有一个编码器 RNN 和一个解码器 RNN。其中编码器 RNN 获取一个词串(string of words),并以一些隐藏状态作为结束。我们将这些隐藏状态定义为「思想(thought)」。换句话说,任何词串都可以表达成一个思想(事实并不是听起来那么蠢)。英语编码器 RNN 的工作就是将一个英语词序列转换成一个思想向量(thought vector)。你训练这个 RNN 的方法是:你有成对的英语句子,使用比如法语的解码器 RNN 的反向传播,随着时间逐渐最大化产生特定翻译的概率。


在更容易的词中,你可以从完全随机的权重开始并馈送入英文句子的词,这些句子会通过这些随机的权重(随机思想)。该随机思想(random thought)被法语解码器 RNN 的随机权重编码以生成一个概率分布(输出)。我们从这个分布中选择词,并将其馈送回该 RNN 作为输入。给定其第一个词,该 RNN 可以为可能的第二个词特定一个分布。这个过程被不断重复完成,直到完成 full stop。本质上讲,我们想做的是获取输入串并确定其思想(thought)是什么,然后将其用另一种语言表达出来。显然,这就是机器翻译应该的工作方式。这种方法显著优于之前所用的词到词直接翻译的方法。




VI. 处理噪杂数据的两种非常不同的方法

该演讲的一项讨论是机器学习科学家的哲学与传统的数学家和统计学家处理嘈杂数据的方法之间的不同之处。传统的统计技术的目标是使用简单的模型表征数据,并且只相信不太可能是由噪声所引起的规律。这种方法是有漏洞的,我们只能检测到一些非常强的规律。但是,因为这些数学方法涉及到寻找变量和预测输出之间的关键,所以它们允许在模型参数上使用带有理论分析的的可追溯算法(traceable algorithm)。


另一方面,Hinton 教授相信,为了实现良好的表现,我们需要利用我们的计算能力,并向我们的网络中注入尽可能多的参数,从而获取该数据的所有规律(既有可靠的也有不可靠的),并结合所有它们的意见以做出预测。在经验上讲,这已经在完成许多任务上被证明是成功的了。还有其它解释、直觉知识、以及某种程度上的数学公式用于支持机器学习。但是,以我的意见看,尽管机器学习技术取得了成功,但或多或少还缺乏其基础的理论,甚至完全不存在。




VII. 向前发展的机器学习

正如你可能注意到的那样,上面的讨论全部围绕着通过监督学习训练的神经网络。而另一方面,无监督学习到目前为止还没有取得很大的成功,尽管无监督学习是对人类学习方式的一种更正确的描述。这无疑是一个雄心勃勃的目标,而许多研究者相信类似于人类的创造能力并不能通过完全的无监督学习机制被注入到机器中。这种怀疑不是没有意义的,因为在没有提供任何形式的监督的情况下,如果算法不知道数据中相关的变化,那么它将如何执行有意义的学习?


随着机器学习领域的继续扩张,它毫无疑问将会吸引到越来越多的人才并继续成熟。随着这一趋势的继续,也许我们最终将能发现机器学习应用的潜在理论,不管其是复杂神经网络的数学公式,还是输出解的优化证明,它肯定在学术研究方面都是一个激动人心的思想。




VIII. 最后的想法

因为机器学习领域是很有发展前途的,所以我认为我们应该记得机器学习的许多基本基础来自于传统的统计学和数学方法,尽管存在不同的哲学流派。因此,我们不应该忽视对这些基础学科的研究,因为它们能极大地加快我们理解机器学习技术的速度。

此外,我想提一下 Hinton 教授留下的一个开放的问题:


如果心智只是我们的大脑——一团神经元、突触、动作电位和神经递质构成的网络——的产物,那么我们可以将心智注入一个电脑建模了我们的大脑的人工神经网络吗?如果可以,这又意味着什么?


最后,作为结语。毫不奇怪,这个演讲厅已经爆满,我只能在后排的柱子旁边听 Hinton 教授的演讲,为了看到幻灯片,我时不时就要伸出脑袋去瞧一眼。听 Hinton 教授的演讲无疑是一种享受。这是一个高层次的演讲,但也透彻地介绍了机器学习领域及其应用,我希望能够通过这一篇评论将这些概念和知识传递给你。
 
 
 
 
来源:Joshua Chou 机器之心
智造家提供 查看全部
Ⅰ. 介绍

Geoffrey Hinton 教授上周做了一次非常棒的演讲,我学到了很多。尽管该演讲是面向普通听众,但里面的好东西要比我预期的多,非常激动能听到 Hinton 教授分享他的研究。也就是说,那些很了解深度学习的人可以认为这是将 Hinton 的想法解释给对此领域了解不多的人。



Ⅱ. 人工神经元和网络

首先,让我们先讲讲什么是人工神经元。我们对大脑中神经元如何运作进行了粗野的理想化实现,以至于通过一堆这样的神经元的协作让我们能学习这类计算方式。粗简化实现就是神经元获得一些加权输入,它从神经元突触获得一些峰值电压(动作电位)。如果该输入超过特定阈值,它就会产生与输入线性相关的输出。这被称为修正线性神经元(rectified linear neuron)。我们可以在一个网络中连接这些神经元,并训练突触强点(权重)让这些网络完成一些任务。


让我们举例说明一下这种网络能做什么。假设我采用一张依照像素强度(pixel intensity)描述的照片(每个输入是一个像素的 3 元组 RGB 值),并假设这张图像中有一百万个像素。我们把此作为输入,输出就是一串描述图像是什么的单词。这是一项难以编写的计算机程序,也没人真的知道如何编写。有人花费了超过 50 年试图写出这样的程序,我敢打赌他们并没能走多远。在机器学习领域,可以说难以做编程,所以我们打算训练人工神经网络(ANN)做这件事。


人工神经网络就是一堆这样简单的神经元连接到一起。ANN 的最简单形式被称为前馈网络,该网络的思路是你采用如上所举例的图像像素作为输入,有多层神经元对应大脑不同的皮层区,而且你还有一些输出神经元给你回应,给出的回应对应不同的类。相邻层所有神经元之间的连接强度就是权重,学习内容包括调整神经元之间的这些权重。很明显,这样的东西能被用于做昂贵的计算,只要我们能搞清楚如何改变所有连接。


接下来,我将讲一种有效又易于理解的算法,但它也完全无用。你要做的就是采用一个 ANN,在权重上给它一些初始值。你用一张图像作为输入,而且你还知道正确的输出类该是什么,然后你观察输出。然后,你要做的就是采用训练案例的一个小的子集(典型的子集),在此网络上运行这些子集,看该网络怎么样。你拿出连接强度中的一个,并稍微的扰乱它(可把它认为是一个突变)。再次在网络上运行同样测试案例的子集,看它是变的更好还是更坏。如果变的更好,继续做变动。如果变的更坏,做相反的改动。这种方法有效但却非常非常慢。在此要重点记住的是,我们在实际网络中有千百万(或数十亿)的连接。为了升级一个连接的权重,上面的流程要在网络上对同样的子集进行成千上万次的运行。在效率上这种方法基本无望,但至少知道了它如何工作。为了更加有效,我将讲下反向传播算法。




III. 反向传播算法

反向传播算法是计算权重中的改变如何影响输出误差的一种有效方式。简单的说,不再是进行随机的突变,观察反向传播是否对此进行改进,网络观察输出和你给出答案(正确的或预期的输出)之间的差别。它通过使用网络中的权重搞清楚这种差别,并搞清楚如何改变这些连接能产生输出。这只是一些基础的微积分学。因为这些权重在网络中,权重中变化的关系和输出中发生了什么不是一个未知的秘密,但却是决定性的。这意味着你可以同时搞清楚所有的权重,要比朴素算法明显的更高效。


在反向传播算法中,你在网络中用现有的权重向前运行输入,观察网络输出与你想要输出之间的不同。然后将信息在一个反向通道中反向传送到网络,用来计算突触串(权重)中的一个小变化如何改变所得答案与正确答案之间的相差。并行的对每个连接进行这种工作,你就能朝着改进差异标准的方向轻微升级所有连接。


反向传播不是一直都很流行。它发明于 20 世纪 70 年代,但它没能像机器学习科学家预想的那样有效,因为有很多隐层的深度网络没有浅层网络好,在循环网络中也不很好。到了 90 年代,大部分人都放弃它了。这基本上就是反向传播的寒冬了。在加拿大的一些人开发出的技术使得机器学习在深度网络中表现更好,而后才渡过了寒冷的冬天。由于这不是该演讲的重点,我不会深入此话题。重点是通过开发这些技术,使得反向传播有效了,从广义上来说有更多的数据集和计算能力了,全世界都在追求反向传播了。




IV. 循环神经网络

循环神经网络(RNN)是该演讲的下一个主题。为了简洁,Hinton 教授略去了很多细节(我相信你可以很轻松地在网上找到相关材料)。本文也不会深入到相关细节中,而只会简单地描述一下这种网络。RNN 是一种接受输入序列并产生输出序列的的网络。这种网络由输入神经元、输出神经元和一些隐藏神经元组成。在每个时间步骤,隐藏神经元都会接收到一些状态,而隐藏神经元的状态依赖于它们在这个时间步骤所接受到的输入,也依赖于之间步骤的输入状态——这也是它们被称作「循环(recurrent)」的原因。关于 RNN 需要注意的一点是其权重在不同的时间步骤是捆绑在一起的,这样当它经过一系列的时间步骤时,它可以重复利用同样的权重。它们的训练方式在细节上和反向传播有一些相似,此处就不谈及这些细节了。了解更多信息,请参看 Hochreiter and Schmidhuber (1997) 了解目前效果最好的循环网络类型。




V. 应用

Hinton 教授谈了一些用 RNN 完成的一些应用。这些应用不管是新是旧,都能为被探索的可能的新领域提供见解(insights),并且在计算方法也取得了一些进步。


i. 预测维基百科的下一个字符

这是 Hinton 的组在 2010、2011 年完成的一项实验。将维基百科仅看作是一个字符的序列。该网络所见到的就是一个字符的序列——5 亿个字符,该网络要做的就是预测下一个字符。不同的字符有 86 个,输入就是这 86 个字符,而输出就是预测下一个会出现的字符是什么(86 个总和为 1 的概率)。正如我之前所提到的,我不会谈论算法上的细节。我很确定如果输入是「生命的意义是」,你会对这个训练出来的网络的输出感兴趣。下面这个输出结果仅供娱乐。


The meaning oflife is the tradition of the ancient human reproduction: it is less favorable to the good boy for when to remove her bigger.


这可比 42 这个答案要有趣多了(42, 是《银河系漫游指南》一书里超级计算机对生命的意义的计算结果,非常富有喜剧性,是所有西方科技爱好者乐于引用的一个调侃型的典故。)!




ii. 一种实现机器翻译的全新方法

一个更激动人心的主题是相对较新的机器翻译应用,谷歌将其投入应用还不到两周。对于每一种语言,我们都有一个编码器 RNN 和一个解码器 RNN。其中编码器 RNN 获取一个词串(string of words),并以一些隐藏状态作为结束。我们将这些隐藏状态定义为「思想(thought)」。换句话说,任何词串都可以表达成一个思想(事实并不是听起来那么蠢)。英语编码器 RNN 的工作就是将一个英语词序列转换成一个思想向量(thought vector)。你训练这个 RNN 的方法是:你有成对的英语句子,使用比如法语的解码器 RNN 的反向传播,随着时间逐渐最大化产生特定翻译的概率。


在更容易的词中,你可以从完全随机的权重开始并馈送入英文句子的词,这些句子会通过这些随机的权重(随机思想)。该随机思想(random thought)被法语解码器 RNN 的随机权重编码以生成一个概率分布(输出)。我们从这个分布中选择词,并将其馈送回该 RNN 作为输入。给定其第一个词,该 RNN 可以为可能的第二个词特定一个分布。这个过程被不断重复完成,直到完成 full stop。本质上讲,我们想做的是获取输入串并确定其思想(thought)是什么,然后将其用另一种语言表达出来。显然,这就是机器翻译应该的工作方式。这种方法显著优于之前所用的词到词直接翻译的方法。




VI. 处理噪杂数据的两种非常不同的方法

该演讲的一项讨论是机器学习科学家的哲学与传统的数学家和统计学家处理嘈杂数据的方法之间的不同之处。传统的统计技术的目标是使用简单的模型表征数据,并且只相信不太可能是由噪声所引起的规律。这种方法是有漏洞的,我们只能检测到一些非常强的规律。但是,因为这些数学方法涉及到寻找变量和预测输出之间的关键,所以它们允许在模型参数上使用带有理论分析的的可追溯算法(traceable algorithm)。


另一方面,Hinton 教授相信,为了实现良好的表现,我们需要利用我们的计算能力,并向我们的网络中注入尽可能多的参数,从而获取该数据的所有规律(既有可靠的也有不可靠的),并结合所有它们的意见以做出预测。在经验上讲,这已经在完成许多任务上被证明是成功的了。还有其它解释、直觉知识、以及某种程度上的数学公式用于支持机器学习。但是,以我的意见看,尽管机器学习技术取得了成功,但或多或少还缺乏其基础的理论,甚至完全不存在。




VII. 向前发展的机器学习

正如你可能注意到的那样,上面的讨论全部围绕着通过监督学习训练的神经网络。而另一方面,无监督学习到目前为止还没有取得很大的成功,尽管无监督学习是对人类学习方式的一种更正确的描述。这无疑是一个雄心勃勃的目标,而许多研究者相信类似于人类的创造能力并不能通过完全的无监督学习机制被注入到机器中。这种怀疑不是没有意义的,因为在没有提供任何形式的监督的情况下,如果算法不知道数据中相关的变化,那么它将如何执行有意义的学习?


随着机器学习领域的继续扩张,它毫无疑问将会吸引到越来越多的人才并继续成熟。随着这一趋势的继续,也许我们最终将能发现机器学习应用的潜在理论,不管其是复杂神经网络的数学公式,还是输出解的优化证明,它肯定在学术研究方面都是一个激动人心的思想。




VIII. 最后的想法

因为机器学习领域是很有发展前途的,所以我认为我们应该记得机器学习的许多基本基础来自于传统的统计学和数学方法,尽管存在不同的哲学流派。因此,我们不应该忽视对这些基础学科的研究,因为它们能极大地加快我们理解机器学习技术的速度。

此外,我想提一下 Hinton 教授留下的一个开放的问题:


如果心智只是我们的大脑——一团神经元、突触、动作电位和神经递质构成的网络——的产物,那么我们可以将心智注入一个电脑建模了我们的大脑的人工神经网络吗?如果可以,这又意味着什么?


最后,作为结语。毫不奇怪,这个演讲厅已经爆满,我只能在后排的柱子旁边听 Hinton 教授的演讲,为了看到幻灯片,我时不时就要伸出脑袋去瞧一眼。听 Hinton 教授的演讲无疑是一种享受。这是一个高层次的演讲,但也透彻地介绍了机器学习领域及其应用,我希望能够通过这一篇评论将这些概念和知识传递给你。
 
 
 
 
来源:Joshua Chou 机器之心
智造家提供
623 浏览

专栏 | ELM超限学习机:填补罗森布拉特的神经网络梦想和冯·诺依曼对生物学习困惑之间的空白

设计类 jingjing 2016-09-09 15:47 发表了文章 来自相关话题

摘要:本文总结被神经网络前辈和著名经济学家 Halbert White 认为「Sexy」的超限学习机(Extreme Learning Machines, ELM)的「Sexy」之处和之所以被称为「超限学习机(ELM)」的原因。在超限学习机的理论框架下,机器(Machine, Devices, Sensors)和生物脑可以看成一致的,只是构造的基本材料和硬件不同而已。有机的「机器」(生物学习系统)也有千万种,并且还在一直自我演化。但我们坚信两者之间可以拥有一个共同的「基本粒子」级(或称为「基本单元」级)的学习结构和学习算法,那就是超限学习机(Extreme Learning Machines, ELM)。而这种超限学习机(ELM)的实现和硬件材料以及具体数据可以是无关的。ELM 理论指出众多种的生物神经元在学习中是不需要调整的和数据无关的。生物学习机制的秘密可能就在于其神经元的随机性。


作者介绍:黄广斌(Guang-Bin Huang)是新加坡南洋理工大学教授(终身)。在 2014 和 2015 年被 Thomson Reuters 评为「高引用研究者」(工程类,计算机科学类),以及「2014 年世界最有影响力的科学精英」和「2015 年世界最有影响力的科学精英」。他是新加坡总统科学奖被提名人(2016)。


他主持的主要项目有:德国宝马集团和南洋理工大学未来汽车联合研究实验室人机交互,脑机交互以及汽车辅助驾驶项目,英国劳斯莱斯和南洋理工大学联合研究实验室海上自主导航决策辅助系统项目,新加坡科技工程和南洋理工大学先进机器人联合研究实验室场景识别和机器学习项目,台湾台达电子股份有限公司和南洋理工大学物联网联合研究实验室数据分析和视频项目。还担任过新加坡樟宜机场新加坡航空公司地面服务公司第五货运大厦的信息跟踪控制系统升级改造的总设计师和技术负责人。

 

神经网络和生物学习之间的空白

 

1. 弗兰克·罗森布拉特的神经网络梦想

在 1950 年代初期,生物学家弗兰克·罗森布拉特(Frank Rosenblatt)提出了他称为感知器(Perceptron)的多层前馈网络。

后来跨越 60 多年特别是从 1980 年代到现在用的大部分神经网络结构其实都是罗森布拉特神经网络感知器的一种,这些包括早期流行的支持向量机(SVM)和现在风靡产业界的卷积神经网络(CNN),也包括 CNN 的前身 Neocognition ,只是针对不同的实现后人提出了不同的学习算法。


罗森布拉特最初提出他的神经网络结构时并没有有效的学习算法,但是他梦想这种神经网络感知器可以看作是「计算机的一种胚胎」,一种最终能够帮助计算机实现「走、说、看、写、繁衍并有自我意识」的智能源泉。罗森布拉特的预测在 60 年后的今天被证明是正确的,这种神经网络技术还有可能是未来人工智能和机器学习的主要技术基础。

2. 马文·明斯基和 1970 年代人工智能冬天

罗森布拉特的预测在 60 年前是极其大胆和有远见的,在当时计算机犹如一个庞然大物的时代几乎没有几个人相信他的预测是对的和他的梦想是能实现的。也许伟大的思想之所以伟大就在于远远超前现有人们所能理解和所能想象的。包括人工智能之父、图灵奖获得者马文·明斯基(Marvin Minsky)和神经网络之父 Bernard Widrow 都对罗森布拉特的预测表示怀疑。罗森布拉特提出的神经网络感知器严格意义上讲在提出之初还只是概念,正如许多伟大的想法在提出之初都会出现有些概念模糊不清的情况,大部分人有疑虑也就正常了。明斯基对罗森布拉特的神经网络感知器的否定直接导致了被后人称为「美丽错误」的发生在 1970 年代的「人工智能的冬天」。

两年前在 Bernard 家吃着他夫人精心准备的旧金山螃蟹,边回顾着 60 年来的神经网络发展往事,受益匪浅也感慨万千。Bernard 在和我探讨超限学习机(Extreme Learning Machines, ELM)时提及他和明斯基以及罗森布拉特三人之间的往事时诚恳地承认在 1950 年代他对罗森布拉特的神经网络感知器也是不太认同,在他和罗森布拉特之间的争论中他是错了。不得不被前辈们敢于承认错误的勇气折服。(提醒:学术争论无论激烈与否可以有助于找寻自然规律的真象,这和打着学术争论之名行人身攻击之实是有本质区别的。)Bernard 提及在 1971 年,也就在「人工智能的冬天」开始之初,罗森布拉特在他 43 岁生日那天在一个湖里划帆板时发生意外就再也没有回来,连尸身都没有找到,令人不禁辛酸和感叹。试想:罗森布拉特如果不是英年早逝(某种程度上讲是含冤而死),人工神经网络、人工智能和机器学习技术也许还会往前推进 10-20 年。

有关 Bernard 和超限学习机的一段小插曲:Bernard 在超限学习机发表后 10 年左右提出了一个类似超限学习机的技术但却没有注意到早期有关超限学习机工作。本来这是一个小事,人们很难查看到所有有关资料,科研很能面面俱到。Bernard 却向我当面提出道歉,前辈们谦卑的人格再次让人折服。

3. 约翰·冯·诺依曼对生物学习的困惑

计算机的硬件实现是要极其精致美妙的,但计算机的实现也是极其脆弱的,不能有任何瑕疵。任何硬件实现上的不完美都可能导致计算机不能正常运作。约翰·冯·诺依曼(John von Neumann)在造出第一代计算机之后,做为计算机之父的他感到困惑不解的是:和计算机需要完美硬件连接组成所不同的是,为什么「一个看上去不完美的包含许多看似随机连接的(生物)神经网络却能够可靠地实现完美的学习功能」。

罗森布拉特的梦想和冯·诺依曼的困惑之间有着很大的空白地带和理论技术鸿沟。

超限学习机:填补神经网络和生物学习之间的空白

人脑可能是宇宙中最复杂的东西。人类在过去几百年对自然界和宇宙的认识在飞速发展,对生物学习特别是人脑的思维机制还知之甚少。罗森布拉特的人工神经网络感知器和冯·诺依曼关于生物学习的困惑以及未解之谜看似关联性不大。其实在超限学习机的理论框架下,机器(Machine、Devices、Sensors)和生物脑可以看成一致的,只是构造的基本材料和硬件不同而已。一种由无机的硅等组成,一种由有机的碳水化合物蛋白质等组成。生物脑本质上也是一种「机器」。无机和有机的「机器」可以完全不一样,它们的结构和算法也千变万化。有机的「机器」(生物学习系统)也有千万种,并且还在一直自我演化。但我们坚信两者之间可以拥有一个共同的「基本粒子」级(或称为「基本单元」级)的学习结构和学习算法,那就是超限学习机。而这种超限学习机的实现和硬件材料和具体数据可以是无关的。

1. 作为人工神经网络的超限学习机

1)「秒杀」学习速度

人工神经网络在人工智能和机器学习中的重要作用最近几年又再次得到认可和追捧,大有人工智能和机器学习的实现必须依赖于人工神经网络之势。然而人工神经网络技术普遍面临着一些挑战,比如繁重而「痛苦」的人工干预、缓慢的学习速度和较弱的可扩展性。超限学习机的一个基本目的是要克服这些过去几十年来人工神经网络界面临的发展瓶颈,达到尽可能少的人工干预,高的测试准确度和实时快速本地化学习的能力,在许多应用中达到秒级,毫秒甚至微妙级或更快。[图1] 相比其它通用的学习技术(比如深度学习),在有些应用中超限学习机可以快几千几万倍。比如在有些手写体识别,3D 图形应用,各国交通路牌识别等应用中,超限学习机与深度学习相比可进一步提高准确率, 并且大幅度降低训练时间(相比较深度学习基于 GPU 的 1-2 天训练时间,超限学习机在普通计算机上的训练时间缩短到几分钟或更少)。在许多医疗大数据应用上,超限学习机也比传统的学习方法在提高准确率的情况下将学习速度大幅提高几千倍。 






图 1

参考文献:

L. L. C. Kasun, H. Zhou, G.-B. Huang, and C. M. Vong, "Representational Learning with Extreme Learning Machine for Big Data," IEEE Intelligent Systems, vol. 28, no. 6, pp. 31-34, 2013.


Z. Huang, Y. Yu, J. Gu, and H. Liu, "An Efficient Method for Traffic Sign Recognition Based on Extreme Learning Machine," (in press) IEEE Transactions on Cybernetics, 2016 

Z. Xie, K. Xu, W. Shan, L. Liu, Y. Xiong, and H. Huang, "Projective Feature Learning for 3D Shapes with Multi-View Depth Images," The 23rd Pacific Conference on Computer Graphics and Applications, Tsinghua University, China, October 7-9, 2015. 

2)统一的神经网络结构和算法

20 年前当神经网络发展处于第一次复兴的巅峰,普天下都在忙于为神经网络训练「调参」和苦于寻找办法如何使流行的神经网络学习算法跳出「局部最小点」时,我们的疑问是:1)当普天下的研究人员都乐于和疲于「调参」时,神经网络的发展本身是不是也陷入了局部最小点?2)不同类型的网络「真的需要不同类型的学习算法吗」?3)是否存在一种通用的学习框架来处理不同类型的网络(单层前馈网络和多层网络)?

不同单隐层前馈神经网络的统一

许多种单隐层前馈神经网络在广泛使用中,包括前馈网络、径向基函数(RBF)网络、支持向量机(SVM)、多项式网络、傅里叶变换和小波网络等。这些之前都被认为是不同而且没有联系的学习或计算技术。超限学习机理论认为这些都有一样的网络结构,只是网络的隐层用的是不同的神经元而已。并提出在考虑 Universal Approximation Capability(有人翻译成「万能逼近」能力)和分类能力的前提下,只要隐层神经元是非线性阶段连续的,人们就不需要为不同的前馈神经网络设计不同的学习算法。作为 ELM 的一个特例(傅立叶序列作为隐层神经元),后来 Intel 和美国加州大学伯克利分校研究团队提出的 Random Kitchen Sink(RKS)以及 Google 团队提出的 FastFood 也在近几年有许多发展和实际成功应用。

参考文献:

G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, "Extreme learning machine: a new learning scheme of feedforward neural networks," Proceedings of international joint conference on neural networks (IJCNN2004), Budapest, Hungary, 25–29 July, 2004.

G.-B. Huang, L. Chen and C.-K. Siew, "Universal Approximation Using Incremental Constructive Feedforward Networks with Random Hidden Nodes," IEEE Transactions on Neural Networks. vol. 17, no. 4, pp. 879-892, 2006.

G.-B. Huang and L. Chen. "Convex Incremental Extreme Learning Machine," Neurocomputing, vol. 70, pp. 3056-3062, 2007.

A. Rahimi and B. Recht, "Random features for large-scale kernel machines," Proceedings of the 2007 neural information processing systems (NIPS2007), 3–6 Dec 2007.

Q. Le, T. Sarlós T, and A. Smola, "Fastfood approximating kernel expansions in loglinear time," Proceedings of the 30th international conference on machine learning, Atlanta, USA, p. 16–21, June 2013.

单隐层学习和多隐层学习的统一

我们真的需要迭代式地调整多层前馈神经网络的隐层节点吗?前馈神经网络真的要像六十年来一直被认为是个黑箱吗?传统的误差反向传播(BP)算法和支持向量机(SVM)将多层网络视为黑箱。与此不同的是,超限学习机将多层网络视为白箱,并且一层一层地进行训练。总体看,超限学习机将单隐层前馈和多隐层网络看成一个类似的统一体,用雷同的方法来处理单隐层前馈和多隐层网络。然而,与深度神经网络需要密集地调整其隐层节点不同,超限学习理论显示,隐层节点很重要,但(单隐层神经网络和多层网络的)隐层节点可以和数据无关,可以随机产生或从上一代传给下一代而不需要调整。学习可以无需通过迭代式地调整隐层节点来实现。







参考文献:

J. Tang, C. Deng, and G.-B. Huang, "Extreme Learning Machine for Multilayer Perceptron" , IEEE Transactions on Neural Networks and Learning Systems, May 2015.

G.-B. Huang, Z. Bai, L. L. C. Kasun, and C. M. Vong, "Local Receptive Fields Based Extreme Learning Machine," IEEE Computational Intelligence Magazine, vol. 10, no. 2, pp. 18-29, 2015.

L. L. C. Kasun, H. Zhou, G.-B. Huang, and C. M. Vong, "Representational Learning with Extreme Learning Machine for Big Data," IEEE Intelligence Systems, vol. 28, no. 6, pp. 31-34, 2013.

单隐层学习和多隐层学习与层次性学习的统一

多隐层学习(Multi-Hidden Layer Learning)和层次性学习(Hierarchical Learning)的概念不是完全一样。多隐层学习强调的是一个目标应用(比如图像分类)由一个包含多个隐层节点的网络实现。而超限学习机的层次性学习强调的是每个隐层实现一个功能,各个功能单元通过级联,并联,串联等组合形成一个学习能力复合的机器学习系统。[图3] 层次性学习的一个特例可以是一个多隐层学习方法。在超限学习机的体系下,各个功能块可以采用和应用相关的超限学习机算法。另外,在超限学习机中,一个隐层节点可以是一个由多个神经元组成的超级隐节点单元。[图4]  这种层次性学习可以最终提供比较理想的 End-to-End Learning 和 One-Shot Learning。











 

参考文献:

G.-B. Huang, "What are Extreme Learning Machines? Filling the Gap between Frank Rosenblatt's Dream and John von Neumann's Puzzle," Cognitive Computation, vol. 7, pp. 263-278, 2015.

3)基本学习单元的统一

就像加减乘除四大基本运算操作是数学体系的基础,物理体系也是建立在几大基本定律上一样,基于生命体的生物学习(Biological Learning)体系其实是建基于至少六大基本学习单元操作之上:压缩(Compression)、特征学习(Feature Learning)、稀疏编码(Sparse coding)、聚类(Clustering)、回归拟合(Regression)和分类(Classification)。[图5]  这六大基本学习单元操作可以由同样的超限学习机实现,隐层节点与数据无关,要调整的是从隐层节点到输出层的连接。[图4]  [图6]

比如支持向量机(SVM),随机投影(Random Projection,RP)以及主成份分析(Principal Component Analysis, PCA)看似不太相关,却在超限学习机理论和算法下可以有机的统一。2012 年发表在 IEEE Transactions on Cybernetics 上的文章证明了支持向量机是超限学习机的次优解。刚刚发表在 IEEE Transactions on Image Processing 文章指出随机投影和主成份分析其实可以看作是超限学习机的隐层神经元用线性函数时的的一个特例。可是超限学习机也可以用非线性的隐层神经元,所以就可以进行升维,降维,特征学习等功能。所以从特征学习角度看随机投影和主成份分析也是提供次优解。













参考文献:

G.-B. Huang, H. Zhou, X.Ding, and R. Zhang, "Extreme Learning Machine for Regression and MulticlassClassification", IEEE Transactions on Systems, Man, and Cybernetics – Part B:Cybernetics, vol. 42, no. 2, pp. 513-529, 2012.

L. L. C. Kasun, Y. Yang, G.-B. Huang, and Z. Zhang, Fellow, "Dimension Reduction With Extreme Learning Machine", IEEE Transactions on Neural Networks, vol. 25, no.8, pp. 3906-3918, 2016

4)普适学习和普适智能

随着物联网的深入发展,在不远的未来,大部分的设备将拥有智能与学习能力。我们相信,就如包括人类在内的生物社会一样,这些智能设备也将发展出一个互相交流的「智能体社会」(Internet of Intelligent Things)图7。每个智能体都嵌入有学习功能并且能相互交流。因而我们有必要提出普适学习(Pervasive Learning)和普适智能(Pervasive Intelligence)的概念和目标。由于超限学习机的学习速度比深度学习快上万倍,它可以帮助我们实现智能体社会。超限学习机芯片可以集成到硬件中,并实现实时本地在线学习,从而实现普适学习(Pervasive Learning)和普适智能(Pervasive Intelligence)。这几年,关于超限学习机芯片的研究得到一些实质进展,主要集中在三个方面:多核加速芯片(现场可编程门阵列(FPGA)和专用集成电路(ASIC)),神经形态芯片以及以光技术实现 ELM。







参考文献:

G.-B. Huang, "Extreme learning Machines: Enabling Pervasive Learning and Pervasive Intelligence", Pushing Frontiers, vol. 8, pp. 22-23, 2016.

 
5)填补不同学习理论间的空白

与 60 年来传统的学习理论不同,超限学习机理论的一个重要性质是其通用学习能力(压缩、特征学习、聚类、回归、分类等)无需通过调整隐层节点来获得,例如隐层节点可以从前辈继承或随机生成。进一步来说,超限学习机理论也为传统神经网络提供了理论支持(包括局部感受域(Local Receptive Field)和池化策略(Pooling)),而做为局部感受域的一个特殊实现方法的卷积神经操作和池化策略正是深度学习得以成功的主要原因之一。在 ELM 理论和应用下,不同随机分布的随机隐层神经元的产生形成全联结的网络或部分联结的网络(图8)。或如 ELM 早期理论(2007 年)指出不同的部分联结也可以形成局部稠密边缘稀疏的局部感受域或不同局部感受域的非线性组合(池化策略)(图 9)。根据 ELM 理论,卷积神经网络只是一种局部感受域和池化策略实现,除了卷积神经操作,还有许多其它的局部感受域存在,如何实现还有待进一步研究。














岭回归(Ridge Regression Theory)、线性系统的稳定性、矩阵稳定性、Bartlett 神经网络泛化能力理论(Neural Network Generalization Performance Theory)、支持向量机最大边界理论(Maximal Margin Theory)等在超限学习机以前被认为是不同的理论。特别是 Bartlett 神经网络泛化能力理论在以前很少用于训练神经网络。超限学习机采用了 Bartlett 理论,从而保证其泛化能力。超限学习机的理论显示,这些之前的理论从机器学习角度看是有机一致的。


参考文献:

G.-B. Huang and L. Chen, "Convex Incremental Extreme Learning Machine," Neurocomputing, vol. 70, pp. 3056-3062, 2007.

G.-B. Huang, "An Insight into Extreme Learning Machine: Random Neurons, Random Features and Kernels", Cognitive Computation, vol. 6, pp. 376-390, 2014.

G.-B. Huang, Z. Bai, L. L. C. Kasun, and C. M. Vong, "Local Receptive Fields Based Extreme Learning Machine", IEEE Computational Intelligence Magazine, vol. 10, no. 2, pp. 18-29, 2015.

2. 作为生物学习的一个「基本粒子」级学习单元的超限学习机


1)生物学习机制的验证

超限学习机理论显示,隐层节点很重要,但在很多应用中不需要调整(比如压缩感知、特征学习、聚类、回归和分类)。在理论上,这种神经元的激活函数几乎可以是任何非线性分段连续的,包括上百种人类无法知道其准确数学模型的人脑中的神经元。在超限学习机理论和技术提出之后的大概 10 年左右,越来越多的有关生物脑学习系统的研究成果直接或间接的支持了超限学习机理论。

在 2013 年及之后发表在《自然》等期刊上文章报告了来自美国斯坦福大学,哈佛医学院,麻省理工学院和哥伦比亚大学等大学的研究人员发现在老鼠的嗅觉系统中神经元在学习过程中是随机产生的。这可能是超限学习机理论首次在生物系统中得到验证。

在 2015 年美国哥伦比亚大学和 IBM Watson 的研究人员进一步阐述生物学习系统中神经元的随机产生可以进一步帮助生物学习系统实现对特征学习(升维,降维等),并且明确指出这在工程实现比如超限学习机是被证明有效的。这些在生物脑中发现的神经元机制和超限学习机理论预测是一致的。

在 2015 年美国乔治亚理工学院和华盛顿大学的一批研究人员通过人的行为学分析简直验证人脑中随机神经元机制可以帮助人拥有小样本学习能力。

2016 年发表在《自然•神经科学》上的文章说明了超限学习机理论进一步在猴子的脑中得到了直接验证。

参考文献:

M. Rigotti, O. Barak, M. R. Warden, X.-J. Wang, N. D. Daw, E. X. Miller, S. Fusi, "The importance of mixed selectivity in complex cognitive tasks," Nature, vol.497, pp. 585-590, 2013


O. Barak, M. Rigotti, S. Fusi, "The sparseness of mixed selectivity neurons controls the generalization-discrimination trade-off," Journal of Neuroscience, vol. 33, no. 9, pp. 3844-3856, 2013

S. Fusi, E. K Miller, and M. Rigotti, "Why neurons mix: high dimensionality for higher cognition," Current Opinion in Neurobiology, vol. 37, pp. 66-74, 2015

R. I. Arriaga, et al.Visual Categorization with Random Projection, Neural Computation, vol. 27, 2015

J. Xie and C. Padoa-Schioppa, "Neuronal remapping and circuit persistence in economic decisions," Nature Neuroscience, vol. 19, 2016

E. L Rich and J. D Wallis, "What stays the same in orbitofrontal cortex," Nature Neuroscience, vol. 19, no. 6, 2016


2)解答约翰·冯·诺依曼对生物学习的困惑


在罗森布拉特的梦想中,他的神经网络感知器可以最终帮助实现电子计算机走路、说话、看东西、写作、繁衍自己并有自我意识,而作为计算机之父的冯·诺依曼却不解为什么一个看似不完美生物神经网络系统却有完美的学习能力。

超限学习机理论的目标之一是打破机器学习和生物学习之间的壁垒。尽管动物的大脑在总体上来说是结构化及有序的,在其某些层或区域,其局部结构可看成「无序」的。从超限学习理论的角度看,网络的整个多层结构(人工神经网络或生物网络)是结构化且有序的,但它们在某一个神经元层或神经模块片中看起来「混乱、非组织结构化」。从局部来看,「硬连线」可以是全连接或部分连接。这种全局结构化而局部随机连接的看似「不完美」结构,却正好构成了基本的完美的学习能力,包括压缩感知、特征学习、稀疏编码、聚类、回归和分类等。这就解决了冯·诺依曼对生物学习的谜惑。生物学习机制极其复杂,而我们相信「无需调节隐层节点的学习」是很多学习模块中的一种基本生物学习机制。虽然人脑中也许有几百种不同种类的生物神经元,他们的数学模型也不为人类所知,但是超限学习机理论指出一个基本的生物学习机制也许是生物神经元本身在学习中是不需要调整的,和应用是无关的。进一步说,随机隐层神经元节点和「随机连线」只是两种特定的实现「无需调节隐层节点的学习」的方法。IBM 团队最近也宣布他们研制出类生物神经元,他们实现的理论基础正是基于 ELM 理论最早所提出,倡导和支持的:生物神经元应该是随机的。


参考文献:

G.-B. Huang, What are Extreme Learning Machines? Filling the Gap between Frank Rosenblatt's Dream and John von Neumann's Puzzle, Cognitive Computation, vol. 7, pp. 263-278, 2015. 

T. Tuma, A. Pantazi, M. L. Gallo, A. Sebastian, and E. Eleftheriou, "Stochastic phase-change neurons,"  Nature Nanotechnology, vol. 11, August 2016

3)展望


我们相信超限学习机理论和技术提供了一个架接跨越机器学习和生物学习基本「粒子」级的学习机制。也填补了罗森布拉特的梦想和冯·诺依曼的困惑之间有着很大的空白地带和理论技术鸿沟。这也是实现普适学习和普适智能的必要条件。然而这些还很初步,套用个别神经网络界前辈对超限学习机的评论和期望:「好戏还没有开始」,也许更多的令人激动和感兴趣的东西还等着大家研究开发。


有兴趣的研究人员,可以申请新加坡南洋理工大学黄广斌教授研发团队在下列研究方向的博士生、博士后和访问学者位置:海上自主导航数据分析、智能芯片设计、多模数据分析、视频分析、目标识别和跟踪。 查看全部


摘要:本文总结被神经网络前辈和著名经济学家 Halbert White 认为「Sexy」的超限学习机(Extreme Learning Machines, ELM)的「Sexy」之处和之所以被称为「超限学习机(ELM)」的原因。在超限学习机的理论框架下,机器(Machine, Devices, Sensors)和生物脑可以看成一致的,只是构造的基本材料和硬件不同而已。有机的「机器」(生物学习系统)也有千万种,并且还在一直自我演化。但我们坚信两者之间可以拥有一个共同的「基本粒子」级(或称为「基本单元」级)的学习结构和学习算法,那就是超限学习机(Extreme Learning Machines, ELM)。而这种超限学习机(ELM)的实现和硬件材料以及具体数据可以是无关的。ELM 理论指出众多种的生物神经元在学习中是不需要调整的和数据无关的。生物学习机制的秘密可能就在于其神经元的随机性。


作者介绍:黄广斌(Guang-Bin Huang)是新加坡南洋理工大学教授(终身)。在 2014 和 2015 年被 Thomson Reuters 评为「高引用研究者」(工程类,计算机科学类),以及「2014 年世界最有影响力的科学精英」和「2015 年世界最有影响力的科学精英」。他是新加坡总统科学奖被提名人(2016)。


他主持的主要项目有:德国宝马集团和南洋理工大学未来汽车联合研究实验室人机交互,脑机交互以及汽车辅助驾驶项目,英国劳斯莱斯和南洋理工大学联合研究实验室海上自主导航决策辅助系统项目,新加坡科技工程和南洋理工大学先进机器人联合研究实验室场景识别和机器学习项目,台湾台达电子股份有限公司和南洋理工大学物联网联合研究实验室数据分析和视频项目。还担任过新加坡樟宜机场新加坡航空公司地面服务公司第五货运大厦的信息跟踪控制系统升级改造的总设计师和技术负责人。

 

神经网络和生物学习之间的空白

 

1. 弗兰克·罗森布拉特的神经网络梦想

在 1950 年代初期,生物学家弗兰克·罗森布拉特(Frank Rosenblatt)提出了他称为感知器(Perceptron)的多层前馈网络。

后来跨越 60 多年特别是从 1980 年代到现在用的大部分神经网络结构其实都是罗森布拉特神经网络感知器的一种,这些包括早期流行的支持向量机(SVM)和现在风靡产业界的卷积神经网络(CNN),也包括 CNN 的前身 Neocognition ,只是针对不同的实现后人提出了不同的学习算法。


罗森布拉特最初提出他的神经网络结构时并没有有效的学习算法,但是他梦想这种神经网络感知器可以看作是「计算机的一种胚胎」,一种最终能够帮助计算机实现「走、说、看、写、繁衍并有自我意识」的智能源泉。罗森布拉特的预测在 60 年后的今天被证明是正确的,这种神经网络技术还有可能是未来人工智能和机器学习的主要技术基础。

2. 马文·明斯基和 1970 年代人工智能冬天

罗森布拉特的预测在 60 年前是极其大胆和有远见的,在当时计算机犹如一个庞然大物的时代几乎没有几个人相信他的预测是对的和他的梦想是能实现的。也许伟大的思想之所以伟大就在于远远超前现有人们所能理解和所能想象的。包括人工智能之父、图灵奖获得者马文·明斯基(Marvin Minsky)和神经网络之父 Bernard Widrow 都对罗森布拉特的预测表示怀疑。罗森布拉特提出的神经网络感知器严格意义上讲在提出之初还只是概念,正如许多伟大的想法在提出之初都会出现有些概念模糊不清的情况,大部分人有疑虑也就正常了。明斯基对罗森布拉特的神经网络感知器的否定直接导致了被后人称为「美丽错误」的发生在 1970 年代的「人工智能的冬天」。

两年前在 Bernard 家吃着他夫人精心准备的旧金山螃蟹,边回顾着 60 年来的神经网络发展往事,受益匪浅也感慨万千。Bernard 在和我探讨超限学习机(Extreme Learning Machines, ELM)时提及他和明斯基以及罗森布拉特三人之间的往事时诚恳地承认在 1950 年代他对罗森布拉特的神经网络感知器也是不太认同,在他和罗森布拉特之间的争论中他是错了。不得不被前辈们敢于承认错误的勇气折服。(提醒:学术争论无论激烈与否可以有助于找寻自然规律的真象,这和打着学术争论之名行人身攻击之实是有本质区别的。)Bernard 提及在 1971 年,也就在「人工智能的冬天」开始之初,罗森布拉特在他 43 岁生日那天在一个湖里划帆板时发生意外就再也没有回来,连尸身都没有找到,令人不禁辛酸和感叹。试想:罗森布拉特如果不是英年早逝(某种程度上讲是含冤而死),人工神经网络、人工智能和机器学习技术也许还会往前推进 10-20 年。

有关 Bernard 和超限学习机的一段小插曲:Bernard 在超限学习机发表后 10 年左右提出了一个类似超限学习机的技术但却没有注意到早期有关超限学习机工作。本来这是一个小事,人们很难查看到所有有关资料,科研很能面面俱到。Bernard 却向我当面提出道歉,前辈们谦卑的人格再次让人折服。

3. 约翰·冯·诺依曼对生物学习的困惑

计算机的硬件实现是要极其精致美妙的,但计算机的实现也是极其脆弱的,不能有任何瑕疵。任何硬件实现上的不完美都可能导致计算机不能正常运作。约翰·冯·诺依曼(John von Neumann)在造出第一代计算机之后,做为计算机之父的他感到困惑不解的是:和计算机需要完美硬件连接组成所不同的是,为什么「一个看上去不完美的包含许多看似随机连接的(生物)神经网络却能够可靠地实现完美的学习功能」。

罗森布拉特的梦想和冯·诺依曼的困惑之间有着很大的空白地带和理论技术鸿沟。

超限学习机:填补神经网络和生物学习之间的空白

人脑可能是宇宙中最复杂的东西。人类在过去几百年对自然界和宇宙的认识在飞速发展,对生物学习特别是人脑的思维机制还知之甚少。罗森布拉特的人工神经网络感知器和冯·诺依曼关于生物学习的困惑以及未解之谜看似关联性不大。其实在超限学习机的理论框架下,机器(Machine、Devices、Sensors)和生物脑可以看成一致的,只是构造的基本材料和硬件不同而已。一种由无机的硅等组成,一种由有机的碳水化合物蛋白质等组成。生物脑本质上也是一种「机器」。无机和有机的「机器」可以完全不一样,它们的结构和算法也千变万化。有机的「机器」(生物学习系统)也有千万种,并且还在一直自我演化。但我们坚信两者之间可以拥有一个共同的「基本粒子」级(或称为「基本单元」级)的学习结构和学习算法,那就是超限学习机。而这种超限学习机的实现和硬件材料和具体数据可以是无关的。

1. 作为人工神经网络的超限学习机

1)「秒杀」学习速度

人工神经网络在人工智能和机器学习中的重要作用最近几年又再次得到认可和追捧,大有人工智能和机器学习的实现必须依赖于人工神经网络之势。然而人工神经网络技术普遍面临着一些挑战,比如繁重而「痛苦」的人工干预、缓慢的学习速度和较弱的可扩展性。超限学习机的一个基本目的是要克服这些过去几十年来人工神经网络界面临的发展瓶颈,达到尽可能少的人工干预,高的测试准确度和实时快速本地化学习的能力,在许多应用中达到秒级,毫秒甚至微妙级或更快。[图1] 相比其它通用的学习技术(比如深度学习),在有些应用中超限学习机可以快几千几万倍。比如在有些手写体识别,3D 图形应用,各国交通路牌识别等应用中,超限学习机与深度学习相比可进一步提高准确率, 并且大幅度降低训练时间(相比较深度学习基于 GPU 的 1-2 天训练时间,超限学习机在普通计算机上的训练时间缩短到几分钟或更少)。在许多医疗大数据应用上,超限学习机也比传统的学习方法在提高准确率的情况下将学习速度大幅提高几千倍。 

3.jpg


图 1

参考文献:

L. L. C. Kasun, H. Zhou, G.-B. Huang, and C. M. Vong, "Representational Learning with Extreme Learning Machine for Big Data," IEEE Intelligent Systems, vol. 28, no. 6, pp. 31-34, 2013.


Z. Huang, Y. Yu, J. Gu, and H. Liu, "An Efficient Method for Traffic Sign Recognition Based on Extreme Learning Machine," (in press) IEEE Transactions on Cybernetics, 2016 

Z. Xie, K. Xu, W. Shan, L. Liu, Y. Xiong, and H. Huang, "Projective Feature Learning for 3D Shapes with Multi-View Depth Images," The 23rd Pacific Conference on Computer Graphics and Applications, Tsinghua University, China, October 7-9, 2015. 

2)统一的神经网络结构和算法

20 年前当神经网络发展处于第一次复兴的巅峰,普天下都在忙于为神经网络训练「调参」和苦于寻找办法如何使流行的神经网络学习算法跳出「局部最小点」时,我们的疑问是:1)当普天下的研究人员都乐于和疲于「调参」时,神经网络的发展本身是不是也陷入了局部最小点?2)不同类型的网络「真的需要不同类型的学习算法吗」?3)是否存在一种通用的学习框架来处理不同类型的网络(单层前馈网络和多层网络)?

不同单隐层前馈神经网络的统一

许多种单隐层前馈神经网络在广泛使用中,包括前馈网络、径向基函数(RBF)网络、支持向量机(SVM)、多项式网络、傅里叶变换和小波网络等。这些之前都被认为是不同而且没有联系的学习或计算技术。超限学习机理论认为这些都有一样的网络结构,只是网络的隐层用的是不同的神经元而已。并提出在考虑 Universal Approximation Capability(有人翻译成「万能逼近」能力)和分类能力的前提下,只要隐层神经元是非线性阶段连续的,人们就不需要为不同的前馈神经网络设计不同的学习算法。作为 ELM 的一个特例(傅立叶序列作为隐层神经元),后来 Intel 和美国加州大学伯克利分校研究团队提出的 Random Kitchen Sink(RKS)以及 Google 团队提出的 FastFood 也在近几年有许多发展和实际成功应用。

参考文献:

G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, "Extreme learning machine: a new learning scheme of feedforward neural networks," Proceedings of international joint conference on neural networks (IJCNN2004), Budapest, Hungary, 25–29 July, 2004.

G.-B. Huang, L. Chen and C.-K. Siew, "Universal Approximation Using Incremental Constructive Feedforward Networks with Random Hidden Nodes," IEEE Transactions on Neural Networks. vol. 17, no. 4, pp. 879-892, 2006.

G.-B. Huang and L. Chen. "Convex Incremental Extreme Learning Machine," Neurocomputing, vol. 70, pp. 3056-3062, 2007.

A. Rahimi and B. Recht, "Random features for large-scale kernel machines," Proceedings of the 2007 neural information processing systems (NIPS2007), 3–6 Dec 2007.

Q. Le, T. Sarlós T, and A. Smola, "Fastfood approximating kernel expansions in loglinear time," Proceedings of the 30th international conference on machine learning, Atlanta, USA, p. 16–21, June 2013.

单隐层学习和多隐层学习的统一

我们真的需要迭代式地调整多层前馈神经网络的隐层节点吗?前馈神经网络真的要像六十年来一直被认为是个黑箱吗?传统的误差反向传播(BP)算法和支持向量机(SVM)将多层网络视为黑箱。与此不同的是,超限学习机将多层网络视为白箱,并且一层一层地进行训练。总体看,超限学习机将单隐层前馈和多隐层网络看成一个类似的统一体,用雷同的方法来处理单隐层前馈和多隐层网络。然而,与深度神经网络需要密集地调整其隐层节点不同,超限学习理论显示,隐层节点很重要,但(单隐层神经网络和多层网络的)隐层节点可以和数据无关,可以随机产生或从上一代传给下一代而不需要调整。学习可以无需通过迭代式地调整隐层节点来实现。


3.1_.jpg


参考文献:

J. Tang, C. Deng, and G.-B. Huang, "Extreme Learning Machine for Multilayer Perceptron" , IEEE Transactions on Neural Networks and Learning Systems, May 2015.

G.-B. Huang, Z. Bai, L. L. C. Kasun, and C. M. Vong, "Local Receptive Fields Based Extreme Learning Machine," IEEE Computational Intelligence Magazine, vol. 10, no. 2, pp. 18-29, 2015.

L. L. C. Kasun, H. Zhou, G.-B. Huang, and C. M. Vong, "Representational Learning with Extreme Learning Machine for Big Data," IEEE Intelligence Systems, vol. 28, no. 6, pp. 31-34, 2013.

单隐层学习和多隐层学习与层次性学习的统一

多隐层学习(Multi-Hidden Layer Learning)和层次性学习(Hierarchical Learning)的概念不是完全一样。多隐层学习强调的是一个目标应用(比如图像分类)由一个包含多个隐层节点的网络实现。而超限学习机的层次性学习强调的是每个隐层实现一个功能,各个功能单元通过级联,并联,串联等组合形成一个学习能力复合的机器学习系统。[图3] 层次性学习的一个特例可以是一个多隐层学习方法。在超限学习机的体系下,各个功能块可以采用和应用相关的超限学习机算法。另外,在超限学习机中,一个隐层节点可以是一个由多个神经元组成的超级隐节点单元。[图4]  这种层次性学习可以最终提供比较理想的 End-to-End Learning 和 One-Shot Learning。

3.2_.jpg



3.3_.jpg

 

参考文献:

G.-B. Huang, "What are Extreme Learning Machines? Filling the Gap between Frank Rosenblatt's Dream and John von Neumann's Puzzle," Cognitive Computation, vol. 7, pp. 263-278, 2015.

3)基本学习单元的统一

就像加减乘除四大基本运算操作是数学体系的基础,物理体系也是建立在几大基本定律上一样,基于生命体的生物学习(Biological Learning)体系其实是建基于至少六大基本学习单元操作之上:压缩(Compression)、特征学习(Feature Learning)、稀疏编码(Sparse coding)、聚类(Clustering)、回归拟合(Regression)和分类(Classification)。[图5]  这六大基本学习单元操作可以由同样的超限学习机实现,隐层节点与数据无关,要调整的是从隐层节点到输出层的连接。[图4]  [图6]

比如支持向量机(SVM),随机投影(Random Projection,RP)以及主成份分析(Principal Component Analysis, PCA)看似不太相关,却在超限学习机理论和算法下可以有机的统一。2012 年发表在 IEEE Transactions on Cybernetics 上的文章证明了支持向量机是超限学习机的次优解。刚刚发表在 IEEE Transactions on Image Processing 文章指出随机投影和主成份分析其实可以看作是超限学习机的隐层神经元用线性函数时的的一个特例。可是超限学习机也可以用非线性的隐层神经元,所以就可以进行升维,降维,特征学习等功能。所以从特征学习角度看随机投影和主成份分析也是提供次优解。

3.4_.jpg



3.5_.jpg



参考文献:

G.-B. Huang, H. Zhou, X.Ding, and R. Zhang, "Extreme Learning Machine for Regression and MulticlassClassification", IEEE Transactions on Systems, Man, and Cybernetics – Part B:Cybernetics, vol. 42, no. 2, pp. 513-529, 2012.

L. L. C. Kasun, Y. Yang, G.-B. Huang, and Z. Zhang, Fellow, "Dimension Reduction With Extreme Learning Machine", IEEE Transactions on Neural Networks, vol. 25, no.8, pp. 3906-3918, 2016

4)普适学习和普适智能

随着物联网的深入发展,在不远的未来,大部分的设备将拥有智能与学习能力。我们相信,就如包括人类在内的生物社会一样,这些智能设备也将发展出一个互相交流的「智能体社会」(Internet of Intelligent Things)图7。每个智能体都嵌入有学习功能并且能相互交流。因而我们有必要提出普适学习(Pervasive Learning)和普适智能(Pervasive Intelligence)的概念和目标。由于超限学习机的学习速度比深度学习快上万倍,它可以帮助我们实现智能体社会。超限学习机芯片可以集成到硬件中,并实现实时本地在线学习,从而实现普适学习(Pervasive Learning)和普适智能(Pervasive Intelligence)。这几年,关于超限学习机芯片的研究得到一些实质进展,主要集中在三个方面:多核加速芯片(现场可编程门阵列(FPGA)和专用集成电路(ASIC)),神经形态芯片以及以光技术实现 ELM。

3.6_.jpg



参考文献:

G.-B. Huang, "Extreme learning Machines: Enabling Pervasive Learning and Pervasive Intelligence", Pushing Frontiers, vol. 8, pp. 22-23, 2016.

 
5)填补不同学习理论间的空白

与 60 年来传统的学习理论不同,超限学习机理论的一个重要性质是其通用学习能力(压缩、特征学习、聚类、回归、分类等)无需通过调整隐层节点来获得,例如隐层节点可以从前辈继承或随机生成。进一步来说,超限学习机理论也为传统神经网络提供了理论支持(包括局部感受域(Local Receptive Field)和池化策略(Pooling)),而做为局部感受域的一个特殊实现方法的卷积神经操作和池化策略正是深度学习得以成功的主要原因之一。在 ELM 理论和应用下,不同随机分布的随机隐层神经元的产生形成全联结的网络或部分联结的网络(图8)。或如 ELM 早期理论(2007 年)指出不同的部分联结也可以形成局部稠密边缘稀疏的局部感受域或不同局部感受域的非线性组合(池化策略)(图 9)。根据 ELM 理论,卷积神经网络只是一种局部感受域和池化策略实现,除了卷积神经操作,还有许多其它的局部感受域存在,如何实现还有待进一步研究。


3.7_.jpg



3.8_.jpg



岭回归(Ridge Regression Theory)、线性系统的稳定性、矩阵稳定性、Bartlett 神经网络泛化能力理论(Neural Network Generalization Performance Theory)、支持向量机最大边界理论(Maximal Margin Theory)等在超限学习机以前被认为是不同的理论。特别是 Bartlett 神经网络泛化能力理论在以前很少用于训练神经网络。超限学习机采用了 Bartlett 理论,从而保证其泛化能力。超限学习机的理论显示,这些之前的理论从机器学习角度看是有机一致的。


参考文献:

G.-B. Huang and L. Chen, "Convex Incremental Extreme Learning Machine," Neurocomputing, vol. 70, pp. 3056-3062, 2007.

G.-B. Huang, "An Insight into Extreme Learning Machine: Random Neurons, Random Features and Kernels", Cognitive Computation, vol. 6, pp. 376-390, 2014.

G.-B. Huang, Z. Bai, L. L. C. Kasun, and C. M. Vong, "Local Receptive Fields Based Extreme Learning Machine", IEEE Computational Intelligence Magazine, vol. 10, no. 2, pp. 18-29, 2015.

2. 作为生物学习的一个「基本粒子」级学习单元的超限学习机


1)生物学习机制的验证

超限学习机理论显示,隐层节点很重要,但在很多应用中不需要调整(比如压缩感知、特征学习、聚类、回归和分类)。在理论上,这种神经元的激活函数几乎可以是任何非线性分段连续的,包括上百种人类无法知道其准确数学模型的人脑中的神经元。在超限学习机理论和技术提出之后的大概 10 年左右,越来越多的有关生物脑学习系统的研究成果直接或间接的支持了超限学习机理论。

在 2013 年及之后发表在《自然》等期刊上文章报告了来自美国斯坦福大学,哈佛医学院,麻省理工学院和哥伦比亚大学等大学的研究人员发现在老鼠的嗅觉系统中神经元在学习过程中是随机产生的。这可能是超限学习机理论首次在生物系统中得到验证。

在 2015 年美国哥伦比亚大学和 IBM Watson 的研究人员进一步阐述生物学习系统中神经元的随机产生可以进一步帮助生物学习系统实现对特征学习(升维,降维等),并且明确指出这在工程实现比如超限学习机是被证明有效的。这些在生物脑中发现的神经元机制和超限学习机理论预测是一致的。

在 2015 年美国乔治亚理工学院和华盛顿大学的一批研究人员通过人的行为学分析简直验证人脑中随机神经元机制可以帮助人拥有小样本学习能力。

2016 年发表在《自然•神经科学》上的文章说明了超限学习机理论进一步在猴子的脑中得到了直接验证。

参考文献:

M. Rigotti, O. Barak, M. R. Warden, X.-J. Wang, N. D. Daw, E. X. Miller, S. Fusi, "The importance of mixed selectivity in complex cognitive tasks," Nature, vol.497, pp. 585-590, 2013


O. Barak, M. Rigotti, S. Fusi, "The sparseness of mixed selectivity neurons controls the generalization-discrimination trade-off," Journal of Neuroscience, vol. 33, no. 9, pp. 3844-3856, 2013

S. Fusi, E. K Miller, and M. Rigotti, "Why neurons mix: high dimensionality for higher cognition," Current Opinion in Neurobiology, vol. 37, pp. 66-74, 2015

R. I. Arriaga, et al.Visual Categorization with Random Projection, Neural Computation, vol. 27, 2015

J. Xie and C. Padoa-Schioppa, "Neuronal remapping and circuit persistence in economic decisions," Nature Neuroscience, vol. 19, 2016

E. L Rich and J. D Wallis, "What stays the same in orbitofrontal cortex," Nature Neuroscience, vol. 19, no. 6, 2016


2)解答约翰·冯·诺依曼对生物学习的困惑


在罗森布拉特的梦想中,他的神经网络感知器可以最终帮助实现电子计算机走路、说话、看东西、写作、繁衍自己并有自我意识,而作为计算机之父的冯·诺依曼却不解为什么一个看似不完美生物神经网络系统却有完美的学习能力。

超限学习机理论的目标之一是打破机器学习和生物学习之间的壁垒。尽管动物的大脑在总体上来说是结构化及有序的,在其某些层或区域,其局部结构可看成「无序」的。从超限学习理论的角度看,网络的整个多层结构(人工神经网络或生物网络)是结构化且有序的,但它们在某一个神经元层或神经模块片中看起来「混乱、非组织结构化」。从局部来看,「硬连线」可以是全连接或部分连接。这种全局结构化而局部随机连接的看似「不完美」结构,却正好构成了基本的完美的学习能力,包括压缩感知、特征学习、稀疏编码、聚类、回归和分类等。这就解决了冯·诺依曼对生物学习的谜惑。生物学习机制极其复杂,而我们相信「无需调节隐层节点的学习」是很多学习模块中的一种基本生物学习机制。虽然人脑中也许有几百种不同种类的生物神经元,他们的数学模型也不为人类所知,但是超限学习机理论指出一个基本的生物学习机制也许是生物神经元本身在学习中是不需要调整的,和应用是无关的。进一步说,随机隐层神经元节点和「随机连线」只是两种特定的实现「无需调节隐层节点的学习」的方法。IBM 团队最近也宣布他们研制出类生物神经元,他们实现的理论基础正是基于 ELM 理论最早所提出,倡导和支持的:生物神经元应该是随机的。


参考文献:

G.-B. Huang, What are Extreme Learning Machines? Filling the Gap between Frank Rosenblatt's Dream and John von Neumann's Puzzle, Cognitive Computation, vol. 7, pp. 263-278, 2015. 

T. Tuma, A. Pantazi, M. L. Gallo, A. Sebastian, and E. Eleftheriou, "Stochastic phase-change neurons,"  Nature Nanotechnology, vol. 11, August 2016

3)展望


我们相信超限学习机理论和技术提供了一个架接跨越机器学习和生物学习基本「粒子」级的学习机制。也填补了罗森布拉特的梦想和冯·诺依曼的困惑之间有着很大的空白地带和理论技术鸿沟。这也是实现普适学习和普适智能的必要条件。然而这些还很初步,套用个别神经网络界前辈对超限学习机的评论和期望:「好戏还没有开始」,也许更多的令人激动和感兴趣的东西还等着大家研究开发。


有兴趣的研究人员,可以申请新加坡南洋理工大学黄广斌教授研发团队在下列研究方向的博士生、博士后和访问学者位置:海上自主导航数据分析、智能芯片设计、多模数据分析、视频分析、目标识别和跟踪。
528 浏览

Geoffrey Hinton最新演讲梳理,从人工神经网络到RNN应用

机械自动化类 品管人生 2016-10-19 16:04 发表了文章 来自相关话题

Ⅰ. 介绍

Geoffrey Hinton 教授上周做了一次非常棒的演讲,我学到了很多。尽管该演讲是面向普通听众,但里面的好东西要比我预期的多,非常激动能听到 Hinton 教授分享他的研究。也就是说,那些很了解深度学习的人可以认为这是将 Hinton 的想法解释给对此领域了解不多的人。



Ⅱ. 人工神经元和网络

首先,让我们先讲讲什么是人工神经元。我们对大脑中神经元如何运作进行了粗野的理想化实现,以至于通过一堆这样的神经元的协作让我们能学习这类计算方式。粗简化实现就是神经元获得一些加权输入,它从神经元突触获得一些峰值电压(动作电位)。如果该输入超过特定阈值,它就会产生与输入线性相关的输出。这被称为修正线性神经元(rectified linear neuron)。我们可以在一个网络中连接这些神经元,并训练突触强点(权重)让这些网络完成一些任务。


让我们举例说明一下这种网络能做什么。假设我采用一张依照像素强度(pixel intensity)描述的照片(每个输入是一个像素的 3 元组 RGB 值),并假设这张图像中有一百万个像素。我们把此作为输入,输出就是一串描述图像是什么的单词。这是一项难以编写的计算机程序,也没人真的知道如何编写。有人花费了超过 50 年试图写出这样的程序,我敢打赌他们并没能走多远。在机器学习领域,可以说难以做编程,所以我们打算训练人工神经网络(ANN)做这件事。


人工神经网络就是一堆这样简单的神经元连接到一起。ANN 的最简单形式被称为前馈网络,该网络的思路是你采用如上所举例的图像像素作为输入,有多层神经元对应大脑不同的皮层区,而且你还有一些输出神经元给你回应,给出的回应对应不同的类。相邻层所有神经元之间的连接强度就是权重,学习内容包括调整神经元之间的这些权重。很明显,这样的东西能被用于做昂贵的计算,只要我们能搞清楚如何改变所有连接。


接下来,我将讲一种有效又易于理解的算法,但它也完全无用。你要做的就是采用一个 ANN,在权重上给它一些初始值。你用一张图像作为输入,而且你还知道正确的输出类该是什么,然后你观察输出。然后,你要做的就是采用训练案例的一个小的子集(典型的子集),在此网络上运行这些子集,看该网络怎么样。你拿出连接强度中的一个,并稍微的扰乱它(可把它认为是一个突变)。再次在网络上运行同样测试案例的子集,看它是变的更好还是更坏。如果变的更好,继续做变动。如果变的更坏,做相反的改动。这种方法有效但却非常非常慢。在此要重点记住的是,我们在实际网络中有千百万(或数十亿)的连接。为了升级一个连接的权重,上面的流程要在网络上对同样的子集进行成千上万次的运行。在效率上这种方法基本无望,但至少知道了它如何工作。为了更加有效,我将讲下反向传播算法。




III. 反向传播算法

反向传播算法是计算权重中的改变如何影响输出误差的一种有效方式。简单的说,不再是进行随机的突变,观察反向传播是否对此进行改进,网络观察输出和你给出答案(正确的或预期的输出)之间的差别。它通过使用网络中的权重搞清楚这种差别,并搞清楚如何改变这些连接能产生输出。这只是一些基础的微积分学。因为这些权重在网络中,权重中变化的关系和输出中发生了什么不是一个未知的秘密,但却是决定性的。这意味着你可以同时搞清楚所有的权重,要比朴素算法明显的更高效。


在反向传播算法中,你在网络中用现有的权重向前运行输入,观察网络输出与你想要输出之间的不同。然后将信息在一个反向通道中反向传送到网络,用来计算突触串(权重)中的一个小变化如何改变所得答案与正确答案之间的相差。并行的对每个连接进行这种工作,你就能朝着改进差异标准的方向轻微升级所有连接。


反向传播不是一直都很流行。它发明于 20 世纪 70 年代,但它没能像机器学习科学家预想的那样有效,因为有很多隐层的深度网络没有浅层网络好,在循环网络中也不很好。到了 90 年代,大部分人都放弃它了。这基本上就是反向传播的寒冬了。在加拿大的一些人开发出的技术使得机器学习在深度网络中表现更好,而后才渡过了寒冷的冬天。由于这不是该演讲的重点,我不会深入此话题。重点是通过开发这些技术,使得反向传播有效了,从广义上来说有更多的数据集和计算能力了,全世界都在追求反向传播了。




IV. 循环神经网络

循环神经网络(RNN)是该演讲的下一个主题。为了简洁,Hinton 教授略去了很多细节(我相信你可以很轻松地在网上找到相关材料)。本文也不会深入到相关细节中,而只会简单地描述一下这种网络。RNN 是一种接受输入序列并产生输出序列的的网络。这种网络由输入神经元、输出神经元和一些隐藏神经元组成。在每个时间步骤,隐藏神经元都会接收到一些状态,而隐藏神经元的状态依赖于它们在这个时间步骤所接受到的输入,也依赖于之间步骤的输入状态——这也是它们被称作「循环(recurrent)」的原因。关于 RNN 需要注意的一点是其权重在不同的时间步骤是捆绑在一起的,这样当它经过一系列的时间步骤时,它可以重复利用同样的权重。它们的训练方式在细节上和反向传播有一些相似,此处就不谈及这些细节了。了解更多信息,请参看 Hochreiter and Schmidhuber (1997) 了解目前效果最好的循环网络类型。




V. 应用

Hinton 教授谈了一些用 RNN 完成的一些应用。这些应用不管是新是旧,都能为被探索的可能的新领域提供见解(insights),并且在计算方法也取得了一些进步。


i. 预测维基百科的下一个字符

这是 Hinton 的组在 2010、2011 年完成的一项实验。将维基百科仅看作是一个字符的序列。该网络所见到的就是一个字符的序列——5 亿个字符,该网络要做的就是预测下一个字符。不同的字符有 86 个,输入就是这 86 个字符,而输出就是预测下一个会出现的字符是什么(86 个总和为 1 的概率)。正如我之前所提到的,我不会谈论算法上的细节。我很确定如果输入是「生命的意义是」,你会对这个训练出来的网络的输出感兴趣。下面这个输出结果仅供娱乐。


The meaning oflife is the tradition of the ancient human reproduction: it is less favorable to the good boy for when to remove her bigger.


这可比 42 这个答案要有趣多了(42, 是《银河系漫游指南》一书里超级计算机对生命的意义的计算结果,非常富有喜剧性,是所有西方科技爱好者乐于引用的一个调侃型的典故。)!




ii. 一种实现机器翻译的全新方法

一个更激动人心的主题是相对较新的机器翻译应用,谷歌将其投入应用还不到两周。对于每一种语言,我们都有一个编码器 RNN 和一个解码器 RNN。其中编码器 RNN 获取一个词串(string of words),并以一些隐藏状态作为结束。我们将这些隐藏状态定义为「思想(thought)」。换句话说,任何词串都可以表达成一个思想(事实并不是听起来那么蠢)。英语编码器 RNN 的工作就是将一个英语词序列转换成一个思想向量(thought vector)。你训练这个 RNN 的方法是:你有成对的英语句子,使用比如法语的解码器 RNN 的反向传播,随着时间逐渐最大化产生特定翻译的概率。


在更容易的词中,你可以从完全随机的权重开始并馈送入英文句子的词,这些句子会通过这些随机的权重(随机思想)。该随机思想(random thought)被法语解码器 RNN 的随机权重编码以生成一个概率分布(输出)。我们从这个分布中选择词,并将其馈送回该 RNN 作为输入。给定其第一个词,该 RNN 可以为可能的第二个词特定一个分布。这个过程被不断重复完成,直到完成 full stop。本质上讲,我们想做的是获取输入串并确定其思想(thought)是什么,然后将其用另一种语言表达出来。显然,这就是机器翻译应该的工作方式。这种方法显著优于之前所用的词到词直接翻译的方法。




VI. 处理噪杂数据的两种非常不同的方法

该演讲的一项讨论是机器学习科学家的哲学与传统的数学家和统计学家处理嘈杂数据的方法之间的不同之处。传统的统计技术的目标是使用简单的模型表征数据,并且只相信不太可能是由噪声所引起的规律。这种方法是有漏洞的,我们只能检测到一些非常强的规律。但是,因为这些数学方法涉及到寻找变量和预测输出之间的关键,所以它们允许在模型参数上使用带有理论分析的的可追溯算法(traceable algorithm)。


另一方面,Hinton 教授相信,为了实现良好的表现,我们需要利用我们的计算能力,并向我们的网络中注入尽可能多的参数,从而获取该数据的所有规律(既有可靠的也有不可靠的),并结合所有它们的意见以做出预测。在经验上讲,这已经在完成许多任务上被证明是成功的了。还有其它解释、直觉知识、以及某种程度上的数学公式用于支持机器学习。但是,以我的意见看,尽管机器学习技术取得了成功,但或多或少还缺乏其基础的理论,甚至完全不存在。




VII. 向前发展的机器学习

正如你可能注意到的那样,上面的讨论全部围绕着通过监督学习训练的神经网络。而另一方面,无监督学习到目前为止还没有取得很大的成功,尽管无监督学习是对人类学习方式的一种更正确的描述。这无疑是一个雄心勃勃的目标,而许多研究者相信类似于人类的创造能力并不能通过完全的无监督学习机制被注入到机器中。这种怀疑不是没有意义的,因为在没有提供任何形式的监督的情况下,如果算法不知道数据中相关的变化,那么它将如何执行有意义的学习?


随着机器学习领域的继续扩张,它毫无疑问将会吸引到越来越多的人才并继续成熟。随着这一趋势的继续,也许我们最终将能发现机器学习应用的潜在理论,不管其是复杂神经网络的数学公式,还是输出解的优化证明,它肯定在学术研究方面都是一个激动人心的思想。




VIII. 最后的想法

因为机器学习领域是很有发展前途的,所以我认为我们应该记得机器学习的许多基本基础来自于传统的统计学和数学方法,尽管存在不同的哲学流派。因此,我们不应该忽视对这些基础学科的研究,因为它们能极大地加快我们理解机器学习技术的速度。

此外,我想提一下 Hinton 教授留下的一个开放的问题:


如果心智只是我们的大脑——一团神经元、突触、动作电位和神经递质构成的网络——的产物,那么我们可以将心智注入一个电脑建模了我们的大脑的人工神经网络吗?如果可以,这又意味着什么?


最后,作为结语。毫不奇怪,这个演讲厅已经爆满,我只能在后排的柱子旁边听 Hinton 教授的演讲,为了看到幻灯片,我时不时就要伸出脑袋去瞧一眼。听 Hinton 教授的演讲无疑是一种享受。这是一个高层次的演讲,但也透彻地介绍了机器学习领域及其应用,我希望能够通过这一篇评论将这些概念和知识传递给你。
 
 
 
 
来源:Joshua Chou 机器之心
智造家提供 查看全部
Ⅰ. 介绍

Geoffrey Hinton 教授上周做了一次非常棒的演讲,我学到了很多。尽管该演讲是面向普通听众,但里面的好东西要比我预期的多,非常激动能听到 Hinton 教授分享他的研究。也就是说,那些很了解深度学习的人可以认为这是将 Hinton 的想法解释给对此领域了解不多的人。



Ⅱ. 人工神经元和网络

首先,让我们先讲讲什么是人工神经元。我们对大脑中神经元如何运作进行了粗野的理想化实现,以至于通过一堆这样的神经元的协作让我们能学习这类计算方式。粗简化实现就是神经元获得一些加权输入,它从神经元突触获得一些峰值电压(动作电位)。如果该输入超过特定阈值,它就会产生与输入线性相关的输出。这被称为修正线性神经元(rectified linear neuron)。我们可以在一个网络中连接这些神经元,并训练突触强点(权重)让这些网络完成一些任务。


让我们举例说明一下这种网络能做什么。假设我采用一张依照像素强度(pixel intensity)描述的照片(每个输入是一个像素的 3 元组 RGB 值),并假设这张图像中有一百万个像素。我们把此作为输入,输出就是一串描述图像是什么的单词。这是一项难以编写的计算机程序,也没人真的知道如何编写。有人花费了超过 50 年试图写出这样的程序,我敢打赌他们并没能走多远。在机器学习领域,可以说难以做编程,所以我们打算训练人工神经网络(ANN)做这件事。


人工神经网络就是一堆这样简单的神经元连接到一起。ANN 的最简单形式被称为前馈网络,该网络的思路是你采用如上所举例的图像像素作为输入,有多层神经元对应大脑不同的皮层区,而且你还有一些输出神经元给你回应,给出的回应对应不同的类。相邻层所有神经元之间的连接强度就是权重,学习内容包括调整神经元之间的这些权重。很明显,这样的东西能被用于做昂贵的计算,只要我们能搞清楚如何改变所有连接。


接下来,我将讲一种有效又易于理解的算法,但它也完全无用。你要做的就是采用一个 ANN,在权重上给它一些初始值。你用一张图像作为输入,而且你还知道正确的输出类该是什么,然后你观察输出。然后,你要做的就是采用训练案例的一个小的子集(典型的子集),在此网络上运行这些子集,看该网络怎么样。你拿出连接强度中的一个,并稍微的扰乱它(可把它认为是一个突变)。再次在网络上运行同样测试案例的子集,看它是变的更好还是更坏。如果变的更好,继续做变动。如果变的更坏,做相反的改动。这种方法有效但却非常非常慢。在此要重点记住的是,我们在实际网络中有千百万(或数十亿)的连接。为了升级一个连接的权重,上面的流程要在网络上对同样的子集进行成千上万次的运行。在效率上这种方法基本无望,但至少知道了它如何工作。为了更加有效,我将讲下反向传播算法。




III. 反向传播算法

反向传播算法是计算权重中的改变如何影响输出误差的一种有效方式。简单的说,不再是进行随机的突变,观察反向传播是否对此进行改进,网络观察输出和你给出答案(正确的或预期的输出)之间的差别。它通过使用网络中的权重搞清楚这种差别,并搞清楚如何改变这些连接能产生输出。这只是一些基础的微积分学。因为这些权重在网络中,权重中变化的关系和输出中发生了什么不是一个未知的秘密,但却是决定性的。这意味着你可以同时搞清楚所有的权重,要比朴素算法明显的更高效。


在反向传播算法中,你在网络中用现有的权重向前运行输入,观察网络输出与你想要输出之间的不同。然后将信息在一个反向通道中反向传送到网络,用来计算突触串(权重)中的一个小变化如何改变所得答案与正确答案之间的相差。并行的对每个连接进行这种工作,你就能朝着改进差异标准的方向轻微升级所有连接。


反向传播不是一直都很流行。它发明于 20 世纪 70 年代,但它没能像机器学习科学家预想的那样有效,因为有很多隐层的深度网络没有浅层网络好,在循环网络中也不很好。到了 90 年代,大部分人都放弃它了。这基本上就是反向传播的寒冬了。在加拿大的一些人开发出的技术使得机器学习在深度网络中表现更好,而后才渡过了寒冷的冬天。由于这不是该演讲的重点,我不会深入此话题。重点是通过开发这些技术,使得反向传播有效了,从广义上来说有更多的数据集和计算能力了,全世界都在追求反向传播了。




IV. 循环神经网络

循环神经网络(RNN)是该演讲的下一个主题。为了简洁,Hinton 教授略去了很多细节(我相信你可以很轻松地在网上找到相关材料)。本文也不会深入到相关细节中,而只会简单地描述一下这种网络。RNN 是一种接受输入序列并产生输出序列的的网络。这种网络由输入神经元、输出神经元和一些隐藏神经元组成。在每个时间步骤,隐藏神经元都会接收到一些状态,而隐藏神经元的状态依赖于它们在这个时间步骤所接受到的输入,也依赖于之间步骤的输入状态——这也是它们被称作「循环(recurrent)」的原因。关于 RNN 需要注意的一点是其权重在不同的时间步骤是捆绑在一起的,这样当它经过一系列的时间步骤时,它可以重复利用同样的权重。它们的训练方式在细节上和反向传播有一些相似,此处就不谈及这些细节了。了解更多信息,请参看 Hochreiter and Schmidhuber (1997) 了解目前效果最好的循环网络类型。




V. 应用

Hinton 教授谈了一些用 RNN 完成的一些应用。这些应用不管是新是旧,都能为被探索的可能的新领域提供见解(insights),并且在计算方法也取得了一些进步。


i. 预测维基百科的下一个字符

这是 Hinton 的组在 2010、2011 年完成的一项实验。将维基百科仅看作是一个字符的序列。该网络所见到的就是一个字符的序列——5 亿个字符,该网络要做的就是预测下一个字符。不同的字符有 86 个,输入就是这 86 个字符,而输出就是预测下一个会出现的字符是什么(86 个总和为 1 的概率)。正如我之前所提到的,我不会谈论算法上的细节。我很确定如果输入是「生命的意义是」,你会对这个训练出来的网络的输出感兴趣。下面这个输出结果仅供娱乐。


The meaning oflife is the tradition of the ancient human reproduction: it is less favorable to the good boy for when to remove her bigger.


这可比 42 这个答案要有趣多了(42, 是《银河系漫游指南》一书里超级计算机对生命的意义的计算结果,非常富有喜剧性,是所有西方科技爱好者乐于引用的一个调侃型的典故。)!




ii. 一种实现机器翻译的全新方法

一个更激动人心的主题是相对较新的机器翻译应用,谷歌将其投入应用还不到两周。对于每一种语言,我们都有一个编码器 RNN 和一个解码器 RNN。其中编码器 RNN 获取一个词串(string of words),并以一些隐藏状态作为结束。我们将这些隐藏状态定义为「思想(thought)」。换句话说,任何词串都可以表达成一个思想(事实并不是听起来那么蠢)。英语编码器 RNN 的工作就是将一个英语词序列转换成一个思想向量(thought vector)。你训练这个 RNN 的方法是:你有成对的英语句子,使用比如法语的解码器 RNN 的反向传播,随着时间逐渐最大化产生特定翻译的概率。


在更容易的词中,你可以从完全随机的权重开始并馈送入英文句子的词,这些句子会通过这些随机的权重(随机思想)。该随机思想(random thought)被法语解码器 RNN 的随机权重编码以生成一个概率分布(输出)。我们从这个分布中选择词,并将其馈送回该 RNN 作为输入。给定其第一个词,该 RNN 可以为可能的第二个词特定一个分布。这个过程被不断重复完成,直到完成 full stop。本质上讲,我们想做的是获取输入串并确定其思想(thought)是什么,然后将其用另一种语言表达出来。显然,这就是机器翻译应该的工作方式。这种方法显著优于之前所用的词到词直接翻译的方法。




VI. 处理噪杂数据的两种非常不同的方法

该演讲的一项讨论是机器学习科学家的哲学与传统的数学家和统计学家处理嘈杂数据的方法之间的不同之处。传统的统计技术的目标是使用简单的模型表征数据,并且只相信不太可能是由噪声所引起的规律。这种方法是有漏洞的,我们只能检测到一些非常强的规律。但是,因为这些数学方法涉及到寻找变量和预测输出之间的关键,所以它们允许在模型参数上使用带有理论分析的的可追溯算法(traceable algorithm)。


另一方面,Hinton 教授相信,为了实现良好的表现,我们需要利用我们的计算能力,并向我们的网络中注入尽可能多的参数,从而获取该数据的所有规律(既有可靠的也有不可靠的),并结合所有它们的意见以做出预测。在经验上讲,这已经在完成许多任务上被证明是成功的了。还有其它解释、直觉知识、以及某种程度上的数学公式用于支持机器学习。但是,以我的意见看,尽管机器学习技术取得了成功,但或多或少还缺乏其基础的理论,甚至完全不存在。




VII. 向前发展的机器学习

正如你可能注意到的那样,上面的讨论全部围绕着通过监督学习训练的神经网络。而另一方面,无监督学习到目前为止还没有取得很大的成功,尽管无监督学习是对人类学习方式的一种更正确的描述。这无疑是一个雄心勃勃的目标,而许多研究者相信类似于人类的创造能力并不能通过完全的无监督学习机制被注入到机器中。这种怀疑不是没有意义的,因为在没有提供任何形式的监督的情况下,如果算法不知道数据中相关的变化,那么它将如何执行有意义的学习?


随着机器学习领域的继续扩张,它毫无疑问将会吸引到越来越多的人才并继续成熟。随着这一趋势的继续,也许我们最终将能发现机器学习应用的潜在理论,不管其是复杂神经网络的数学公式,还是输出解的优化证明,它肯定在学术研究方面都是一个激动人心的思想。




VIII. 最后的想法

因为机器学习领域是很有发展前途的,所以我认为我们应该记得机器学习的许多基本基础来自于传统的统计学和数学方法,尽管存在不同的哲学流派。因此,我们不应该忽视对这些基础学科的研究,因为它们能极大地加快我们理解机器学习技术的速度。

此外,我想提一下 Hinton 教授留下的一个开放的问题:


如果心智只是我们的大脑——一团神经元、突触、动作电位和神经递质构成的网络——的产物,那么我们可以将心智注入一个电脑建模了我们的大脑的人工神经网络吗?如果可以,这又意味着什么?


最后,作为结语。毫不奇怪,这个演讲厅已经爆满,我只能在后排的柱子旁边听 Hinton 教授的演讲,为了看到幻灯片,我时不时就要伸出脑袋去瞧一眼。听 Hinton 教授的演讲无疑是一种享受。这是一个高层次的演讲,但也透彻地介绍了机器学习领域及其应用,我希望能够通过这一篇评论将这些概念和知识传递给你。
 
 
 
 
来源:Joshua Chou 机器之心
智造家提供
623 浏览

专栏 | ELM超限学习机:填补罗森布拉特的神经网络梦想和冯·诺依曼对生物学习困惑之间的空白

设计类 jingjing 2016-09-09 15:47 发表了文章 来自相关话题

摘要:本文总结被神经网络前辈和著名经济学家 Halbert White 认为「Sexy」的超限学习机(Extreme Learning Machines, ELM)的「Sexy」之处和之所以被称为「超限学习机(ELM)」的原因。在超限学习机的理论框架下,机器(Machine, Devices, Sensors)和生物脑可以看成一致的,只是构造的基本材料和硬件不同而已。有机的「机器」(生物学习系统)也有千万种,并且还在一直自我演化。但我们坚信两者之间可以拥有一个共同的「基本粒子」级(或称为「基本单元」级)的学习结构和学习算法,那就是超限学习机(Extreme Learning Machines, ELM)。而这种超限学习机(ELM)的实现和硬件材料以及具体数据可以是无关的。ELM 理论指出众多种的生物神经元在学习中是不需要调整的和数据无关的。生物学习机制的秘密可能就在于其神经元的随机性。


作者介绍:黄广斌(Guang-Bin Huang)是新加坡南洋理工大学教授(终身)。在 2014 和 2015 年被 Thomson Reuters 评为「高引用研究者」(工程类,计算机科学类),以及「2014 年世界最有影响力的科学精英」和「2015 年世界最有影响力的科学精英」。他是新加坡总统科学奖被提名人(2016)。


他主持的主要项目有:德国宝马集团和南洋理工大学未来汽车联合研究实验室人机交互,脑机交互以及汽车辅助驾驶项目,英国劳斯莱斯和南洋理工大学联合研究实验室海上自主导航决策辅助系统项目,新加坡科技工程和南洋理工大学先进机器人联合研究实验室场景识别和机器学习项目,台湾台达电子股份有限公司和南洋理工大学物联网联合研究实验室数据分析和视频项目。还担任过新加坡樟宜机场新加坡航空公司地面服务公司第五货运大厦的信息跟踪控制系统升级改造的总设计师和技术负责人。

 

神经网络和生物学习之间的空白

 

1. 弗兰克·罗森布拉特的神经网络梦想

在 1950 年代初期,生物学家弗兰克·罗森布拉特(Frank Rosenblatt)提出了他称为感知器(Perceptron)的多层前馈网络。

后来跨越 60 多年特别是从 1980 年代到现在用的大部分神经网络结构其实都是罗森布拉特神经网络感知器的一种,这些包括早期流行的支持向量机(SVM)和现在风靡产业界的卷积神经网络(CNN),也包括 CNN 的前身 Neocognition ,只是针对不同的实现后人提出了不同的学习算法。


罗森布拉特最初提出他的神经网络结构时并没有有效的学习算法,但是他梦想这种神经网络感知器可以看作是「计算机的一种胚胎」,一种最终能够帮助计算机实现「走、说、看、写、繁衍并有自我意识」的智能源泉。罗森布拉特的预测在 60 年后的今天被证明是正确的,这种神经网络技术还有可能是未来人工智能和机器学习的主要技术基础。

2. 马文·明斯基和 1970 年代人工智能冬天

罗森布拉特的预测在 60 年前是极其大胆和有远见的,在当时计算机犹如一个庞然大物的时代几乎没有几个人相信他的预测是对的和他的梦想是能实现的。也许伟大的思想之所以伟大就在于远远超前现有人们所能理解和所能想象的。包括人工智能之父、图灵奖获得者马文·明斯基(Marvin Minsky)和神经网络之父 Bernard Widrow 都对罗森布拉特的预测表示怀疑。罗森布拉特提出的神经网络感知器严格意义上讲在提出之初还只是概念,正如许多伟大的想法在提出之初都会出现有些概念模糊不清的情况,大部分人有疑虑也就正常了。明斯基对罗森布拉特的神经网络感知器的否定直接导致了被后人称为「美丽错误」的发生在 1970 年代的「人工智能的冬天」。

两年前在 Bernard 家吃着他夫人精心准备的旧金山螃蟹,边回顾着 60 年来的神经网络发展往事,受益匪浅也感慨万千。Bernard 在和我探讨超限学习机(Extreme Learning Machines, ELM)时提及他和明斯基以及罗森布拉特三人之间的往事时诚恳地承认在 1950 年代他对罗森布拉特的神经网络感知器也是不太认同,在他和罗森布拉特之间的争论中他是错了。不得不被前辈们敢于承认错误的勇气折服。(提醒:学术争论无论激烈与否可以有助于找寻自然规律的真象,这和打着学术争论之名行人身攻击之实是有本质区别的。)Bernard 提及在 1971 年,也就在「人工智能的冬天」开始之初,罗森布拉特在他 43 岁生日那天在一个湖里划帆板时发生意外就再也没有回来,连尸身都没有找到,令人不禁辛酸和感叹。试想:罗森布拉特如果不是英年早逝(某种程度上讲是含冤而死),人工神经网络、人工智能和机器学习技术也许还会往前推进 10-20 年。

有关 Bernard 和超限学习机的一段小插曲:Bernard 在超限学习机发表后 10 年左右提出了一个类似超限学习机的技术但却没有注意到早期有关超限学习机工作。本来这是一个小事,人们很难查看到所有有关资料,科研很能面面俱到。Bernard 却向我当面提出道歉,前辈们谦卑的人格再次让人折服。

3. 约翰·冯·诺依曼对生物学习的困惑

计算机的硬件实现是要极其精致美妙的,但计算机的实现也是极其脆弱的,不能有任何瑕疵。任何硬件实现上的不完美都可能导致计算机不能正常运作。约翰·冯·诺依曼(John von Neumann)在造出第一代计算机之后,做为计算机之父的他感到困惑不解的是:和计算机需要完美硬件连接组成所不同的是,为什么「一个看上去不完美的包含许多看似随机连接的(生物)神经网络却能够可靠地实现完美的学习功能」。

罗森布拉特的梦想和冯·诺依曼的困惑之间有着很大的空白地带和理论技术鸿沟。

超限学习机:填补神经网络和生物学习之间的空白

人脑可能是宇宙中最复杂的东西。人类在过去几百年对自然界和宇宙的认识在飞速发展,对生物学习特别是人脑的思维机制还知之甚少。罗森布拉特的人工神经网络感知器和冯·诺依曼关于生物学习的困惑以及未解之谜看似关联性不大。其实在超限学习机的理论框架下,机器(Machine、Devices、Sensors)和生物脑可以看成一致的,只是构造的基本材料和硬件不同而已。一种由无机的硅等组成,一种由有机的碳水化合物蛋白质等组成。生物脑本质上也是一种「机器」。无机和有机的「机器」可以完全不一样,它们的结构和算法也千变万化。有机的「机器」(生物学习系统)也有千万种,并且还在一直自我演化。但我们坚信两者之间可以拥有一个共同的「基本粒子」级(或称为「基本单元」级)的学习结构和学习算法,那就是超限学习机。而这种超限学习机的实现和硬件材料和具体数据可以是无关的。

1. 作为人工神经网络的超限学习机

1)「秒杀」学习速度

人工神经网络在人工智能和机器学习中的重要作用最近几年又再次得到认可和追捧,大有人工智能和机器学习的实现必须依赖于人工神经网络之势。然而人工神经网络技术普遍面临着一些挑战,比如繁重而「痛苦」的人工干预、缓慢的学习速度和较弱的可扩展性。超限学习机的一个基本目的是要克服这些过去几十年来人工神经网络界面临的发展瓶颈,达到尽可能少的人工干预,高的测试准确度和实时快速本地化学习的能力,在许多应用中达到秒级,毫秒甚至微妙级或更快。[图1] 相比其它通用的学习技术(比如深度学习),在有些应用中超限学习机可以快几千几万倍。比如在有些手写体识别,3D 图形应用,各国交通路牌识别等应用中,超限学习机与深度学习相比可进一步提高准确率, 并且大幅度降低训练时间(相比较深度学习基于 GPU 的 1-2 天训练时间,超限学习机在普通计算机上的训练时间缩短到几分钟或更少)。在许多医疗大数据应用上,超限学习机也比传统的学习方法在提高准确率的情况下将学习速度大幅提高几千倍。 






图 1

参考文献:

L. L. C. Kasun, H. Zhou, G.-B. Huang, and C. M. Vong, "Representational Learning with Extreme Learning Machine for Big Data," IEEE Intelligent Systems, vol. 28, no. 6, pp. 31-34, 2013.


Z. Huang, Y. Yu, J. Gu, and H. Liu, "An Efficient Method for Traffic Sign Recognition Based on Extreme Learning Machine," (in press) IEEE Transactions on Cybernetics, 2016 

Z. Xie, K. Xu, W. Shan, L. Liu, Y. Xiong, and H. Huang, "Projective Feature Learning for 3D Shapes with Multi-View Depth Images," The 23rd Pacific Conference on Computer Graphics and Applications, Tsinghua University, China, October 7-9, 2015. 

2)统一的神经网络结构和算法

20 年前当神经网络发展处于第一次复兴的巅峰,普天下都在忙于为神经网络训练「调参」和苦于寻找办法如何使流行的神经网络学习算法跳出「局部最小点」时,我们的疑问是:1)当普天下的研究人员都乐于和疲于「调参」时,神经网络的发展本身是不是也陷入了局部最小点?2)不同类型的网络「真的需要不同类型的学习算法吗」?3)是否存在一种通用的学习框架来处理不同类型的网络(单层前馈网络和多层网络)?

不同单隐层前馈神经网络的统一

许多种单隐层前馈神经网络在广泛使用中,包括前馈网络、径向基函数(RBF)网络、支持向量机(SVM)、多项式网络、傅里叶变换和小波网络等。这些之前都被认为是不同而且没有联系的学习或计算技术。超限学习机理论认为这些都有一样的网络结构,只是网络的隐层用的是不同的神经元而已。并提出在考虑 Universal Approximation Capability(有人翻译成「万能逼近」能力)和分类能力的前提下,只要隐层神经元是非线性阶段连续的,人们就不需要为不同的前馈神经网络设计不同的学习算法。作为 ELM 的一个特例(傅立叶序列作为隐层神经元),后来 Intel 和美国加州大学伯克利分校研究团队提出的 Random Kitchen Sink(RKS)以及 Google 团队提出的 FastFood 也在近几年有许多发展和实际成功应用。

参考文献:

G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, "Extreme learning machine: a new learning scheme of feedforward neural networks," Proceedings of international joint conference on neural networks (IJCNN2004), Budapest, Hungary, 25–29 July, 2004.

G.-B. Huang, L. Chen and C.-K. Siew, "Universal Approximation Using Incremental Constructive Feedforward Networks with Random Hidden Nodes," IEEE Transactions on Neural Networks. vol. 17, no. 4, pp. 879-892, 2006.

G.-B. Huang and L. Chen. "Convex Incremental Extreme Learning Machine," Neurocomputing, vol. 70, pp. 3056-3062, 2007.

A. Rahimi and B. Recht, "Random features for large-scale kernel machines," Proceedings of the 2007 neural information processing systems (NIPS2007), 3–6 Dec 2007.

Q. Le, T. Sarlós T, and A. Smola, "Fastfood approximating kernel expansions in loglinear time," Proceedings of the 30th international conference on machine learning, Atlanta, USA, p. 16–21, June 2013.

单隐层学习和多隐层学习的统一

我们真的需要迭代式地调整多层前馈神经网络的隐层节点吗?前馈神经网络真的要像六十年来一直被认为是个黑箱吗?传统的误差反向传播(BP)算法和支持向量机(SVM)将多层网络视为黑箱。与此不同的是,超限学习机将多层网络视为白箱,并且一层一层地进行训练。总体看,超限学习机将单隐层前馈和多隐层网络看成一个类似的统一体,用雷同的方法来处理单隐层前馈和多隐层网络。然而,与深度神经网络需要密集地调整其隐层节点不同,超限学习理论显示,隐层节点很重要,但(单隐层神经网络和多层网络的)隐层节点可以和数据无关,可以随机产生或从上一代传给下一代而不需要调整。学习可以无需通过迭代式地调整隐层节点来实现。







参考文献:

J. Tang, C. Deng, and G.-B. Huang, "Extreme Learning Machine for Multilayer Perceptron" , IEEE Transactions on Neural Networks and Learning Systems, May 2015.

G.-B. Huang, Z. Bai, L. L. C. Kasun, and C. M. Vong, "Local Receptive Fields Based Extreme Learning Machine," IEEE Computational Intelligence Magazine, vol. 10, no. 2, pp. 18-29, 2015.

L. L. C. Kasun, H. Zhou, G.-B. Huang, and C. M. Vong, "Representational Learning with Extreme Learning Machine for Big Data," IEEE Intelligence Systems, vol. 28, no. 6, pp. 31-34, 2013.

单隐层学习和多隐层学习与层次性学习的统一

多隐层学习(Multi-Hidden Layer Learning)和层次性学习(Hierarchical Learning)的概念不是完全一样。多隐层学习强调的是一个目标应用(比如图像分类)由一个包含多个隐层节点的网络实现。而超限学习机的层次性学习强调的是每个隐层实现一个功能,各个功能单元通过级联,并联,串联等组合形成一个学习能力复合的机器学习系统。[图3] 层次性学习的一个特例可以是一个多隐层学习方法。在超限学习机的体系下,各个功能块可以采用和应用相关的超限学习机算法。另外,在超限学习机中,一个隐层节点可以是一个由多个神经元组成的超级隐节点单元。[图4]  这种层次性学习可以最终提供比较理想的 End-to-End Learning 和 One-Shot Learning。











 

参考文献:

G.-B. Huang, "What are Extreme Learning Machines? Filling the Gap between Frank Rosenblatt's Dream and John von Neumann's Puzzle," Cognitive Computation, vol. 7, pp. 263-278, 2015.

3)基本学习单元的统一

就像加减乘除四大基本运算操作是数学体系的基础,物理体系也是建立在几大基本定律上一样,基于生命体的生物学习(Biological Learning)体系其实是建基于至少六大基本学习单元操作之上:压缩(Compression)、特征学习(Feature Learning)、稀疏编码(Sparse coding)、聚类(Clustering)、回归拟合(Regression)和分类(Classification)。[图5]  这六大基本学习单元操作可以由同样的超限学习机实现,隐层节点与数据无关,要调整的是从隐层节点到输出层的连接。[图4]  [图6]

比如支持向量机(SVM),随机投影(Random Projection,RP)以及主成份分析(Principal Component Analysis, PCA)看似不太相关,却在超限学习机理论和算法下可以有机的统一。2012 年发表在 IEEE Transactions on Cybernetics 上的文章证明了支持向量机是超限学习机的次优解。刚刚发表在 IEEE Transactions on Image Processing 文章指出随机投影和主成份分析其实可以看作是超限学习机的隐层神经元用线性函数时的的一个特例。可是超限学习机也可以用非线性的隐层神经元,所以就可以进行升维,降维,特征学习等功能。所以从特征学习角度看随机投影和主成份分析也是提供次优解。













参考文献:

G.-B. Huang, H. Zhou, X.Ding, and R. Zhang, "Extreme Learning Machine for Regression and MulticlassClassification", IEEE Transactions on Systems, Man, and Cybernetics – Part B:Cybernetics, vol. 42, no. 2, pp. 513-529, 2012.

L. L. C. Kasun, Y. Yang, G.-B. Huang, and Z. Zhang, Fellow, "Dimension Reduction With Extreme Learning Machine", IEEE Transactions on Neural Networks, vol. 25, no.8, pp. 3906-3918, 2016

4)普适学习和普适智能

随着物联网的深入发展,在不远的未来,大部分的设备将拥有智能与学习能力。我们相信,就如包括人类在内的生物社会一样,这些智能设备也将发展出一个互相交流的「智能体社会」(Internet of Intelligent Things)图7。每个智能体都嵌入有学习功能并且能相互交流。因而我们有必要提出普适学习(Pervasive Learning)和普适智能(Pervasive Intelligence)的概念和目标。由于超限学习机的学习速度比深度学习快上万倍,它可以帮助我们实现智能体社会。超限学习机芯片可以集成到硬件中,并实现实时本地在线学习,从而实现普适学习(Pervasive Learning)和普适智能(Pervasive Intelligence)。这几年,关于超限学习机芯片的研究得到一些实质进展,主要集中在三个方面:多核加速芯片(现场可编程门阵列(FPGA)和专用集成电路(ASIC)),神经形态芯片以及以光技术实现 ELM。







参考文献:

G.-B. Huang, "Extreme learning Machines: Enabling Pervasive Learning and Pervasive Intelligence", Pushing Frontiers, vol. 8, pp. 22-23, 2016.

 
5)填补不同学习理论间的空白

与 60 年来传统的学习理论不同,超限学习机理论的一个重要性质是其通用学习能力(压缩、特征学习、聚类、回归、分类等)无需通过调整隐层节点来获得,例如隐层节点可以从前辈继承或随机生成。进一步来说,超限学习机理论也为传统神经网络提供了理论支持(包括局部感受域(Local Receptive Field)和池化策略(Pooling)),而做为局部感受域的一个特殊实现方法的卷积神经操作和池化策略正是深度学习得以成功的主要原因之一。在 ELM 理论和应用下,不同随机分布的随机隐层神经元的产生形成全联结的网络或部分联结的网络(图8)。或如 ELM 早期理论(2007 年)指出不同的部分联结也可以形成局部稠密边缘稀疏的局部感受域或不同局部感受域的非线性组合(池化策略)(图 9)。根据 ELM 理论,卷积神经网络只是一种局部感受域和池化策略实现,除了卷积神经操作,还有许多其它的局部感受域存在,如何实现还有待进一步研究。














岭回归(Ridge Regression Theory)、线性系统的稳定性、矩阵稳定性、Bartlett 神经网络泛化能力理论(Neural Network Generalization Performance Theory)、支持向量机最大边界理论(Maximal Margin Theory)等在超限学习机以前被认为是不同的理论。特别是 Bartlett 神经网络泛化能力理论在以前很少用于训练神经网络。超限学习机采用了 Bartlett 理论,从而保证其泛化能力。超限学习机的理论显示,这些之前的理论从机器学习角度看是有机一致的。


参考文献:

G.-B. Huang and L. Chen, "Convex Incremental Extreme Learning Machine," Neurocomputing, vol. 70, pp. 3056-3062, 2007.

G.-B. Huang, "An Insight into Extreme Learning Machine: Random Neurons, Random Features and Kernels", Cognitive Computation, vol. 6, pp. 376-390, 2014.

G.-B. Huang, Z. Bai, L. L. C. Kasun, and C. M. Vong, "Local Receptive Fields Based Extreme Learning Machine", IEEE Computational Intelligence Magazine, vol. 10, no. 2, pp. 18-29, 2015.

2. 作为生物学习的一个「基本粒子」级学习单元的超限学习机


1)生物学习机制的验证

超限学习机理论显示,隐层节点很重要,但在很多应用中不需要调整(比如压缩感知、特征学习、聚类、回归和分类)。在理论上,这种神经元的激活函数几乎可以是任何非线性分段连续的,包括上百种人类无法知道其准确数学模型的人脑中的神经元。在超限学习机理论和技术提出之后的大概 10 年左右,越来越多的有关生物脑学习系统的研究成果直接或间接的支持了超限学习机理论。

在 2013 年及之后发表在《自然》等期刊上文章报告了来自美国斯坦福大学,哈佛医学院,麻省理工学院和哥伦比亚大学等大学的研究人员发现在老鼠的嗅觉系统中神经元在学习过程中是随机产生的。这可能是超限学习机理论首次在生物系统中得到验证。

在 2015 年美国哥伦比亚大学和 IBM Watson 的研究人员进一步阐述生物学习系统中神经元的随机产生可以进一步帮助生物学习系统实现对特征学习(升维,降维等),并且明确指出这在工程实现比如超限学习机是被证明有效的。这些在生物脑中发现的神经元机制和超限学习机理论预测是一致的。

在 2015 年美国乔治亚理工学院和华盛顿大学的一批研究人员通过人的行为学分析简直验证人脑中随机神经元机制可以帮助人拥有小样本学习能力。

2016 年发表在《自然•神经科学》上的文章说明了超限学习机理论进一步在猴子的脑中得到了直接验证。

参考文献:

M. Rigotti, O. Barak, M. R. Warden, X.-J. Wang, N. D. Daw, E. X. Miller, S. Fusi, "The importance of mixed selectivity in complex cognitive tasks," Nature, vol.497, pp. 585-590, 2013


O. Barak, M. Rigotti, S. Fusi, "The sparseness of mixed selectivity neurons controls the generalization-discrimination trade-off," Journal of Neuroscience, vol. 33, no. 9, pp. 3844-3856, 2013

S. Fusi, E. K Miller, and M. Rigotti, "Why neurons mix: high dimensionality for higher cognition," Current Opinion in Neurobiology, vol. 37, pp. 66-74, 2015

R. I. Arriaga, et al.Visual Categorization with Random Projection, Neural Computation, vol. 27, 2015

J. Xie and C. Padoa-Schioppa, "Neuronal remapping and circuit persistence in economic decisions," Nature Neuroscience, vol. 19, 2016

E. L Rich and J. D Wallis, "What stays the same in orbitofrontal cortex," Nature Neuroscience, vol. 19, no. 6, 2016


2)解答约翰·冯·诺依曼对生物学习的困惑


在罗森布拉特的梦想中,他的神经网络感知器可以最终帮助实现电子计算机走路、说话、看东西、写作、繁衍自己并有自我意识,而作为计算机之父的冯·诺依曼却不解为什么一个看似不完美生物神经网络系统却有完美的学习能力。

超限学习机理论的目标之一是打破机器学习和生物学习之间的壁垒。尽管动物的大脑在总体上来说是结构化及有序的,在其某些层或区域,其局部结构可看成「无序」的。从超限学习理论的角度看,网络的整个多层结构(人工神经网络或生物网络)是结构化且有序的,但它们在某一个神经元层或神经模块片中看起来「混乱、非组织结构化」。从局部来看,「硬连线」可以是全连接或部分连接。这种全局结构化而局部随机连接的看似「不完美」结构,却正好构成了基本的完美的学习能力,包括压缩感知、特征学习、稀疏编码、聚类、回归和分类等。这就解决了冯·诺依曼对生物学习的谜惑。生物学习机制极其复杂,而我们相信「无需调节隐层节点的学习」是很多学习模块中的一种基本生物学习机制。虽然人脑中也许有几百种不同种类的生物神经元,他们的数学模型也不为人类所知,但是超限学习机理论指出一个基本的生物学习机制也许是生物神经元本身在学习中是不需要调整的,和应用是无关的。进一步说,随机隐层神经元节点和「随机连线」只是两种特定的实现「无需调节隐层节点的学习」的方法。IBM 团队最近也宣布他们研制出类生物神经元,他们实现的理论基础正是基于 ELM 理论最早所提出,倡导和支持的:生物神经元应该是随机的。


参考文献:

G.-B. Huang, What are Extreme Learning Machines? Filling the Gap between Frank Rosenblatt's Dream and John von Neumann's Puzzle, Cognitive Computation, vol. 7, pp. 263-278, 2015. 

T. Tuma, A. Pantazi, M. L. Gallo, A. Sebastian, and E. Eleftheriou, "Stochastic phase-change neurons,"  Nature Nanotechnology, vol. 11, August 2016

3)展望


我们相信超限学习机理论和技术提供了一个架接跨越机器学习和生物学习基本「粒子」级的学习机制。也填补了罗森布拉特的梦想和冯·诺依曼的困惑之间有着很大的空白地带和理论技术鸿沟。这也是实现普适学习和普适智能的必要条件。然而这些还很初步,套用个别神经网络界前辈对超限学习机的评论和期望:「好戏还没有开始」,也许更多的令人激动和感兴趣的东西还等着大家研究开发。


有兴趣的研究人员,可以申请新加坡南洋理工大学黄广斌教授研发团队在下列研究方向的博士生、博士后和访问学者位置:海上自主导航数据分析、智能芯片设计、多模数据分析、视频分析、目标识别和跟踪。 查看全部


摘要:本文总结被神经网络前辈和著名经济学家 Halbert White 认为「Sexy」的超限学习机(Extreme Learning Machines, ELM)的「Sexy」之处和之所以被称为「超限学习机(ELM)」的原因。在超限学习机的理论框架下,机器(Machine, Devices, Sensors)和生物脑可以看成一致的,只是构造的基本材料和硬件不同而已。有机的「机器」(生物学习系统)也有千万种,并且还在一直自我演化。但我们坚信两者之间可以拥有一个共同的「基本粒子」级(或称为「基本单元」级)的学习结构和学习算法,那就是超限学习机(Extreme Learning Machines, ELM)。而这种超限学习机(ELM)的实现和硬件材料以及具体数据可以是无关的。ELM 理论指出众多种的生物神经元在学习中是不需要调整的和数据无关的。生物学习机制的秘密可能就在于其神经元的随机性。


作者介绍:黄广斌(Guang-Bin Huang)是新加坡南洋理工大学教授(终身)。在 2014 和 2015 年被 Thomson Reuters 评为「高引用研究者」(工程类,计算机科学类),以及「2014 年世界最有影响力的科学精英」和「2015 年世界最有影响力的科学精英」。他是新加坡总统科学奖被提名人(2016)。


他主持的主要项目有:德国宝马集团和南洋理工大学未来汽车联合研究实验室人机交互,脑机交互以及汽车辅助驾驶项目,英国劳斯莱斯和南洋理工大学联合研究实验室海上自主导航决策辅助系统项目,新加坡科技工程和南洋理工大学先进机器人联合研究实验室场景识别和机器学习项目,台湾台达电子股份有限公司和南洋理工大学物联网联合研究实验室数据分析和视频项目。还担任过新加坡樟宜机场新加坡航空公司地面服务公司第五货运大厦的信息跟踪控制系统升级改造的总设计师和技术负责人。

 

神经网络和生物学习之间的空白

 

1. 弗兰克·罗森布拉特的神经网络梦想

在 1950 年代初期,生物学家弗兰克·罗森布拉特(Frank Rosenblatt)提出了他称为感知器(Perceptron)的多层前馈网络。

后来跨越 60 多年特别是从 1980 年代到现在用的大部分神经网络结构其实都是罗森布拉特神经网络感知器的一种,这些包括早期流行的支持向量机(SVM)和现在风靡产业界的卷积神经网络(CNN),也包括 CNN 的前身 Neocognition ,只是针对不同的实现后人提出了不同的学习算法。


罗森布拉特最初提出他的神经网络结构时并没有有效的学习算法,但是他梦想这种神经网络感知器可以看作是「计算机的一种胚胎」,一种最终能够帮助计算机实现「走、说、看、写、繁衍并有自我意识」的智能源泉。罗森布拉特的预测在 60 年后的今天被证明是正确的,这种神经网络技术还有可能是未来人工智能和机器学习的主要技术基础。

2. 马文·明斯基和 1970 年代人工智能冬天

罗森布拉特的预测在 60 年前是极其大胆和有远见的,在当时计算机犹如一个庞然大物的时代几乎没有几个人相信他的预测是对的和他的梦想是能实现的。也许伟大的思想之所以伟大就在于远远超前现有人们所能理解和所能想象的。包括人工智能之父、图灵奖获得者马文·明斯基(Marvin Minsky)和神经网络之父 Bernard Widrow 都对罗森布拉特的预测表示怀疑。罗森布拉特提出的神经网络感知器严格意义上讲在提出之初还只是概念,正如许多伟大的想法在提出之初都会出现有些概念模糊不清的情况,大部分人有疑虑也就正常了。明斯基对罗森布拉特的神经网络感知器的否定直接导致了被后人称为「美丽错误」的发生在 1970 年代的「人工智能的冬天」。

两年前在 Bernard 家吃着他夫人精心准备的旧金山螃蟹,边回顾着 60 年来的神经网络发展往事,受益匪浅也感慨万千。Bernard 在和我探讨超限学习机(Extreme Learning Machines, ELM)时提及他和明斯基以及罗森布拉特三人之间的往事时诚恳地承认在 1950 年代他对罗森布拉特的神经网络感知器也是不太认同,在他和罗森布拉特之间的争论中他是错了。不得不被前辈们敢于承认错误的勇气折服。(提醒:学术争论无论激烈与否可以有助于找寻自然规律的真象,这和打着学术争论之名行人身攻击之实是有本质区别的。)Bernard 提及在 1971 年,也就在「人工智能的冬天」开始之初,罗森布拉特在他 43 岁生日那天在一个湖里划帆板时发生意外就再也没有回来,连尸身都没有找到,令人不禁辛酸和感叹。试想:罗森布拉特如果不是英年早逝(某种程度上讲是含冤而死),人工神经网络、人工智能和机器学习技术也许还会往前推进 10-20 年。

有关 Bernard 和超限学习机的一段小插曲:Bernard 在超限学习机发表后 10 年左右提出了一个类似超限学习机的技术但却没有注意到早期有关超限学习机工作。本来这是一个小事,人们很难查看到所有有关资料,科研很能面面俱到。Bernard 却向我当面提出道歉,前辈们谦卑的人格再次让人折服。

3. 约翰·冯·诺依曼对生物学习的困惑

计算机的硬件实现是要极其精致美妙的,但计算机的实现也是极其脆弱的,不能有任何瑕疵。任何硬件实现上的不完美都可能导致计算机不能正常运作。约翰·冯·诺依曼(John von Neumann)在造出第一代计算机之后,做为计算机之父的他感到困惑不解的是:和计算机需要完美硬件连接组成所不同的是,为什么「一个看上去不完美的包含许多看似随机连接的(生物)神经网络却能够可靠地实现完美的学习功能」。

罗森布拉特的梦想和冯·诺依曼的困惑之间有着很大的空白地带和理论技术鸿沟。

超限学习机:填补神经网络和生物学习之间的空白

人脑可能是宇宙中最复杂的东西。人类在过去几百年对自然界和宇宙的认识在飞速发展,对生物学习特别是人脑的思维机制还知之甚少。罗森布拉特的人工神经网络感知器和冯·诺依曼关于生物学习的困惑以及未解之谜看似关联性不大。其实在超限学习机的理论框架下,机器(Machine、Devices、Sensors)和生物脑可以看成一致的,只是构造的基本材料和硬件不同而已。一种由无机的硅等组成,一种由有机的碳水化合物蛋白质等组成。生物脑本质上也是一种「机器」。无机和有机的「机器」可以完全不一样,它们的结构和算法也千变万化。有机的「机器」(生物学习系统)也有千万种,并且还在一直自我演化。但我们坚信两者之间可以拥有一个共同的「基本粒子」级(或称为「基本单元」级)的学习结构和学习算法,那就是超限学习机。而这种超限学习机的实现和硬件材料和具体数据可以是无关的。

1. 作为人工神经网络的超限学习机

1)「秒杀」学习速度

人工神经网络在人工智能和机器学习中的重要作用最近几年又再次得到认可和追捧,大有人工智能和机器学习的实现必须依赖于人工神经网络之势。然而人工神经网络技术普遍面临着一些挑战,比如繁重而「痛苦」的人工干预、缓慢的学习速度和较弱的可扩展性。超限学习机的一个基本目的是要克服这些过去几十年来人工神经网络界面临的发展瓶颈,达到尽可能少的人工干预,高的测试准确度和实时快速本地化学习的能力,在许多应用中达到秒级,毫秒甚至微妙级或更快。[图1] 相比其它通用的学习技术(比如深度学习),在有些应用中超限学习机可以快几千几万倍。比如在有些手写体识别,3D 图形应用,各国交通路牌识别等应用中,超限学习机与深度学习相比可进一步提高准确率, 并且大幅度降低训练时间(相比较深度学习基于 GPU 的 1-2 天训练时间,超限学习机在普通计算机上的训练时间缩短到几分钟或更少)。在许多医疗大数据应用上,超限学习机也比传统的学习方法在提高准确率的情况下将学习速度大幅提高几千倍。 

3.jpg


图 1

参考文献:

L. L. C. Kasun, H. Zhou, G.-B. Huang, and C. M. Vong, "Representational Learning with Extreme Learning Machine for Big Data," IEEE Intelligent Systems, vol. 28, no. 6, pp. 31-34, 2013.


Z. Huang, Y. Yu, J. Gu, and H. Liu, "An Efficient Method for Traffic Sign Recognition Based on Extreme Learning Machine," (in press) IEEE Transactions on Cybernetics, 2016 

Z. Xie, K. Xu, W. Shan, L. Liu, Y. Xiong, and H. Huang, "Projective Feature Learning for 3D Shapes with Multi-View Depth Images," The 23rd Pacific Conference on Computer Graphics and Applications, Tsinghua University, China, October 7-9, 2015. 

2)统一的神经网络结构和算法

20 年前当神经网络发展处于第一次复兴的巅峰,普天下都在忙于为神经网络训练「调参」和苦于寻找办法如何使流行的神经网络学习算法跳出「局部最小点」时,我们的疑问是:1)当普天下的研究人员都乐于和疲于「调参」时,神经网络的发展本身是不是也陷入了局部最小点?2)不同类型的网络「真的需要不同类型的学习算法吗」?3)是否存在一种通用的学习框架来处理不同类型的网络(单层前馈网络和多层网络)?

不同单隐层前馈神经网络的统一

许多种单隐层前馈神经网络在广泛使用中,包括前馈网络、径向基函数(RBF)网络、支持向量机(SVM)、多项式网络、傅里叶变换和小波网络等。这些之前都被认为是不同而且没有联系的学习或计算技术。超限学习机理论认为这些都有一样的网络结构,只是网络的隐层用的是不同的神经元而已。并提出在考虑 Universal Approximation Capability(有人翻译成「万能逼近」能力)和分类能力的前提下,只要隐层神经元是非线性阶段连续的,人们就不需要为不同的前馈神经网络设计不同的学习算法。作为 ELM 的一个特例(傅立叶序列作为隐层神经元),后来 Intel 和美国加州大学伯克利分校研究团队提出的 Random Kitchen Sink(RKS)以及 Google 团队提出的 FastFood 也在近几年有许多发展和实际成功应用。

参考文献:

G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, "Extreme learning machine: a new learning scheme of feedforward neural networks," Proceedings of international joint conference on neural networks (IJCNN2004), Budapest, Hungary, 25–29 July, 2004.

G.-B. Huang, L. Chen and C.-K. Siew, "Universal Approximation Using Incremental Constructive Feedforward Networks with Random Hidden Nodes," IEEE Transactions on Neural Networks. vol. 17, no. 4, pp. 879-892, 2006.

G.-B. Huang and L. Chen. "Convex Incremental Extreme Learning Machine," Neurocomputing, vol. 70, pp. 3056-3062, 2007.

A. Rahimi and B. Recht, "Random features for large-scale kernel machines," Proceedings of the 2007 neural information processing systems (NIPS2007), 3–6 Dec 2007.

Q. Le, T. Sarlós T, and A. Smola, "Fastfood approximating kernel expansions in loglinear time," Proceedings of the 30th international conference on machine learning, Atlanta, USA, p. 16–21, June 2013.

单隐层学习和多隐层学习的统一

我们真的需要迭代式地调整多层前馈神经网络的隐层节点吗?前馈神经网络真的要像六十年来一直被认为是个黑箱吗?传统的误差反向传播(BP)算法和支持向量机(SVM)将多层网络视为黑箱。与此不同的是,超限学习机将多层网络视为白箱,并且一层一层地进行训练。总体看,超限学习机将单隐层前馈和多隐层网络看成一个类似的统一体,用雷同的方法来处理单隐层前馈和多隐层网络。然而,与深度神经网络需要密集地调整其隐层节点不同,超限学习理论显示,隐层节点很重要,但(单隐层神经网络和多层网络的)隐层节点可以和数据无关,可以随机产生或从上一代传给下一代而不需要调整。学习可以无需通过迭代式地调整隐层节点来实现。


3.1_.jpg


参考文献:

J. Tang, C. Deng, and G.-B. Huang, "Extreme Learning Machine for Multilayer Perceptron" , IEEE Transactions on Neural Networks and Learning Systems, May 2015.

G.-B. Huang, Z. Bai, L. L. C. Kasun, and C. M. Vong, "Local Receptive Fields Based Extreme Learning Machine," IEEE Computational Intelligence Magazine, vol. 10, no. 2, pp. 18-29, 2015.

L. L. C. Kasun, H. Zhou, G.-B. Huang, and C. M. Vong, "Representational Learning with Extreme Learning Machine for Big Data," IEEE Intelligence Systems, vol. 28, no. 6, pp. 31-34, 2013.

单隐层学习和多隐层学习与层次性学习的统一

多隐层学习(Multi-Hidden Layer Learning)和层次性学习(Hierarchical Learning)的概念不是完全一样。多隐层学习强调的是一个目标应用(比如图像分类)由一个包含多个隐层节点的网络实现。而超限学习机的层次性学习强调的是每个隐层实现一个功能,各个功能单元通过级联,并联,串联等组合形成一个学习能力复合的机器学习系统。[图3] 层次性学习的一个特例可以是一个多隐层学习方法。在超限学习机的体系下,各个功能块可以采用和应用相关的超限学习机算法。另外,在超限学习机中,一个隐层节点可以是一个由多个神经元组成的超级隐节点单元。[图4]  这种层次性学习可以最终提供比较理想的 End-to-End Learning 和 One-Shot Learning。

3.2_.jpg



3.3_.jpg

 

参考文献:

G.-B. Huang, "What are Extreme Learning Machines? Filling the Gap between Frank Rosenblatt's Dream and John von Neumann's Puzzle," Cognitive Computation, vol. 7, pp. 263-278, 2015.

3)基本学习单元的统一

就像加减乘除四大基本运算操作是数学体系的基础,物理体系也是建立在几大基本定律上一样,基于生命体的生物学习(Biological Learning)体系其实是建基于至少六大基本学习单元操作之上:压缩(Compression)、特征学习(Feature Learning)、稀疏编码(Sparse coding)、聚类(Clustering)、回归拟合(Regression)和分类(Classification)。[图5]  这六大基本学习单元操作可以由同样的超限学习机实现,隐层节点与数据无关,要调整的是从隐层节点到输出层的连接。[图4]  [图6]

比如支持向量机(SVM),随机投影(Random Projection,RP)以及主成份分析(Principal Component Analysis, PCA)看似不太相关,却在超限学习机理论和算法下可以有机的统一。2012 年发表在 IEEE Transactions on Cybernetics 上的文章证明了支持向量机是超限学习机的次优解。刚刚发表在 IEEE Transactions on Image Processing 文章指出随机投影和主成份分析其实可以看作是超限学习机的隐层神经元用线性函数时的的一个特例。可是超限学习机也可以用非线性的隐层神经元,所以就可以进行升维,降维,特征学习等功能。所以从特征学习角度看随机投影和主成份分析也是提供次优解。

3.4_.jpg



3.5_.jpg



参考文献:

G.-B. Huang, H. Zhou, X.Ding, and R. Zhang, "Extreme Learning Machine for Regression and MulticlassClassification", IEEE Transactions on Systems, Man, and Cybernetics – Part B:Cybernetics, vol. 42, no. 2, pp. 513-529, 2012.

L. L. C. Kasun, Y. Yang, G.-B. Huang, and Z. Zhang, Fellow, "Dimension Reduction With Extreme Learning Machine", IEEE Transactions on Neural Networks, vol. 25, no.8, pp. 3906-3918, 2016

4)普适学习和普适智能

随着物联网的深入发展,在不远的未来,大部分的设备将拥有智能与学习能力。我们相信,就如包括人类在内的生物社会一样,这些智能设备也将发展出一个互相交流的「智能体社会」(Internet of Intelligent Things)图7。每个智能体都嵌入有学习功能并且能相互交流。因而我们有必要提出普适学习(Pervasive Learning)和普适智能(Pervasive Intelligence)的概念和目标。由于超限学习机的学习速度比深度学习快上万倍,它可以帮助我们实现智能体社会。超限学习机芯片可以集成到硬件中,并实现实时本地在线学习,从而实现普适学习(Pervasive Learning)和普适智能(Pervasive Intelligence)。这几年,关于超限学习机芯片的研究得到一些实质进展,主要集中在三个方面:多核加速芯片(现场可编程门阵列(FPGA)和专用集成电路(ASIC)),神经形态芯片以及以光技术实现 ELM。

3.6_.jpg



参考文献:

G.-B. Huang, "Extreme learning Machines: Enabling Pervasive Learning and Pervasive Intelligence", Pushing Frontiers, vol. 8, pp. 22-23, 2016.

 
5)填补不同学习理论间的空白

与 60 年来传统的学习理论不同,超限学习机理论的一个重要性质是其通用学习能力(压缩、特征学习、聚类、回归、分类等)无需通过调整隐层节点来获得,例如隐层节点可以从前辈继承或随机生成。进一步来说,超限学习机理论也为传统神经网络提供了理论支持(包括局部感受域(Local Receptive Field)和池化策略(Pooling)),而做为局部感受域的一个特殊实现方法的卷积神经操作和池化策略正是深度学习得以成功的主要原因之一。在 ELM 理论和应用下,不同随机分布的随机隐层神经元的产生形成全联结的网络或部分联结的网络(图8)。或如 ELM 早期理论(2007 年)指出不同的部分联结也可以形成局部稠密边缘稀疏的局部感受域或不同局部感受域的非线性组合(池化策略)(图 9)。根据 ELM 理论,卷积神经网络只是一种局部感受域和池化策略实现,除了卷积神经操作,还有许多其它的局部感受域存在,如何实现还有待进一步研究。


3.7_.jpg



3.8_.jpg



岭回归(Ridge Regression Theory)、线性系统的稳定性、矩阵稳定性、Bartlett 神经网络泛化能力理论(Neural Network Generalization Performance Theory)、支持向量机最大边界理论(Maximal Margin Theory)等在超限学习机以前被认为是不同的理论。特别是 Bartlett 神经网络泛化能力理论在以前很少用于训练神经网络。超限学习机采用了 Bartlett 理论,从而保证其泛化能力。超限学习机的理论显示,这些之前的理论从机器学习角度看是有机一致的。


参考文献:

G.-B. Huang and L. Chen, "Convex Incremental Extreme Learning Machine," Neurocomputing, vol. 70, pp. 3056-3062, 2007.

G.-B. Huang, "An Insight into Extreme Learning Machine: Random Neurons, Random Features and Kernels", Cognitive Computation, vol. 6, pp. 376-390, 2014.

G.-B. Huang, Z. Bai, L. L. C. Kasun, and C. M. Vong, "Local Receptive Fields Based Extreme Learning Machine", IEEE Computational Intelligence Magazine, vol. 10, no. 2, pp. 18-29, 2015.

2. 作为生物学习的一个「基本粒子」级学习单元的超限学习机


1)生物学习机制的验证

超限学习机理论显示,隐层节点很重要,但在很多应用中不需要调整(比如压缩感知、特征学习、聚类、回归和分类)。在理论上,这种神经元的激活函数几乎可以是任何非线性分段连续的,包括上百种人类无法知道其准确数学模型的人脑中的神经元。在超限学习机理论和技术提出之后的大概 10 年左右,越来越多的有关生物脑学习系统的研究成果直接或间接的支持了超限学习机理论。

在 2013 年及之后发表在《自然》等期刊上文章报告了来自美国斯坦福大学,哈佛医学院,麻省理工学院和哥伦比亚大学等大学的研究人员发现在老鼠的嗅觉系统中神经元在学习过程中是随机产生的。这可能是超限学习机理论首次在生物系统中得到验证。

在 2015 年美国哥伦比亚大学和 IBM Watson 的研究人员进一步阐述生物学习系统中神经元的随机产生可以进一步帮助生物学习系统实现对特征学习(升维,降维等),并且明确指出这在工程实现比如超限学习机是被证明有效的。这些在生物脑中发现的神经元机制和超限学习机理论预测是一致的。

在 2015 年美国乔治亚理工学院和华盛顿大学的一批研究人员通过人的行为学分析简直验证人脑中随机神经元机制可以帮助人拥有小样本学习能力。

2016 年发表在《自然•神经科学》上的文章说明了超限学习机理论进一步在猴子的脑中得到了直接验证。

参考文献:

M. Rigotti, O. Barak, M. R. Warden, X.-J. Wang, N. D. Daw, E. X. Miller, S. Fusi, "The importance of mixed selectivity in complex cognitive tasks," Nature, vol.497, pp. 585-590, 2013


O. Barak, M. Rigotti, S. Fusi, "The sparseness of mixed selectivity neurons controls the generalization-discrimination trade-off," Journal of Neuroscience, vol. 33, no. 9, pp. 3844-3856, 2013

S. Fusi, E. K Miller, and M. Rigotti, "Why neurons mix: high dimensionality for higher cognition," Current Opinion in Neurobiology, vol. 37, pp. 66-74, 2015

R. I. Arriaga, et al.Visual Categorization with Random Projection, Neural Computation, vol. 27, 2015

J. Xie and C. Padoa-Schioppa, "Neuronal remapping and circuit persistence in economic decisions," Nature Neuroscience, vol. 19, 2016

E. L Rich and J. D Wallis, "What stays the same in orbitofrontal cortex," Nature Neuroscience, vol. 19, no. 6, 2016


2)解答约翰·冯·诺依曼对生物学习的困惑


在罗森布拉特的梦想中,他的神经网络感知器可以最终帮助实现电子计算机走路、说话、看东西、写作、繁衍自己并有自我意识,而作为计算机之父的冯·诺依曼却不解为什么一个看似不完美生物神经网络系统却有完美的学习能力。

超限学习机理论的目标之一是打破机器学习和生物学习之间的壁垒。尽管动物的大脑在总体上来说是结构化及有序的,在其某些层或区域,其局部结构可看成「无序」的。从超限学习理论的角度看,网络的整个多层结构(人工神经网络或生物网络)是结构化且有序的,但它们在某一个神经元层或神经模块片中看起来「混乱、非组织结构化」。从局部来看,「硬连线」可以是全连接或部分连接。这种全局结构化而局部随机连接的看似「不完美」结构,却正好构成了基本的完美的学习能力,包括压缩感知、特征学习、稀疏编码、聚类、回归和分类等。这就解决了冯·诺依曼对生物学习的谜惑。生物学习机制极其复杂,而我们相信「无需调节隐层节点的学习」是很多学习模块中的一种基本生物学习机制。虽然人脑中也许有几百种不同种类的生物神经元,他们的数学模型也不为人类所知,但是超限学习机理论指出一个基本的生物学习机制也许是生物神经元本身在学习中是不需要调整的,和应用是无关的。进一步说,随机隐层神经元节点和「随机连线」只是两种特定的实现「无需调节隐层节点的学习」的方法。IBM 团队最近也宣布他们研制出类生物神经元,他们实现的理论基础正是基于 ELM 理论最早所提出,倡导和支持的:生物神经元应该是随机的。


参考文献:

G.-B. Huang, What are Extreme Learning Machines? Filling the Gap between Frank Rosenblatt's Dream and John von Neumann's Puzzle, Cognitive Computation, vol. 7, pp. 263-278, 2015. 

T. Tuma, A. Pantazi, M. L. Gallo, A. Sebastian, and E. Eleftheriou, "Stochastic phase-change neurons,"  Nature Nanotechnology, vol. 11, August 2016

3)展望


我们相信超限学习机理论和技术提供了一个架接跨越机器学习和生物学习基本「粒子」级的学习机制。也填补了罗森布拉特的梦想和冯·诺依曼的困惑之间有着很大的空白地带和理论技术鸿沟。这也是实现普适学习和普适智能的必要条件。然而这些还很初步,套用个别神经网络界前辈对超限学习机的评论和期望:「好戏还没有开始」,也许更多的令人激动和感兴趣的东西还等着大家研究开发。


有兴趣的研究人员,可以申请新加坡南洋理工大学黄广斌教授研发团队在下列研究方向的博士生、博士后和访问学者位置:海上自主导航数据分析、智能芯片设计、多模数据分析、视频分析、目标识别和跟踪。