深度学习鼻祖Geoffrey Hinton帮你入门带你飞
本文联合编译:Blake、高斐
雷锋网(公众号:雷锋网)注:Geoffrey Everest Hinton(杰弗里·埃弗里斯特·辛顿 )是一位英国出生的计算机学家和心理学家,以其在神经网络方面的贡献闻名。辛顿是反向传播算法和对比散度算法的发明人之一,也是深度学习的积极推动者,目前任职于多伦多大学与Google。作为人工智能领域的三位奠基人之一,早在30年前,辛顿就已经在深度学习领域留下了自己的烙印。然而,直到计算机的性能达到深度学习的要求,辛顿才开始在学术界以外得到自己应得的广泛认可,本文是他对于深度学习介绍的演讲PPT。
深度学习
Geoffrey Hinton
多伦多大学 Google
机器学习任务的频谱
典型的统计学方法
用于学习多层非线性特征的反向传播算法于20世纪70年代和80年代被提出来并得到多次发展演变(Werbos, Amari, Parker, Lecun, Rumelhart et al)。
当时,反向传播算法具有广阔的应用前景,然而,到20世纪90年代,机器学习领域的众多研究者开始停止运用该算法,原因如下:
—该算法不能有效利用多数隐藏层(除了其在“时延”和卷积网的应用)。
—该算法不能在递归网络中发挥有效作用。
如何学习多层特征(~1985)
运用反向传播错误信号以获得用于学习的衍生工具:
首先输入输入信息向量,通过隐藏层,最终得到输出结果,对比输出结果与正确答案得到错误信号。
随机梯度下降
—这将对所有训练数据的梯度矢量进行随机评估。
—若权重值完全出现错误,即便获得一个耗费多,精确地估计值也是无意义的。
保持运用梯度方法的有效性与简洁性,以调整权重值,同时运用这种方法为感官输入信息构建结构。
— 调整权重,保证一个生成模型生成感官输入信息的最大可能性。
— 学习图像,而非标记过的图像。
如果你想要从事计算机视觉领域的研究,首选学习计算机制图法。
受限玻尔兹曼机最大可能性学习算法图
由可视单元的一个训练矢量V开头。
在更新所有平行隐藏单元与更新所有平行的可视单元之间转换。
快速学习受限玻尔兹曼机的方法
由可视单元的一个训练矢量开头
更新所有平行的隐藏单元
更新所有平行的可视单元,以实现重构
再次更新隐藏单元
旁白
通过对运用两种不同方法获得的预测值取平均数,Netflix 能够预测出你对一部电影的喜爱程度。
接着,将这些讲过训练的特征视为像素,激活这些特征,在第二隐藏层学习这些特征的特征。
每当我们添加一个特征层,便能够得到训练数据的对数概率一个更好的可变下限,这一点可以得到证实。
精细调增:增添最后一个标记单元层,反向计算标记单元的误差,以便精细调整那些在无监督前期训练阶段学会的特征。
因为未经标记数据而发现好的特征,我们要求使用更少的标记。
由于在预训练过程中,一次仅训练一层,并且是从可感知的特征进行精细调整的,学习速度变得越来越快。
为预训练深层神经网构建声学模型
当预训练深层神经网络的性能优于在MSR演讲组一致推崇的高斯混合模型,IBM与Google对这类深层神经网络实行进一步发展。
现在所有起到领导作用的团队均使用神经网络,这一技术正在向性能越来越好的递归神经网络发展。
在这个数据集中,对现有的一些计算机视觉方法进行测试。
2012年的计算机视觉系统使用运用手工工程的复杂的多层系统。
Alex Krizhevsky等在NIPS 2012开发了一个非常深的卷积神经网络(Le Cunn 1987),它的架构包括:
激活函数是每个隐层的修正线性单元
这些训练速度快得多,且比逻辑单元要更具表现力
Dropout用来防止这些层级过拟合
在测试集上的样本(以及神经网络猜测结果)
猎豹(豹 雪豹 埃及猫)
高速列车(小轿车 地铁 电车)
放大镜(剪刀、放大镜、煎锅、听诊器)
修正线性单元
能用上所有的隐藏单元更好,但是要将它们的输入权重减半
这恰好计算了所有2^H模型预测的几何平均数
在有更多的隐层的情况下,测试时期将权重减半是唯一一种模型平均的近似值,但是它得到结果不错
1986年提出的方向传播算法哪里错了?
关于它为什么失败,我们得出的结论都错了。真正的原因是:
1. 我们的标记数据集太小了。(几千倍的差异)
2. 我们的运算能力太慢了。(百万倍的差异)
3. 我们进行权重初始化的方式错了。
4. 我们使用了错误的非线性类别。
几年前,Jeff Dean认为如果计算能力足够的话,神经网络也许能够做到一些非常了不起的事情。
他建立许多架构让一些大型神经网络在Google的数据中心核心区块上进行训练。
卷积神经网络(部分复杂细节已略去)
有关卷积网络最好的类型可以去查看Hochreiter和Schmidhuber于1997年发布文章的细节。
卷积神经网络
卷积神经网络十分强大,因为它们结合了两种特性。
l 分布式隐层允许它们有效存储之前的信息
l 非线性动态允许它们以复杂的方式更新隐层
l 深度越深,性能更好
机器翻译的一种全新方式(Suskever, Vinyals和Le,2014)
如果我们使用更多的数据,并且同时对多种语言共同进行训练编码器和解码器的话,它的表现会好的多
欧洲的议会给出了25种方式,我们可以通过所有的25中解码器进行反向传播。
结合视觉和语言(Vinyals等近期工作的简单介绍)
在imagent上训练的深度卷积网络种最后一个隐层的活动向量是能编码图片中内容的“认知”
所有的主要思想和几乎全部的实践成果都是来源于基于兴趣的研究。(Gatsby基金十分重要)
相关文章
- 【深度学习入门】——亲手实现图像卷积操作[通俗易懂]
- 【0基础学习mysql】之DQL-分页查询及执行顺序
- 1.汇编语言零基础入门学习笔记(1)
- PHP代码审计入门学习过程
- MATLAB强化学习入门——三、深度Q学习与神经网络工具箱
- 当前机器学习在药物发现和再利用中面临的四大挑战
- 学习RabbitMQ这篇就够了快速入门上手(超详细)
- Ant Design学习(一)
- AI入门| 机器学习和深度学习傻傻分不清?
- Tensorflow 学习笔记(一)TensorFlow入门详解大数据
- Linux学习入门:从PDF到实际操作(linux学习教程pdf)
- Linux设备驱动开发入门:学习进入技术大门(linux设备驱动学习)
- 慕课网:学习SQL Server,让你的技能更上一层楼(慕课网sqlserver)
- Oracle入门从零开始学习使用(oracle入门使用教程)
- Redis入门实战给开发者构建可扩展高性能缓存应用(学习redis推荐什么书)
- 预告:硅谷模式教学,9大项目实操,12小时带你入门深度学习
- jqueryMoblie入门—helloworld的示例代码学习