当前位置: 编码机 >> 编码机市场 >> 重磅FacebookAI负责人深
新智元原创1
来源:YannLeCun
编译:米粒
YannLeCun是卷积神经网络的发明人,Facebook人工智能研究院的负责人。下文的张PPT,是LeCun对深度学习领域的全面而细致的思考。LeCun非常坚定看好无监督学习,认为无监督学习是能够提供足够信息去训练数以十亿计的神经网络的唯一学习形式。
但LeCun也认为,这要做好非常难,毕竟世界是不可理解的。我们来看看LeCun在这张PPT中,究竟给我们带来什么样的惊喜。
YannLeCun:PPT全文如需下载全文,请在新智元订阅号回复下载。
深度学习
作者YannLeCun
纽约大学,柯朗数学科学学院(CourantInstituteofMathematicalScience,NYU),
Facebook人工智能研究
我们需要复制大脑来开发智能机器吗?
大脑是智能机器存在的依据
-鸟和蝙蝠是重于空气飞行存在的依据
大脑
今天高速处理器
我们能够通过复制大脑来开发人工智能系统吗?
电脑离大脑运算能力只有1万次方差距吗?很有可能是万次方:突触是复杂的。1百万次方是30年摩尔定律
最好从生物学里获取灵感;但是如果没有了解基本原理,仅从生物学里生搬硬造,注定要失败。飞机是从飞鸟那里获取的灵感;他们使用了同样的飞行基本原理;但是,飞机并不振翅飞翔,也没有羽翼。
让我们从自然里汲取灵感,但不需要依葫芦画瓢
模仿自然是好的,但是我们也需要去了解自然。对于飞机而言,我们开发了空气动力学以及可压缩流体动力学,我们知道了羽毛和振翅不是关键。
年:感知机(第一台学习机器)
具有适应性“突触权重”的一个简单的模拟神经元,计算输入的加权总和,如果加权总和高于阈值,则输出+1,反之则输出-1。
感知机学习算法
通常的机器学习(监督学习)
设计一台带有可调节旋钮的机器(与感知机里的权重类似);选取一个训练样本,经机器运行之后,测量误差;找出需要调整那个方向的旋钮以便降低误差;重复使用所有训练样本来进行操作,直到旋钮稳定下来。
通常的机器学习(监督学习)
设计一台带有可调节旋钮的机器;选取一个训练样本,经机器运行之后,测量误差;调节旋钮以便降低误差;不断重复直到旋钮稳定下来;
机器学习=功能优化
这就如同行走在雾气弥漫的高山之中,通过往最陡的下坡方向行走来抵达山谷中的村庄;但是每一个样本会给我们一个方向的噪声预估,因此,我们的路径是相当随机的。
泛化能力:识别训练中没有察觉到的情况
训练之后:用从未识别过的样本来测试机器;
监督学习
我们能够用诸如桌子、椅子、狗、猫及人等很多例子来训练机器;但是机器能够识别它从未看到过的桌子、椅子、狗、猫及人吗?
大规模的机器学习:现实
数以亿计的“旋钮”(或“权重”),数以千计的种类;数以百万计的样本;识别每一个样本可能需要进行数十亿的操作;但是这些操作只是一些简单的乘法和加法。
模式识别的传统模式
模式识别的传统模式(自50年代末开始),固定/设计特征(或固定矩阵)+可训练的分级器,感知机(康奈尔大学,年)
深度学习=整台机器是可以训练的
传统的模式识别:固定及手工制的特征萃取器;主流的现代化模式识别:无监督的中等级别特征;深度学习:表现形式是分等级的及训练有素的;
深度学习=学习分等级的表现形式
有超过一个阶段的非线性特征变换即为深度学习;在ImageNet上的特征可视化的卷积码净训练[来自蔡勒与宏泰(ZeilerFergus)]
可训练的特征等级
随着抽象等级的增加,表现形式等级的增加;每一个阶段是一种可训练特征的转换;图像识别:
像素→边缘→纹理基元→主题→
部分→对象
字符→字→字组→从句→句子→故事
言语
例子→光谱段→声音→...→电话→音素→字
浅度vs深度==查找表VS多步算法
“浅与宽”vs“深与窄”==“更多的内存”与“更多的时间”,查找表vs算法;如果没有一个指数大级别的查找表,几乎很少有函数可以用两步计算完成;通过指数系数,可以通过超过两步运算来减少“存储量”。
大脑如何解读图像?
在视觉皮层的腹侧(识别)通路包含多个阶段;视网膜-LGN-V1-V2-V4-PIT-AIT....等等;
多层的神经网络
多层的神经网络
简单单位的多层级;每个单位计算一次输入的加权总和;加权总和通过一个非线性函数;学习算法改变权重;
典型的多层神经网路架构
可以通过在网路中装配模块来发明复杂的学习机器;
线性模块
输出=W.输入+B
ReLU模块(经校正过的线性单元)
输出i=0如果输入i0;
输出i=输入,如果其他情况;
成本模块:平方距离
成本=
In1-In2
2
目标函数
L(Θ)=1/pΣkC(Xk,Yk,Θ)
Θ=(W1,B1,W2,B2,W3,B3)
通过装配模块来搭建网路
所有主要深度学习框架使用模块(灵感源自SN/Lush,),火炬7(Torch7),Theano,TensorFlow….
通过反向传递来计算斜率
链式法则的实际应用
推倒代数的斜率:
●dC/dXi-1=dC/dXi.dXi/dXi-1
●dC/dXi-1=dC/dXi.dFi(Xi-1,Wi)/dXi-1
推倒权重斜率:
●dC/dWi=dC/dXi.dXi/dWi
●dC/dWi=dC/dXi.dFi(Xi-1,Wi)/dWi
任何架构都可以工作?
允许任何的连接图;
无回路有向图
循环的网络需要“在时间上展开”
允许任何的模块
只要对于相应的参数及其他非终端输入是连续的,并且在几乎所有位置都可以进行求倒。
几乎所有的架构都提供自动求导功能;
Theano,Torch7+autograd,...
程序变成计算无回路有向图(DAGs)及自动求道
多层网络的目标函数是非凸性的。
1-1-1网络
–Y=W1*W2*X
目标函数:二次损失的恒等函数
一个例子:X=1,Y=1L(W)=(1-W1*W2)^2
卷积网络
(简称ConvNet或CNN)
卷积网络架构
多卷积
动画:安德烈.卡帕斯(AndrejKarpathy)网址:
转载请注明:http://www.aideyishus.com/lkjg/1051.html