中科白癜风医院微信 http://www.bdfyy999.com/guanyuzhongke/lianxiwomen/如果能有一种理论告诉我们什么样的模型架构、运算方式能最好地表示某种数据,什么样的损失函数、迭代方式能最高效地学习到某种能力,什么样的设置又使这种能力能处理各种意外情况。那么,这样的深度学习,乃至机器学习,才是理论基础圆润的大学科。令人惊喜的是,我们可以看到近来很多前沿研究都越来越系统,越来越有洞见。最明显的是近年举行的AI顶会,我们可以看到很多获奖论文都尝试从更基础、更深刻的角度为DL打下地基。本文将从年人工智能顶会的获奖论文出发,为你介绍深度学习的理论基础到底是什么样的,当前又有哪些新发现。数学基础≠理论基础在入门深度学习的过程中,我们经常会听到各种数学名词,线性代数和矩阵微分、概率论与随机过程,似乎要想理解各种模型,首先必须理解这些数学概念。那么这些数学描述不正是深度学习的「理论基础」吗?这里我们需要明确的是,数学是一种语言、一种工具,使用它描述深度学习并不一定等于构建DL的理论基础。这是一种数学基础,而不是整理领域的理论基础。很多深度模型确实都是从数学推导出发,然后得出某些很好的性质,但这只能说明模型是有理论保证的,它们并不能组成深度学习的理论基础。比如说图卷积网络或变分自编码器,它们最开始都是从数学的角度推导某些性质,后来才根据这样的性质构建整个模型。我们可以说这些模型的理论基础非常坚实,如果我们需要理解它们,同样也需要对应的数学基础。此外,在实际建模时,我们并不一定完全遵循理论推导,可以稍微修改以获得更强的计算效果。在深度学习中,有很多模型的数学推导都非常优美。也有很多模型从实验与直观概念出发,描述整个学习过程的数学表达。它们都非常重要,但并不能解决深度学习最基本的疑问:为什么深度模型能够高效学习?为什么深度模型要比浅层模型的性质好?为什么深度学习泛化性也不错?就像上个世纪初发现各种量子现象与解释,物理大时代艰难地寻求统一的「量子力学」。现在深度学习也有各种非常高效的模型,各种惊艳的结构,我们也许也需要一种统一的底层理论框架。DL的理论基础知多少谈到深度学习的理论基础,可能读者首先想到的就是通用近似定理(Universalapproximationtheorem),其表示拥有无限神经元的单层前馈网络能逼近紧致实数子集上的任意连续函数。通俗来说,只要神经元足够多,单层前馈神经网络「有潜力」逼近任意复杂的连续函数。在年提出通用近似定理以来,至少我们有了最基本的一个理论基础,即神经网络有潜力解决各种复杂的现实问题。MIT教授TomasoPoggio曾在他的系列研究中[1]表示深度学习理论研究可以分为三大类:表征问题(Representation):为什么深层网络比浅层网络的表达能力更好?最优化问题(Optimization):为什么梯度下降能找到很好的极小值解,好的极小值有什么特点?泛化问题(Generalization):为什么过参数化仍然能拥有比较好的泛化性,不过拟合?对于表征问题,我们想要知道深度神经网络这种「复合函数」,它的表达能力到底怎么确定,它的复合机制又是什么样的。我们不再满足于「能拟合任意函数」这样的定性描述,我们希望知道是不是有一种方法能描述50层ResNet、12层Transformer的拟合能力,能不能清楚地了解它们的理论性质与过程。有了表征能力,那也只是具备了拟合潜力,深度学习还需要找到一组足够好的极值点,这就是模型的最优解。不同神经网络的「最优化Landscape」是什么样的、怎样才能找到这种高维复杂函数的优秀极值点、极值点的各种属性都需要完善的理论支持。最后就是泛化了,深度模型泛化到未知样本的能力直接决定了它的价值。那么深度模型的泛化边界该怎样确定、什么样的极值点又有更好的泛化性能,很多重要的特性都等我们确定一套理论基准。总而言之,谈到深度学习理论基础,我们总是少不了听到这些关键词:19年顶会关于理论的研究在年中,我们会看到人工智能顶会选了很多理论性研究作为最佳或杰出论文。它们并不一定是在架构或算法上做出新的贡献,相反,它们很多都希望从数学及理论的角度理解深度学习,理解它的行为与边界。正因为顶尖研究成果更偏向底层,所以我们会发现它们的阅读难度越来越高。我们查阅了年AI顶会论文的获奖情况,这里我们确定「顶会」主要是根据CCF推荐的A类会议(人工智能领域),再加上CCF没有收录的ICLR。我们将获奖论文分为偏模型算法与偏理论研究两部分,其中理论研究可能是关于深度学习的理论研究,也可能是模型算法的理论理解。统计数据可见附录A:
转载请注明:
http://www.aideyishus.com/lkyy/6906.html