咨询热线:0771-5861520,0771-5861920,0771-5784905

返回首页|设为主页|加入收藏

产品中心

当前位置:首页 > 产品中心

产品中心

锁死AI基础研究的两个「智子」是什么?

来源:火狐电竞体育

2021-09-25 01:31:27

  在小说《三体》中,当物理学家杨冬得知地球基础科学是被“人为”锁死的真相之后,她陷入了绝望的深渊。

  看着杂乱无章的数据,杨冬似乎感觉到她做的每一次实验,在每一个基本粒子背后,都有一个比麦克斯韦妖还要顽皮的智子,在嘲笑着她困惑的表情。

  智子,是三体人打造出来的人工智能,它能以基本粒子的形态存在,并可同时攻击地球上的大量基本粒子实验装置,使得实验数据出错,或者随机化,从而锁死地球的基础科学。

  回到现实,当今人类创造出来的人工智能,仍旧十分幼稚,能处理的问题非常有限,尤其是在深度学习似乎触达瓶颈后,不少人开始质疑,现阶段的人工智能基础理论研究,似乎已经进入了停滞期。

  物理学家费米说过,科学永远是理论和实验两条腿走路。理论和实验两者之间存在gap,在科学发展史上其实是常态。

  这个智子,仿佛是小说里化身成人形的持刀少女一样,以武力胁迫人们在狭窄的领域里拼抢和艰难生存。

  有人说它是AI崛起的捷径,也有人定性为AI技术“越来越水”的标志,有过AlphaGo在围棋领域围剿李世石的神来之笔,也有论文抄袭屡禁不止的悲哀。

  今年5月份,ACM Fellow、美国里普罗维登斯布朗大学计算机科学卓越教学的罗伊斯家族教授迈克尔·利特曼(Michael L. Littman)在ACM通讯上发文指出一个或许普遍存在,但却没人注意的学术道德现象:共谋。

  几位作者提前串通好,将他们的论文提交至顶会,并相互告知自己的论文标题,故意违反盲审规则,并造成重大未披露的利益冲突。

  对于上述事件的发生,罗切斯特大学教授、ACM Fellow罗杰波在接受雷锋网的采访中表示,这背后只有一种原因:学者急功近利。“顶级会议、期刊中的署名论文数量和研究者的声誉、晋升息息相关。”

  “学术界要有学术界的规范,不能够什么事情都没有底线,不能跟熟人打招呼,不能抄袭,更不能看到别人正在进行好的工作就打压,对学术要有敬畏之心。”

  罗杰波一再强调,同行评审是评价学术成果的重要手段,凡是重大的理论突破,只有经过同行认可,才能发挥它最大的作用。但同行评审的基础是建立在信誉基础上,“通俗的讲,就是不放水”。

  而对于学术界“抱团”的另一个现象,电子科技大学教授、IEEE Fellow李纯明表示,其带来的影响可能比想象的要严重:最早一批在深度学习领域,通过调参、灌水成功发表论文的学者,他们已经形成了利益团体,事实上也已经掌握了一定的学术资源,他们在会议、论坛、期刊拥有审稿权,能够决定一些没有创新的论文(灌水)被接收。

  “反复调参、只对原有网络做修修补补和各种组合、缺乏理论指导......只要恰好调出好的效果,就能写出一篇论文,甚至可以发表在顶会顶刊上,而文章里面大多都‘只写how不写why’,甚至连how也没说明清楚。其中有少数是出于DL不可解释性的无奈,但多数还是为了发文章而发文章,并不是为了解决一个问题,而这种做法通常能快速提高论文数量。”李纯明说道,“近几年各种AI相关的期刊和会议论文数量暴涨好几倍,深度学习论文泛滥成灾,离不开这种风气的推动。”

  这种风气甚至被一些学者利用,来“忽悠”审稿人,“比如,为了体现论文的创新性,他们会在论文中写一些创新点,而在他们的算法实现中并没有都用到它们,或者起的实质作用并不大,实际上主要还是靠现有的深度学习方法或者加上一些小的implementation trick。另外,以图像分割的论文为例,有人在论文中不仅采用了深度学习,也用了传统方法对深度学习分割结果做了后处理,有时还能够显著改进深度学习直接得到的分割结果;但为了迎合做深度学习的审稿人,他们可能会轻描淡写甚至不提传统方法的作用,而是突出在深度学习框架里的创新点所起的作用。这几种文章发表以后,作者通常也不愿意公开所有的源代码。”

  这批人有的已经博士毕业,走上学术舞台,成为导师,他们的学术风格又影响了他们的学生,然后这些学生博士毕业,也走上了学术舞台........目前来看,可能有第二代甚至第三代这种“灌水学者”都已经成为导师。

  “所以,为了鼓励其他AI领域的发展,顶级学术会议能否规定某些方向论文接收比例?毕竟,通过人工智能道路上,不止深度学习这一条路径,”李纯明表示。

  江湖不是打打杀杀,江湖是人情世故。这一著名影视经典名句是对社会人际关系的最好写照。但在学术领域,却恰恰相反,只有凭真本事,拿出过硬的工作成果,才有研究者follow,才能推动AI理论的突破。

  “近年来国内在人工智能会议上屡创佳绩,但其实这背后更多反映的,是国内人工智能的人力物力投入领先全球,而不代表学术层面上的领先。”在对话过程中,罗杰波突然向我们抛出了一个尖锐的观点。

  “科技企业,在人工智能顶会上频频刷足存在感,其实更多是工程能力的证明,而非基础研究的成就。”一AI顶会的大会主席向雷锋网评价到。

  据斯坦福大学在《人工智能指数年度报告)中称:更多的 AI 博士毕业生选择在工业界工作,增长比例约为48%。

  在2018年计算机视觉Top100的论文中,来自工业界的论文数更是一度超过学界,这意味着,不仅在量上,在质上,业界的学术能力正在“追赶”学术界。

  据李纯明介绍:“当前的AI,深度学习是主流,深度学习需要算力和数据加持,业界在这方面资源丰富,发起论文来更加得心应手。”

  例如,医疗AI的训练数据,简单的“拷贝”并不能满足模型训练的需要,只有让医生耗费精力标注、分割才能在在模型上使用,这会耗费很大的成本,学术界很难做到。

  例如在高校和公司的合作项目中,资助的一方往往会在合同中表明:实习生三个月出成果,教授一年完成任务。但是一般真正“有突破”的研究需要3~5年甚至更多年的时间。

  大家常常说学者要坐10年冷板凳,但实际上,在业界用算力+数据和学术界的“脑力”合作的过程中,在时间维度上没有足够的耐心。

  即使业界自己的AI Lab开始会打着“不做业务,只做基础研究和技术积累”的旗号。但对自己的研究员也会设置论文数量KPI、限定研究方向,甚至制定营收考核指标。这可能也是最近AI大牛纷纷离职、网友在知乎上发出疑问“2021年各家大厂的AI lab现状如何?”的原因之一。

  例如当前的一些算法可能在数据集上表现非常好,大数据确实也对模型训练有非常多的帮助,但是模型的泛化能力如何还有待考证。

  再者,工业实际场景非常复杂,学术论文中的描述非常有限。例如基于人脸识别的驾驶员疲劳检测系统,在学术层面的讨论似乎非常简单,但是在实际场景中,则需要考虑到是否有遮挡等因素。

  最后,学术论文和工业落地在评估指标上也存在差异。学术论文主要关注一些非常技术性的指标,而在实际落地场景中,关心的是业务指标,闯红灯检测多大程度上能阻止事故的发生率?节省了多少成本?安全性能提高了多少?这些指标才是企业所关心的。

  理想的丰满与现实的骨感造成的落差导致人们开始对AI期望降低,投入减少,进而导致AI进展缓慢。

  但罗杰波也认为,学术会议充斥着大量的工业界论文将只是短暂的现象:算力驱动终究存在瓶颈,而算法创新才能带来颠覆,新算法idea的产生主要来自学术界,“虽然缓慢,但一直在进行。”

  “这几年先是一窝蜂涌上来鼓吹深度学习,现在又大泼冷水,这其实都是不成熟的表现。即使人工智能在理论上最近没有什么进步,但这不代表人工智能没有进步。”

  著名的经济学家林毅夫曾在2017年发表过题为“李约瑟之谜和中国的复兴”的演讲。在演讲中,他从科学革命的角度尝试回答了“为什么工业革命没有发生在中国?”这一问题。

  科学革命的精髓是通过运用数学模型来归纳宇宙与自然运行的规律,并且运用可控实验来验证数学模型中产生的假说。为什么中国没有发现这种理解世界运行的新方式?发生科学革命首先必须有对自然现象充满好奇心和很有悟性的人。对于自然现象充满好奇心与悟性是一种与生俱来的能力,在人口众多的中国,应该会有更多具有这种天赋的人。那为什么这些天之骄子没有找到这种更好的研究自然现象的新方式?

  我的解释指向了中国的社会政治制度。中国有其独特的科举制度让平民百姓可以通过科举晋升为统治阶级。在传统社会中,成为官员是光宗耀祖且收益最高的工作。所以,考取功名、成为官员对大众来说极具吸引力。宋朝以后科举制度要求考生熟记儒家的四书五经,这就导致有才华的年轻人都投身于儒家经典的学习以准备科举考试。他们没有学习数学和可控试验的动力。因此,中国缺乏拥有这两样人力资本同时又充满好奇心的人才,科学革命也就未能应运而生。

  当谈到新兴技术在改善世界各地人们生活的潜力时,你首先想到的可能不是电子游戏。然而,虚拟游戏可以在训练人工智能 (AI) 以对现实世界产生积极影响方面发挥重要作用。

  知史以明鉴,查古以至今。中国五千年的传统文化影响着当代中国的每一个人,也影响着各个领域。当年的科举制度已经“变异”成帽子、职称以及地位。拿到了一定的帽子就有相应的物质资源,用这些资源继续换“帽子”........这导致有才华的年轻人都在想办法提高论文数量,以应对职称考核、学校评奖。

  “不管是论文数目,还是引用数据,只要给学者设定了这种KPI,中国人一定有各种办法找到方法去解这个目标函数。”在谈到中国的学术环境的时候,罗杰波如是说道,“科学研究需要时间来检验的,现在正规的AI学术会议都会设置一个时间检验奖,目的是回到十年前,看看到底哪些论文是经得起检验的工作,因此学术要自由,不能拼数字也不能拼引用。”

  他也转而补充道,“其实,中国也在变好,前段时间有国家也发文,对破除论文“SCI至上”提出明确要求,大家已经注意到了当前科研评价中存在SCI论文相关指标片面、过度、扭曲使用等现象。”

  中国改革开放才40多年,但也已经过去40多年了,这意味着还有些时间让学术界学习大洋彼岸的自由、包容的学术氛围,同时融汇贯通。但也必须警醒的是:中国仅靠后发优势,仅靠“模仿”取得的重大突破,无法支撑中国的AI声震寰宇。留给中国能够“模仿”的时间不多了。

  2000年~2020年间,中国的 AI 期刊论文发表数量超过美国和欧洲,某种程度上象征着影响力的论文引用数在2020年也超过美国。中国宏大的市场,广阔的AI应用场景,海量的数据, 甚至人海战术, 带来了中国在AI应用端独特优势。

  但当我们习惯于仰视和羡慕俊俏的山峰时,是否也应注意其脚下根基深厚的辽阔平原?随着逐步逼近香农定理、摩尔定律的极限,应用落地必定被基础理论所限制,而基础理论的发现和创造,不仅靠人民大众,更是要给那些“对自然现象充满好奇心和很有悟性的人、团队”更干净的学术氛围。

  但有一个令科学家困惑不已的地方是,即便不刻意引入随机性,拥有庞大容量的深度学习模型(神经网络)似乎在吞食数据的时候仍然不是囫囵吞枣,或者说单纯记忆数据,而是细嚼慢咽,消化出了自己的领悟,也就是说,它有很好的泛化能力。它甚至能自发生成对事物的分层解析,类似于我们的大脑结构。

  智能有一个简单的理解就是信息压缩,比如当我们把一斤苹果加上两斤苹果等于三斤苹果,抽象成1+2=3(斤),就经历了一个智能过程,这其中把苹果的信息过滤了。因为我们注意到,一斤XX加上两斤XX等于三斤XX的现象,不止在苹果上出现,还有梨、水等等。然后,我们会尝试把这个规律应用到其他事物上,发现也是合适的,这样就实现了泛化,也就是实现了智能的目的。

  那么,如何理解上述深度学习的泛化能力奇异现象呢?如果开会的时候,我们手里只有一张纸,那么对于讲者的话,我们只能做笔记。但如果有一只录音笔,我们就会录音。甚至有手机的话,我们会把整个过程拍下视频。从纸到录音笔到手机,它们的容量是逐渐增大的,同时记录的信息压缩程度就越小。对比深度学习,在如此大的容量之下,却能自发形成有序的结构,而不是单纯记忆数据,着实令人困惑。

  科学家猜想,神经网络的优化过程存在自发的随机性,这会使得数据复杂性增大,从而使其容量相对减小。

  但这种随机性的本质是什么?至今没有得到回答。它仿佛也像智子那样,在给人类的理解力出难题。幸运的是,这没有阻碍深度学习的应用。现在人脸识别、语音识别等应用已经走入了我们的日常生活,我们甚至习以为常。

  然而一旦出了问题,它所展现出来的缺点,总是让人跳脚和手足无措,无论是被看不见的东西误导(对抗攻击),还是说出“太阳有三只眼睛”(缺乏常识)等等。令人不禁怀疑,这背后仍然是智子在悄悄作怪,就像干扰基本粒子实验那样,给深度学习带来不确定性和不可解释性。

  其实,深度学习的这种不确定性和不可解释性,或许也来自于其巨大的复杂性。“虽然都会因为问题复杂度增加而使数学变得复杂,但深度神经网络的数学表达式之复杂程度(非线性激活函数和线性函数的多重复合),以及其中的变量和参数的数目之巨大,远远不是一个物理公式可比的,而且前者的表达式里的每个参数(包括每个神经元的权重),都没有对应的可解释的意义,没法描述这些参数的变化对神经网络输出结果的影响,这也是深度学习的不可解释性的主要原因之一。不像物理公式那样,其中的每个变量和系数都有物理意义,并且可以解释其中每个量的大小变化对公式计算结果的影响。”李纯明表示。

  智子计划是基于大时间尺度的考虑,不会立马显现效果。类似地,如果理论研究一直原地踏步,AI很可能会在将来遇到瓶颈。

  如何理解理论研究的停滞呢?近两年AI领域在学术研究上似乎正在显现颓势,“基本上只有大规模预训练模型。”罗杰波说道,但他紧接着补充,“本质上,大规模预训练模型和2012年的AlexNet、2016年的AlphaGo相比,属于实验、工程方面的突破, 虽然是有应用价值的突破”

  就连近期非常受关注的AlphaFold2,在底层算法原理上仍然基于Transformer架构。“实现这些突破的关键,自然还是大数据、大算力。”

  罗杰波认为,深度学习在应用落地上还有很大的空间,但大多局限于感知层面,“我们下一步需要在认知、决策层面上努力”。要实现这一点,或许得在理论上取得突破。

  感知结合认知是实现智能的关键,然而对于智能这个概念,其实还并没有一个明确的数学定义,因此也尚未有理论去对此进行量化研究,深度学习理论主要集中在已有算法的改进和理解上。因此,AI的理论和实验之间,似乎存在对话的隔阂。

  尤其是在解释的层面,AI的可解释性研究大部分集中于复杂模型,而理论层面的解释型研究则经常选择在应用中非典型的模型。

  接下来,我们将探讨AI领域的几个关键方面,涉及感知和认知、可解释性、理论研究等等,试图理解人工智能的理论和应用之间的鸿沟,并揭开隐藏于神经网络的第二个智子的真面目。类似于《三体》中的初次登场形式,第二个智子看不见、摸不着,藏于黑盒子之中,不仅在理论研究中存在,在实验研究中也存在。

  “猫识别”问题是一个经典的AI问题,尽管吴恩达2011年在谷歌开发的“猫识别”系统,远远晚于Yann LeCun的手写数字识别系统,但正是这个系统让深度学习声名远播。如今吴恩达在《深度学习》课程中,也会经常以“猫识别”问题为例子介绍神经网络的基本原理。

  当时这个“猫识别”系统的训练和现在无异,系统在输入了数百万张猫脸图片后,就能识别一张图片是不是猫。

  后来很多新的图像识别模型都没有走出这个“暴力训练”的框架,而只是在探索如何更加高效地进行识别。

  实际上,关于视觉识别这个问题,人工智能领域有一个长期的争论:识别究竟是目标问题,还是场景问题?

  目标问题也就是打标签,就像上述的猫识别系统和手写数字识别系统,对一张图片,打上“是XX、不是XX”的标签就行。

  场景问题则不满足于打标签,而是要先回答:我们要识别的对象,和周围环境是什么关系?对这个问题的回答,决定了该对象应该打上什么标签。

  比如对于上图中的“猫狗”,我们最终要判断它是猫还是狗,可以在现实中接触它,用你的双手捧起它的两只前爪,看它是摇尾巴,还是挠你一脸。

  也就是说,我们要通过获得识别对象和其他对象(比如人)之间的交互信息,来判断对象的类别。当然,如果照片中刚好有它跑去追飞盘或者趴在猫抓板上的信息,就不用冒这个险了。

  如今的深度学习,在某种程度上,可以基于场景去进行视觉识别,比如它也可以基于狗的图片中的草坪,帮助判断图片中的对象更可能是狗。

  但它不能给出这种关系判断的显式依据。同时,这种语境判断甚至会给模型带来问题,比如如果模型看到的训练数据中,狗总是在草坪里出现,那么深度学习就会把草坪的存在当成狗出现的依据。这也是深度学习一直被诟病的捷径学习问题。

  所以,场景不是简单地通过增加输入信息就能解决。归根结底,识别不是简单的感知问题,而是感知、常识和目的融合的结果,深度学习只学会了感知,上述的“猫狗”识别还需要结合常识。

  如下图所示,我敢打赌你是第一次见到这种“东西”,通过常识你可以大致判断这可以作为椅子,因为你可以坐上去,并放松全身肌肉。但如果你不是想坐着看电视,而是在玩躲猫猫呢?这时它就是很好的防护罩了。还有,如果你要搬家,这是不错的临时容器。

  通用近似定理表明,单一隐藏层、无限宽的前馈神经网络,可以逼近任意的函数(完备的表达能力)。也就是说,如果任意的问题都可以转化为一个函数问题,深度学习可以解决任何问题。

  的确,支持这条路线年图灵奖的深度学习“三巨头”,都对此坚信不疑。他们也认为,如今人们一直强调的常识,或者认知智能,也可以用深度学习来实现。

  不考虑效率的话,这一说法没有问题。但同样,采用更加暴力的进化算法也能实现通用人工智能,DeepMind近期还专门发表一篇论文,讲述其如何设想利用强化学习来实现通用人工智能。

  奥地利-捷克实验物理学家和哲学家恩斯特·马赫曾经提出,“思维经济是科学的主要任务”,思维经济原则就是“事实的经济陈述”。我们应该追求尽可能简洁高效的科学方法,这种思想其实和上述智能的简单定义(信息压缩,而且是尽可能压缩)也很相似,不够高效的智能算法算不上智能。如果深度学习在某一任务上不如其他方法,就不应该采用它。

  他们也许在沉醉“深度学习/进化算法/强化学习就是通用人工智能”这样简单的描述,而没有考虑到暴力堆叠数据和算力带来的复杂性。当然,只要能产出有影响力的论文,喊喊口号不是问题。

  实际上,在理论表达能力方面,SVM也可以实现任意的非线性变换,从而拥有和深度学习相同的表达能力,但它的优化非常困难(近似能力差),并且不适用于大数据训练。

  图神经网络近年来受到热捧,但基于论文”How powerful are graph neural networks?“中的讨论,已有理论证明它的表达能力有一个确定的上界。有很多人在努力寻求改进的方法,以提高它的表达能力,并卓有成效,但仍然未能与深度学习匹敌。

  其实除了表达能力,深度学习会得到重用,还有优化简单、认知门槛低、硬件支持、环境支持(数据)等等原因,可谓天时地利人和。

  在这样的背景下,深度学习必然不会被断然放弃,人们也在尝试“深度学习+”的妥协路线,比如深度学习+传统机器学习、深度学习+人工编程等等。

  在深度学习的框架内,感知和认知究竟有没有绝对的边界,不少学者试图通过打开深度学习这个庞大无边的黑盒子,去找寻线

  (2)可解释的隐变量 c,该部分包含我们关心的语义特征(如 MNIST 数据集中数字的倾斜程度、笔画的粗细),与生成的数据之间具有高相关性(即二者之间的互信息越大越好)。

  CNN和人类视觉神经的识别原理有一个很相似的地方,那就是底层网络的特征提取阶段。而这一部分的识别过程,我们是意识不到的,永远也无法依靠自觉去分析背后的过程。

  首先,有意识和无意识只是相对的,有意识可以从无意识中不断挖掘出来。那么,有意识要怎么去挖掘呢?

  一个长期独居在远离人类社会的地方的人,语言和逻辑能力会逐渐丧失,其也不能反思自己的行为,只能按照外界的刺激进行单调的反应,就像无意识状态一样。

  如果收到答案 2-4,计算机会要求人类对目标部分进行重新注释。在答案3的情况下,计算机会要求人们重新指定模板,以及确定物体是否翻转。

  这种提取方法偏向于逻辑,那么语言解释要如何提取呢?在提炼语言解释的过程中,其需要借用现实的隐喻来表达。

  在 著名语言学家乔治·莱考夫的经典著作《我们赖以生存的隐喻》中就提到,人类是没有办法直接表述抽象概念的,必须借用隐喻。比如“我们在危机的包围中生存下来”这句话,就借用了“包围”的现实本体,比如一个羊圈,作为隐喻来表达“我们”和“危机”之间的关系,即它们是一种“找不到突破口”的关系。人类在理解这句话的时候,脑海里隐含地存在类似羊圈的本体形象,如果不刻意去深究,平常不会意识到。

  不解释的意思就是,我们不去寻求对神经网络的解释,神经网络既然是个黑盒子,那就乖乖当个黑盒子。

  通俗来讲,现在的深度学习可以替代任何你想替代的程序模块,但对于一个蛋白质结构预测程序而言,只取代3D结构预测部分,其它部分沿用已有技术,整个系统就会可靠得多。相对于将整个程序用深度学习取代,我们不知道的部分也会相对简单得多。同时,我们知道黑盒子的边界是从“肽链”到“蛋白质3D结构”。这其中,“肽链”和“蛋白质3D结构”就是我们需要的可理解的“隐喻”,以及用于语言表达的词汇。

  比如发表在Nature的“Using deep learning to model the hierarchical structure and function of a cell”这篇论文中,就提出了一个多阶段输出的堆叠深度学习模型,可以从DNA序列开始,预测多个中间阶段过程(比如基于DNA序列制造蛋白质、细胞器反应等),一直到酵母细胞组成部分的形成,实现了对基因作用过程的结构化解析,并且能轻易观察DNA改变时细胞机制的变化。

  深度学习的可解释性研究给了我们很多感性上的理解,或许有一天我们能够在黑盒子中窥见感知转变为认知的节点。而智子似乎仍在实验层面以巨大的复杂性,阻碍我们去发现它。

  有人曾指出,如今深度学习存在理论和实践严重脱节的情况。最典型的现象就是,深度学习理论往往将无限宽神经网络作为研究对象,但现实中用的最多的,往往是非常深的网络,比如ResNet。

  上文提到的神经网络的优化过程存在自发的随机性,其实是梯度下降中的隐式偏差现象。这种现象可以让梯度下降达到更好的局部极小值。

上一篇:
上一篇:2021年中国人工智能基础层行业研究报告
下一篇:谁被称为人工智能之父

地址:南宁市东葛路118号青秀万达西(甲)3栋39楼3909室
联系电话:0771-5861520/920
CopyRight© 火狐电竞 版权所有 桂公网安备 45010302000733号 桂ICP备13001985号-1