北京时间1月14日下午,谷歌云首席科学家李飞飞在极客公园2017GIF大会上发表演讲,介绍人工智能如何理解世界。
今年1月3日,斯坦福大学计算机系终身教授李飞飞正式入职谷歌云,成为该部门的首席科学家。此前,她被认为是和谷歌大脑负责人杰夫-迪恩(Jeff Dean)齐名的人工智能专家。
她介绍称,人工智能早前的表现并不能达到人类预期,究其原因在于该技术的演进过程。机器学习领域崛起之前,人工智能系统全部都是十分复杂的手工设计规则,并且存在致命问题。
而神经网络技术从50年代的概念开始,一直发展到2012年的深度学习技术,最终造成了人工智能领域井喷式的成长和革命。
在演讲中,李飞飞表示,人工智能领域已经发展了60年。该领域将获得进一步发展,在带来诸多希望、期待和机会的同时,也充满不确定性。
以下是李飞飞的演讲实录:
我今天带来的,是比较学术的演讲。我想跟大家分享一下人工智能,站在我自己的实验室的角度,过去的发展的路径,和我们最近在做的一些工作。
人工智能到今天,已经带来了一场革命的开始,不管是天上、地下、云上、手机上,我们都会看到它给我们带来的一些兴奋的可能性。
其实,智能这个问题,从人类文明的最初期,有了人,就有了这个问题。人工智能没有那么长的时间,人类的历史有上千年的历史,但人工智能只有大概60年的历史。人工智能的早期,一个奠基性的人物是Alan Turing,大家都知道Turing是个数学家。大概在五六十年前,Turing开始思考,怎么去创造一个Thinking Machine。他说:要建造一个智能的机器的话,可能最好的方法就是,通过最好的感官来提供给它,让它能够学会并且使用应用语言。
智能的Machine,它需要两个特别重要的元素:
1、感知。我们可以看人最大的感知系统是视觉,人还有其他的感知系统,机器也可以有其它的感知系统,但视觉是一个最大的感知系统。
2、对含义的理解和推断。语言是人类最特别的一个能力,大多数人都会同意,动物是没有这样的能力的。
所以,Turing远远没有建立起人工智能这个领域。但是,他带来了最起初的一些重要的思想元素:我们要做一个会思考的机器,里面需要包括:视觉、语言。
Turing之后,有这么一位科学家,他是计算机界的一位泰斗,是跟马文·明斯基在MIT第一批读人工智能的博士生,后来他到斯坦福做教授,他的名字叫Terry Winograd。
Terry是人工智能界,第一代把Turing的思想贯穿下去的人。他不光在人工智能领域做了最重要的工作,而且他后来转行去做人机交互,也把这个领域重新带动了起来。
Terry带来了什么?Terry把人工智能应用在了怎么去建造一个思考的机器上。他说一个人,或者一个机器,要去理解世界,需要去感知。感知以后,需要做的第一件事是对这个世界的结构进行理解。
这叫Syntax Understanding。Syntax在自然语言处理领域叫语法,在计算机视觉这个领域可能叫三维结构。Terry说,Syntax以后,我们需要理解Semantics(语义)。Semantis做的事情就是Understanding Meaning(了解含义),语言有语言的含义,视觉有物体、有动作,有视觉的含义。
最后,当我们把Semantics和Syntax解决以后,智能的机器或者是人,主要解决的问题就是Inference,Inference就是统计推导、统计推理这个过程。
所以在Terry看来,要实现人工智能,需要有这3个要素:Syntax、Semantics、Inference。
有了这样的思想框架做引导,Terry写了一篇在人工智能历史上非常重要的博士毕业论文。这个论文给了我们一个System,我不知道在座有没有同行们听说过这个SHRDLU,它用一个像积木一样的世界,用积木搭建了一个世界,在这个世界里,让我们来完成Syntax(语法)、Semantics(语义)、Inference(推导)这样的loop(循环)。
这篇论文是70年代初写的,从70年代初一直到80年代末90年代,其实,人工智能貌似没有太多的发展。为什么呢?如果70年代就有一个计算机系统,可以理解人的指令。为什么我们到2016年,才关注到人工智能?2016年,亚马逊的Echo和Alexa,也好像做的事情区别不大。
为什么60年代、70年代、80年代的人工智能,没有我们预期的做得那么好,问题出在它的演进的过程。
在机器学习这个领域崛起之前,人工智能的系统都是hand-design rules,这个rule十分复杂,而且都完全是用手工,用科学家的聪明的脑袋,想出来的rule。
这些rule,会有什么样的问题?其实Terry这样绝顶聪明的人,他能建立这个系统,这个rule肯定已经是包罗万象了,但是这些rule还是有3个比较大的致命问题:
1、Scalable(可扩展的)。你不可能把天下所有的rule,都写进一个程序。
2、Adaptable(可适应的)。当你给系统设计这个rule的时候,你很难把它转换到另外一个rule。比如说,英文的语法、语义,我可以设计很多rule。可是,我要把它放进中文,它的语法就完全不一样了,我就得重新设计出来一套rule。
3、它是一个Closed word。
所以说,Hand-design Rules在AI这个领域发展的早期,给我们带来了一些曙光,但是它并没有把我们带进真正的光明。到了80年代开始,一个重要的子领域在人工智能领域开始发展,就是机器学习。
机器学习是什么呢?机器学习和传统学习最大的区别,我在这里给大家画出来了。你可以想象,传统的学习,是用人认识这个知识,然后再灌输给它,让机器学习,这就像Terry他们做的事情一样。
但是,机器学习不一样,机器学习是把认知知识这一层给省掉了,可以直接把数据放进学习组件,让这个学习组件去学习一个知识,这个知识可以发挥作用。
但最近一个特别重要的算法,就是所谓的Artificial Neural Network,从80年代开始,它叫神经网络。神经网络有很长的历史,50年代Rosenbatt就提出了PERCEPTRON这个概念,这个概念就是把这些细胞怎么结合起来,然后一层一层地输入数据,然后输出结果(take layers of input and take output)。
到了60年代初,一个重要的神经生物学的发现,又推动了这个思路,这就是Huble and Wiesel,在通过对猫的脑子做实验的时候发现,哺乳动物视觉的感知,实际就有这种神经网络的概念,它是一层一层的细胞不断的推进,从简单的层面到复杂的层面。
到了1980年,70年代末,一个重要的日本计算机科学家,叫Fukushima,做出了第一个Neocognnitron的神经网络,可以识别数字和字母。
到了90年代末,通过Geoffrey Hinton、Yan LeCun进一步的把学习的rules更优化了以后,就出现了今天大家比较熟悉的卷积神经网络。
最近,给我们带来最大的一次神经网络,或者叫深度学习冲击的work,是2012年Alex Krizhevsky和他的导师Geoffrey Hinton,一块写的AlexNet,其实AlexNet和1998年的Convolutional Neural Networks区别不大。但是,为什么在2012年这个大致的历史时期,深度学习和神经网络发生了一次井喷式的成长和革命呢?是因为3个重要的因素:
1、这些算法的不断优化和成长。
2、互联网给我们带来的海量数据,这也是我和我的学生们,在9年前做的一项工作ImageNet。
3、硬件的发展。
所以很多人就说,Deep Learning的三个Ingredients: Algorithms(算法)Data(数据)和Computation(运算)。它给我们带来了一次革命性的飞跃。
有了这个深度学习和机器学习的崛起,我们其实可以重新回到Turing和Terry给我们搭建的AI大的思路和框架里,重新解决一些在没有机器学习前完全解决不了的问题。
比如说,计算机视觉里面Syntax这个问题,这个问题实际上就是三维场景的结构,视觉世界的结构。这个问题,在过去的二三十年,有了长足的发展,用了很多跟机器学习的方法。今天,为什么无人车可以开始产业化,在算法方面很大的原因要感谢3D视觉,这几十年来的成就。这是其中一部分。
第二部分,我们说Semantics这个问题,在计算机视觉里面它是物体分类、场景分类、物体切割这些。这个领域,也是在这几年有蓬勃的发展,我们Image Captioning团队一直在主持一个国际上的竞赛。从2010年开始,一直到2015年、2016年,机器的进步,已经基本上达到了,甚至它有时候超越了人的水平。你现在看到的这幅图是机器的错误率,2010年第一界Image Captioning的时候,错误率还在28%左右。到了去年2015年,这个错误率已经到了3.6%,人也差不多就是这个水平。所以,这是一个非常长足的进步。
刚才,我给大家分享的是两个单独的元素:Syntax、Semantics。其实,就像Terry提出的一样,要真正做好AI,要把这些元素全部结合起来。我们一步一步来看,下一步要结合的是Syntax、Semantics在计算机视觉里面它就是场景结构和语义,或者物体含义,一块的融合。
这项工作,也有不少人做,前段时间斯坦福的另外一位计算机视觉教授搜沃塞维塞西,他们做了项比较重要的工作,就把这个3D的建模和物体场景的识别,结合起来了。
我们再往下推进一步,可以看出,我们现在在尽量完善这个图片。我们现在把Language加进来,结合Vision,这是Turing给我们提出来的人的智能终极目标之一。
所以,Language和Vision,是最近人工智能界非常关注的点。
下面这个工作,主要结合的是Syntax和Inference,它结合了Semantics,这是我的实验室最近和Facebook的一次合作。我们联合发现了一个Benchmark(基准),它的意义是什么呢?我们跟ImageNet比较一下,ImageNet主要在测试机器对Semantics的认知能力,就是物体分类。
这项工作,我们把它取名叫CLEVR,它测试的是机器对Language Vision在Syntax和Inference方面能达到多好,它跟ImageNet基本上是反的。
具体是怎么做呢?具体我们用了一个图像引擎,去模仿很多很多的场景,又回到了更像积木一样的世界。
在这些场景里面,我们又自动生成了很多问题。比如说,这张图里有没有和半球一样大的积木?这些问题是在挑战这个计算机系统对场景结构的理解,这个结构里面包括物体的大小,或者物体的材料,包括数字计算,也包括比较的能力,也包括空间的关系,最后包括逻辑运算。所以,这在测试计算机好几层的能力。
这个数据库,组成了很多很多不同的场景,提出了很多不同的问题。然后,我们就可以通过用最好的深度学习模型,来测试计算机做的怎么样。其中最好的,比如用CNN和LSTM,没有听过也没有关系,这是一种深度学习的模型。然后我们就会发现,计算机现在远远达不到人类的,比如数数能力,或者现在对材料的分析还不够好。而且,我们也远远达不到比较的能力,人是很容易比较出一个东西比另外一个东西大,计算机现在还远远没有达到。
这项工作还告诉我们,在Syntaxt和Inference方面,人工智能其实还任重道远,CLEVR这个Benchmark,就给我们指出了一些比较明确的方向。
最后一点,我们怎么把language、Syntax和Semantics一块融合进来?这是最近我们做的一系列关于看图说话的工作。看图说话就是,一个图片进来,我希望这个计算机讲出一个故事,比如一句话“两个男人在玩飞盘”。这个模型,我们是用了一个图片的模型,再加上一个语言的模型。
图片的模型用的是卷机神经网络,语言的模型用的是一个LSTM。
刚开始,这个计算机在还没有足够学习能力的时候,给出的语句是非常傻的,慢慢的它就开始学习这个图片的内容了。到了最后,它可以说出其中的内容。
在我结束之前,跟大家分享一下,我们认为下一步计算机视觉和人工智能,包括自然语言处理,还要往下怎么走。
Terry和Turing给我们指出了这个结合Syntaxt,Inference和Semantics的路径,我们远远还没有完成这个愿景。比如说这幅图,现在计算机视觉可以告诉我们,这个图里有一些人,甚至这幅图的三维结构是什么,或者给我们一句话或者给我们几句话、N句话,就像刚才我们看的。
但是,我们人看到的远远不止这些,我们人看到的是一个非常有意思的故事,我们知道这里面的人是谁,我们知道他们的关系是什么,我们知道他们的情绪是什么,我们知道这幅图的幽默点在哪里。它可以给我们带来很多很多信息,这是计算机现在远远没有达到的。
随时随地了解最新ICT产业资讯,请扫描二维码,或搜索"chnsourcing",关注中国外包网官方微信。
作者:周峰