找回密码
 注册

QQ登录

只需一步,快速开始

搜索
爱股网 门户 财经博文 查看内容

[转载]【转:安信计算机】全球人工智能大会纪要(最完整)

2016-4-27 19:08| 发布者: 采编员| 查看: 505| 评论: 0|原作者: æ¢�军儒|来自: 新浪博客

摘要: 原文地址:【转:安信计算机】全球人工智能大会纪要(最完整) 作者:但斌 【安信计算机】全球人工智能大会纪要(最完整) 苪勇(微软亚洲研究院常务副院长):人工智能 AI之趋势 从1956年在达特茅斯正式提出artif ...
原文地址:【转:安信计算机】全球人工智能大会纪要(最完整) 作者:但斌 【安信计算机】全球人工智能大会纪要(最完整) 苪勇(微软亚洲研究院常务副院长):人工智能 AI之趋势


从1956年在达特茅斯正式提出artificial Intelligence,到目前已经60年了。 过去60年人工智能有那些属性,或者说哪些大的发展趋势? 很有意思,另外几个也是用AI开头的词:聚合的智能(Agglomerative Intelligence)、自适应的智能(Adaptive Intelligence)、隐形的智能(Ambient Intelligence)。



一.首先说下聚合的智能。


对应的产品是微软认知服务(Microsoft Cognitive Service)。最近微软发布了一个认知的云智能API,使得第三方的开发者可以很容易的调用这些API,使得写出来的应用可以像人类一样看到世界听到世界理解世界。


它包括五大方向,视觉,语音,语言,知识,搜索。




举例来说,How-Old.net.


这款应用很红,但是只需要20几行代码就可以开发,靠左边调用微软的云的认知服务API,就可以写出来很智能的应用。


之后对人脸的检测,人脸跟踪和识别,除了识别出来,我们更想知道人的表情,去年11月份,我们有更新的一版,将表情监测加入其中,可以检测喜悦吃惊愤怒等表情。


比人脸更难的是计算机有没有能力去理解他所看到的图片。


计算机视觉领域有一个全球的比赛,ImageNet,它有1000个类别,120万训练样本,10万测试图像,这里面包括车辆,动物,文字等,让计算机看到他没有看到的图片,让计算机告诉你这张照片属于哪一类,这个是很困难的事情。




过去的七八年,深度学习使得计算机视觉的分类问题得到了一个飞跃性的发展,在深度学习没有进入计算机视觉之前,如2011年时,错误率有20%多;到了2012年深度学习第一次应用到ImageNet中,一下子把错误率降到10%几,之后2013,2014,错误率一直往下走,到6%左右。2014年人类想知道自己能做多好,斯坦福一个博士把自己关在屋子里几个月学习,去参加这个比赛,错误率5.1%,他已经是人类中杰出的代表。去年年底微软用深度学习算法把错误率降到了3.5%,比聪明的人类还要好。得益于深度学习这四五年的飞速发展。


 




深度学习在2012年时,用的最多的是AlexNet,共有9个隐含层,我们叫它深度网络;过去四五年由深往更深发展,14年有19层网络;15年时微软做了比人类错误率还要低的深度学习网络,有152层,从来没有做到过这么深的深度学习网络。



 


大家可能知道,想做的很深并不是很容易的事情,因为错误率在回来后要求偏导,很多次后结果就不稳定了,超过22层就很难了,微软研究院做了152层。中间结构也很有意思,就想人类的脑的链接一样,不仅有一层层的层之间的连接,还有直接往前的连接,这就是残差学习的过程,因为这个残差学习的算法,我们可以做到152层这么深,我们可以将错误率降到3.5%。这是一个很核心的技术,去年年底ImageNet上我们得到了第一名。


除了图片分类,还有一类更难的问题是物体检测。图像分类只需要告诉我这是一个桌子这是一个人,物体检测还需要告诉我桌子在哪。这个我们基于深度学习算法,做出了很好的成绩。人能很容易检测的东西,计算机智能看到的东西就两个,除了0就是1,通过0和1能够理解图像对于计算机来说是非常难的事情。




比物体检测更难的是像素级的精确的分类。任何图片都是由像素组成,我们不仅想知道图片中桌子的位置,我们还想知道每一个像素是属于桌子的还是椅子的。中间更难得事情是像素级的精确识别,我们希望每个像素都能知道,是一个人还是一个自行车等。


 


二.自适应的智能

怎么让机器在不同环境下能够自适应的去帮助人类。



一个是微软自拍,这个自拍应用上线一个月,没有做任何宣传,完全口口相传,就有100多万用户在里面。他有很多核心技术,比如拍照时不需要考虑光线和大小,它会自动把光线和噪声补偿好,不仅如此同时他知道你拍摄的人姓名性别年龄肤色,做一些很智能的美颜,比如二十多岁女士会美颜的漂亮些,但是四五十的男士就不能美颜的太厉害。所以要知道看到的人的性别年龄肤色等,我们不希望拍摄的人去考虑这个问题,而是APP很智能的自适应的去考虑这个问题。




第二想聊一聊自适应的智能,是实时语音翻译的技术。这个是很有意思的技术,从星际迷航里就有类似的电话,1966年星际迷航,不管任何球星国家,都能实时翻译交流。1966年还是科幻,AI技术的发展现在变成现实。语音处理团队2010年在微软技术界上公布了这个技术,实现了中英文实时翻译。2012年天津21世纪计算大会上Buck Rachid进行了现场演示。


这个技术很难,整体梳理流程是,首先把中文音频信号变成文字,然后中文文字翻译成英文文字,然后将英文文字用我说英文的方式发出声音来。这三个环节每个错一点结果就完全不能看了。能做到这点需要二十几年的积累。



三.隐形的智能




我们都谈智能家居,智能环境,如果会场有各种智能设备,自动的做好事情同时隐于环境。如果穿在身上就是智能可穿戴设备。看两个例子。


 如果让智能硬件做到隐于环境的智能,他们一定要有智能,如果是个视频摄像头,希望摄像头看到外部世界并理解外部世界。计算机需要知道里面有人,有滑板,更需要知道人和滑板所在的位置,它能够用自然语言说出人类能听懂的话。生成这句话并不仅仅是计算机视觉一个领域的问题。如果真能做到这点,生活会变得更好。一个例子,一个盲人看不到外部世界,但是有一个眼镜代替他去看,并用语音来传达眼镜看到的东西,这是一件非常好的事情。


Microsoft Hololens



 


3月30号,微软开发者大会提到了hololens,后面还有很多项目,有一个处于实验室内部阶段的项目,叫holo protation,这个项目是指,今后开会时,两人在不同城市,但用全息3D的形式做到身临其境一样。这个科研项目是隐于环境的智能。视频中柱子上有几个摄像头,将人的动作捕捉下来,然后将3维信息去建立一个虚拟的人体,在另外一个地方显示出来。这个还需要很长时间去开发。


 


四.Augmented Intelligence 增强智能


人类与计算机各有强的地方也有各自弱的地方。如果从记忆里和计算能力上看,计算机远强于人类。但是人类具有两个半脑,左半脑是逻辑推理,记忆,右边半脑是想象力和抽象的能力,人类比机器强的地方就是人有创造力,想象力和发明的能力。今后人工智能的下一个60年,不再是人类与机器对比,而是人类和机器加起来,相互使用各自更强的地方,使两者相结合,使得我们有一个更加增强的智能。


 

杨强(香港中文大学讲习教授,世界人工智能大会fellow):自学习的人工智能


90周年之际,我们应该纪念图灵,他论文中提出的问题给了我们很大的启发。


60年代,先驱们考虑用逻辑和搜索来研究人工智能的一些挑战,比如下棋,推理,路径规划。他们有一个很强的假设,这个假设是非常直观的,就是我们人的智能包括计算机可能赋予的智能,来自一些物理符号的排列组合,我们只要很聪明的将这些物理符号排列组合的话,人的智能可以从一系列的0和1的组合来得到。在有一些成就后,发现这个假设是有瓶颈的。


在之后另有一部分人去着力研究能够有学习能力的人工智能,具有不同的学习算法,包括人造神经网络,人工智能的几个里程碑,第一个公认的里程碑是深蓝,这场象棋比赛意味着几件事,一是在大规模搜索状态下,实际上是物理符号的排列组合,60年代人的假设有一部分是正确的,我们确实能够从这种搜索和物理符号的排列组合中获得很多的智能。


紧接着知识就是力量,随着大数据和互联网的到来而来的一个热潮,那么从网上,从不同媒体红获得很多数据,这些数据经过沉淀获得知识,我们就可以赢得像这样一个电视大赛的人机大赛。




刚才芮博士也深入的回顾了下最近的人工智能的突破,即深度神经网络。深度神经网络的突破,从计算上来说有几个好处,其中一个是他把全局计算的需求变成本地计算的需求,那么在做到这样的同时,又不失掉很多信息。这个是计算机里面无数成就的中心点。这样的成功使得我们在不同的层次来观察同一个数据,这样就获得我们所谓的大局观。就像上图所示,我们在不同层次获得不同特征。




这里我们特别强调,人工智能也在另外一个方面潜移默化的耕耘,这个方面就是强化学习。强化学习是做人工智能规划的强力工具,但不是唯一。Planing这个领域相比机器学习来讲更古老,研究的力度也不亚于机器学习,但很长时间处于静默状态,主要原因是计算上有很大的瓶颈,使得他不能技能升级到很大的数据,一个例子就是强化学习在很长时间以来只能解决非常小的玩具型的问题。




最近的一个突破,是google的deepmind把深度学习和强化学习合在一起,这样的一个集成使得很多强化学习所需要突破的瓶颈,就是状态的个数可以隐藏起来,这种隐藏使得强化学习可以大规模的应付大数据,它的突出的一点是端到端的学习。我们这里看到一个计算机游戏,游戏有个输入端,输出端是你要做的动作,动作正确不正确到最后会获得一个反馈,这个反馈叫做reward,这个reward不一定是现在得到,也许是下面几步得到,这个跟我们讲的深度学习在图像上的应用很不一样,更加复杂,更加切合人的行为。




所以强化学习也是下一步突破,这种端到端的深度学习应用到强化学习上,使得deepmind到今天在打砖块这个游戏上把人类完全击倒,另外他做到这点是完全的自学习,自我修炼自我改正,一个一个迭代,这就是他迭代的一些结果。




从左到右是时间轴,从上到下是效果,每个游戏能看到它的效果是不断成长的,就像我们的学生学到的知识越来越多,它这个是完全的自我实现的,自学习的过程。




AlphaGo也应用了很多自学习的效果,使得我们终于认清,原来人工智能从60年代到2000年的物理符号的假设,即以搜索为中心,以逻辑为中心的这种努力并没有白费,集中体现在蒙特卡罗树。另外机器学习也是必不可少的,像我们知道的深度学习,所以AlphaGo给我们的启示是把两者结合起来才是一个完整的智能的机器,这个我们可以叫做人工智能的通用性,对于两个技术的某种结合,比如一个多一点一个少一点或者相反,我们就可以得到用来解释不同的人类的智能行为,这种智能的端到端的学习可以用一个例子表达,母鸡吃不同的食物,但是下的蛋都是对人类有用的。


这里我要特别提到一点,我们并不是找到最后的目标,这个也是在不同人工智能,强化学习中得到一个特点,我们在实验中发现一个特点,我们不能完全依靠机器去全部自动化的自我学习,至少到现在我们还没有摸索出这样的路径。



 


这里是CMU大学的一个例子,他们用了一个永动机器学习的概念,Never Ending Machine learning这个机器不停的在网上爬网页,不断的从网页上学到一些知识,并把这些知识综合起来变成几百万几千万条知识,这些知识又可以衍生新的知识,从图上可以看大从下到上随着时间知识会不断的增长,到了某一程度后不能再往上走了,因为知识会自我矛盾,这个时候需要人进来进行一部分的调节,把一部分不正确的知识去掉,让他继续成长。这个过程为什么会发生,是因为机器学习一个很严重的现象是自我偏差,自我偏差可以体现在这种统计学的一个重要的概念,我们获得的数据是一个有偏数据。我们可能建立一个模型,对大部分的数据都有用,但是其中有一些特例,我们如何处理这些特例,我们如何处理训练数据和应用数据之间的偏差,这是我们下一步要研究的内容。




一个非常有希望的技术叫做迁移学习,比方说这个是在深度模型的基础上,在上面是一个领域已经训练好的模型,如果上下领域之间有某种相似性,那我们就不一定要在新的领域要那么多的数据来学习,我们只需要一小部分。我们之所以能这样做的原因是我们可以把模型迁移过来,我们人有这种能力,但我们在做这种模型迁移过程中,我们注意要把有偏数据给消除掉,如果能做到这一点,我们就能做到不同形式数据之间的知识迁移。比如我们可以让计算机去读很多文字,这样的计算机再去识别图像,应该比没有学习这些文字的机器直接去学习图像,来的要容易,这样更像人类的学习。


这种学习也离不开从上到下,从粗到细的特征的选择。我们于是又得到另外一个概念,特征工程。深度学习给我们的一个有力的工具是,能够自动的进行不同层次,进行大规模的新的特征的抽取和特征的制造。这种特征在搜索引擎、广告系统上面可以达到万亿级,这种级别已经不是人能控制的了,这种级别智能才可以产生。但是现在人工智能仍然存在困境,比如如何让人工智能深度理解文字。有一个著名的类似图灵测试的比赛,叫做Winograd Schema Challenge,这个是在自然语言上问一些有歧义的问题,计算机如果能正确的回答这个问题,模型不仅仅必须能理解这些文字,同时理解深层的背景文字,周边的文字,有很多文化在里面。如何能够达到这一点也是我们需要解决的。




同时深度模型还可以把他反转,成为一种生成模型,他不仅可以对数据产生决策,他还可以产生新的数据,比如google研究员把一个深层模型它感知最深刻的那些图像给描述出来,结果是这样的,是非常有趣的生成模型。




刚才讲的不同格式之间,文字,和图像之间,如果在深层,实际上他们的区别已经消失了。这样我们就可以对图像问文字的问题,甚至对文字问图像的问题,那么这样数据的形式也就不重要了。如果我们达到了迁移学习这样的要点,我们就想问下一步是不是可以把人类经历过的学习任务沿着时间轴串起来,能够让机器像人一样,随着时间学习能力和智能不断的增长,它所需的努力程度和样本数也是不断减少的。这也是我们努力的方向。




另外最近发表的一篇文章也说明了迁移学习的重要性,这个文章叫做Bayesian Program Learning,这个特点是一个例子就能学习一个概念。比方说手写识别。他都是怎么从一个例子来学会?众所周知,深度学习都是动辄上千万的例子来训练。BPL实际上用了一个过去没有涉及的概念,就是结构,如果我们了解了一个问题的结构,这个结构的具体的形式,只需要一个例子就可以学会了,那么其他的需要很多例子的部分,可能是参数统计这部分,实际上可以通过迁移学习来学习。也就是说,整个是一个闭环。




同时人工智能应用不只是用在图像方面,这里一个例子是亚马逊的仓储机器人,亚马逊机器人会把货架抬到人面前,让工人从货架上拿货品后在快递。为什么这样做?现在机器人技术在选择物体这方面远远不如人的熟练程度,但是在路径规划,在机械的启动、抬起、放下等操作已经超过人了,所以亚马逊很聪明的把人的优点和人的优点结合在一起,变成一种新的商业模式。这个模式有多好?在过去在一个城市建立新仓库来支持城市的亚马逊物流的话,需要三个月时间,用这个机器人系统,把传送带拆掉后,只用三天时间就能建立起来了。这个收益是非常巨大的,也就是我们可以借鉴的可以扩展的一个经验。


下面要讲的,不仅仅图像识别,不仅仅是机器人方面,实际上在我们的生活中,人工智能已经深入了。我的一个学生建立一个公司,公司可以让人工在过去对待重要客户的金融需求,把这个能力扩展到几百万人。也就是说这是一种非常强大的scale up,它背后的技术就是机器学习,我们所熟知的深度学习,迁移学习包括强化学习。


最后我要说几点,我们看到这么多人工智能的努力,失败的时候,也有成功的饿时候,我们到现在得到的经验是:


现在的人工智能的成功离不开大数据,但是并不是未来人工智能的成功一定要大数据。在未来小数据也能让人工智能成功?


工业上大家用大数据来不停的扩展领域,大学里面是不是更需要考虑小数据来进行人工智能开发的可能性。


第二个就是培养更多的人工智能人才,这些人才才可以设计算法,这才是今天大学里面需要努力的方向。当然这些努力都离不开计算能力。


从这方面来看,人工智能的努力不只是完全靠工业,人工智能的发展也是一部分靠大学一部分靠工业。就像我们所说的,小数据的研究和人才的培养。大数据的开疆拓土,更多的应用,更多的计算能力确实是靠工业。所以这两种结合是我们发展的方向。


最后我们已经了解很多深度学习了,这是我们过去的成就,今天呢,我们刚刚开始获得强化学习的红利,这个在很多领域还没有得到应用。但是我要告诉大家的是,强化学习比大家想象的要更有用,不仅仅是在围棋或者计算机游戏上,在金融,教育,机器人规划,以及人的日常生活中,都离不开强化学习。


这些应该说都是富人的游戏,只有富人有那么大的计算量,那么大的大数据,去支持深度学习和强化学习的实际应用。我们明天要看到的是迁移学习,迁移学习能够让我们把大数据得到的模型迁移到小数据中去,使得千千万万的人都能够收益,也就是说人人都能享受人工智能带来的红利。


 

张代君(三星电子中国研究院院长):人工智能中的虚拟现实

 


人工智能在过去60年以来,这三波的发展,尤其是最近十年以来的发展,让我们看到了在语音识别、图像识别、人脸识别这样传统模式识别技术在大数据的领导下已经形成很大的风口,那实际上是说这只是个开始。



下一步来讲,肯定有第四波的到来,第三波只是目前的当下。实际上大家探讨,人工智能这波非常火热,以我们非常熟悉的移动通讯为例。移动通讯实际上有百多年的历史,但真正无线移动通讯只有四十年,四十年实现了人类的梦想,全球七十亿人口,基本上有七十亿的移动用户。从语音通讯的发展来看,每十年有一个标准化,到目前为止,4G已经标准化,我们在开发5G。语音通讯发展是比较快速的,十年一次大的迭代。2G时通讯非常的精彩,那时候我们认为2G将会是人类的一切,4G时我们又想说是人类的一切,也不是,以后会有5G,6G。


我想表达的是,人工智能发展的60年这三波,20年一波,这其中原因大概可能是因为没有特别的标准化,当然也可以说人工智能发展处于一种初级的阶段。我相信第四波会到来。




如何看待人工智能架构?


我们需要infrastructure基础设施。刚才Nvidia讲到,除了我们需要模式识别技术等软件技术算法外,我们需要计算,需要GPU,Nvidia是靠GPU发家的,CPU时不是。那我们可以看到在发展人工智能时,需不需要APU。支撑人工智能发展需要专门的APU,除此以外,我们还需要芯片的发展,需要connectivity。为什么connectivity特别的重要,因为人工智能的发展离不开device,离不开移动device,离不开设备的发展,而且我们需要专门的操作系统。


只有这样的技术


路过

雷人

握手

鲜花

鸡蛋

最新评论

QQ|联系我们|开放平台|免责声明|小黑屋|手机版|爱股网 ( 陕ICP备19013157号 )

GMT+8, 2026-2-8 19:05

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

返回顶部