原百度深度学习研究院创始人余凯谈人工智能大趋势
余凯认为未来将会实现硬件入口多元化,任意一个设备都有可能成为入口,而地平线的定位就是要成为人工智能领域的英特尔。
智能硬件热潮未退,在人工智能这个领域,需要一个能横跨图像、语音、自然语言理解和自主控制的平台型的公司。余凯,百度深度学习研究院(IDL)创始人,大概是国内能够把深度学习理论讲述最清楚的科学家之一。现在,他创立地平线机器人,希望能够成为人工智能领域的英特尔。
「 深度学习」
虽然人工智能涉及的领域很广,但是一个人工智能的系统从功能上看还是有一些共通性的,我认为主要有三个方面,第一个是环境感知,第二个是思考推理,第三个是决策控制。具体来说,无论是语音识别还是图像识别,这在过去是独立分开又很大的两个领域,最初完全没有交集,深度学习技术被广泛使用之后,这两个领域都过渡到采取深度神经网络的模型,并产生显著提高。最新的进展就是AlphaGo围棋比赛,以一种很直观的方式让社会大众感受到了深度学习的进展。
深度学习是指对原始的数据通过不断地学习、抽象,得到这些数据的表达或描述。深度学习的发展经历过几次高潮和低谷,这一波的高潮业界公认是从2006年开始,多伦多大学计算机系教授Geoffery Hinton发表文章向大家证明可以训练学习很深的神经网络。
2010年左右,深度学习的研究和应用实现突破,归结于下面两个主要理由。首先是计算能力有了本质的提高,另外在互联网时代,数据出现了爆发式增长,所以从2010年开始,深度学习被大规模使用在人工智能各个领域。
深度学习为什么这几年得到这么大的关注?关键原因是性能可以随着数据的增长而提高。其他的机器学习的方法可能随着数据的增加,性能提高到某一个点就饱和了。但目前为止对于深度学习我们还没有观察到这点,这可能是它最值得关注的地方。深度学习在语音识别上的应用使其准确率提高很多,随后深度学习开始被使用到图像识别等其他领域。大家发现深度学习像是一个大锤子,可以打很多不同的钉子,它是一个很好的工具,解决表面上看很不同的问题。
「 深度学习的未来」
深度学习的研究目前有四个方向。首先是学习如何记忆;第二是学习如何关注与取舍,把注意力集中到需要关心的细节上;第三个是增强学习,学习如何控制主动行动;第四个采用深度学习解决任务的新方式,就是序列化地逐步解决一个复杂问题。
目前,绝大多数深度学习完成的任务,还是根据一个输入信号得到一个输出的结果,无论是语音识别还是图像识别。比如,深度学习进行了分类,你给计算机一个图像,它可以告诉你是猫还是狗,你对计算机说句话,它可以识别出来,这是现在的状态。现在深度学习的前沿是如何去学习保留一个长时记忆,进而完成一个复杂的任务,就像假如我们听课时有个笔记本可以做笔记,那么我们选择哪些知识写在笔记本上,如何写这些知识,就是如何去记忆。所以一个新的趋势就是如何通过深度学习的方法,把之前很长一段时间的序列数据,抽象提取精华记录下来或者记忆下来,帮助计算机将来做判断、做分析、做决策。
第二个方向是注意力模型,动态的将注意力集中到某些细节,提高识别性能。比如,看图说话图像理解,你根据一幅图生成一句话,很可能是非常宏观的。如果我们能够把注意力聚焦在从引入到识别的机制过程中,根据目前的识别结果,动态地一步一步调整聚焦到图像的细节,那么就可以生成一些更合理或者更精细的表达,比如在图像中,关注一个飞碟,我们可以调整关注区域在图像中把飞碟找出来,提取它的特征进行识别。
深度学习还有一个方向是增强学习,目前的深度学习都是通过大量的数据在线下学习一个模型,把这个模型基本学好了,到线上只是应用。增强学习是指计算机可以结合当前状态的改变而采取进一步措施,得到一些反馈和收益,同时也改变了自身的环境,与周围环境在一种动态过程中一起演化不断决策。比如无人机在遇到障碍物的时候判断该往哪个方向飞,它会收集到周围很多信号,然后去做一个决策,是往左偏还是往右偏?是不是失衡了?它需要根据环境的反馈和自身的状态,不断修正,根据反应的每一个结果继续做出反应决策,这就是增强学习的大体过程。
无论是长时间学习还是增强学习,这些都是人工智能底层架构通用的功能,我们认为未来会需要这样的平台,可以将这些功能集合在一起,但又能适用于解决大多数的人工智能任务。
「 地平线的野心」
互联网的本质是连接,连接人和信息、人和商品、人和服务。然而任何连接都需要通过媒介进行,PC时代,用户通过浏览器进入互联网,浏览器几乎是当时唯一的互联网入口;到了移动互联网时代,浏览器的职责被分化到多个APP上,软件时代的APP化使连接媒介更加多样。
但随着硬件智能化的到来,未来汽车、家电、玩具都有可能变得越来越智能,而这必将导致连接媒介和交互方式的巨大变革。很难想象,我需要掏出手机来操控某个家电、洗衣机或者空调。
比如,未来很多家居产品上会有个屏幕,展现非常丰富的信息。在这样的场景下,用户将不再需要通过遥控器或者打开手机APP来操控家电,更多的是直接和设备进行交流、交互。除了交互方式的变革外,随着智能硬件表达和处理信息的能力越来越强,可以作为连接媒介更好地让人们获取信息和服务。
最近几年人工智能很热,很多创业者都希望能够在这个领域有一番作为,但人工智能实际上是语音图像识别、语义理解、大数据分析等技术的高度集合,其中的每一项技术都需要巨大的时间和研发成本的投入。如果创业者要基于这些技术开发相应的产品功能,满足用户需求,依靠自身的力量显然是不现实的。因而在人工智能这个领域,需要一个能横跨图像、语音、自然语言理解和自主控制的平台型的公司。
放到手机行业会更容易理解,开发者可以开发很多应用程序,比如微信、滴滴出行、大众点评,以此来满足用户不同的需求。但这些都是基于高通或者联发科等公司提供的芯片,以及iOS或者安卓等操作系统,基于这样一个成熟的软硬件相结合的平台,开发者才能开发各种APP。