您所在的位置:首页 > 智库 > 智能设计

人工智能是如何从丑小鸭到白天鹅的

发布时间:2016-07-20 作者:佚名  来源:互联网
关键字:人工智能 赵世奇 
过去几十年间,人工智能经过时几轮的起起伏伏,直到移动互联网的出现,人工智能才终于随着便携式设备进入亿万人的生活,终于有可能从丑小鸭变身白天鹅。移动互联网在给人工智能带来前所未有的机遇的同时,也提出了新的挑战。

    下面是赵世奇在MIIC2016上的演讲实录:

    今天我的题目是《人工智能:从丑小鸭到白天鹅》,这题目我纠结了很久,各位都知道,人工智能经过了几十年的发展,中间起起伏伏。我做学者的一个朋友跟我讲,别人问他做什么?他都不好意思说自己是做人工智能的,只敢说自己是做数据挖掘的。就是因为那个时候的人工智能遇到低潮,到今天人工智能再次进入我们的视野,而且掀起了一个热潮。社会各界甚至普通民众对人工智能这个概念都非常感兴趣。所以我说曾经的丑小鸭人工智能,今天是不是已经变成了白天鹅?这是我想和大家分享的话题。

    首先人工智能这个概念倒退几年,更多是出现在影视作品里面,这种智能的机器人无所不晓、无所不能,帮助主人做很多事情。到底什么是真正的人工智能?这里从百科里截取的一句话:它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学,包括视觉、语音、语言的处理等等方方面面。

    其实在电子计算机发明之前,就有人研究人工智能了。在三四十年代的时候,那时候还没有计算机,就有人研究翻译的机器。通过打字的方式把这个字符输入进去,用很简陋的方式翻译出目标语言输出出来,四十年代末的时候,出现了图灵测试。现在,我们每天都能用到的搜索、推荐、翻译、广告、安全等等,包括今天还在看到说现在逐渐进入到刷脸的时代,人脸的识别来进行安全判断和控制。

    人工智能的发展现状主要分两个部分,感知和认知。感知的问题最典型的就是识别图片中的字符和文字。随着基于大数据的深度学习技术的发展,在感知问题上,我们的技术已经接近甚至达到了使用级水平。

    另外一部分是认知问题。最典型的认知问题其实是语言理解的问题,在此基础之上有推理、决策等问题。所以我们一方面看通用领域方面的认知问题,包括最近几年雨后春笋一般崛起的智能助手。同时,在另外一些方面,在垂直领域,尤其是医疗、法律、教育等领域,都开始逐渐进入到使用阶段。

    今天是移动互联网创新大会,就要说一说移动互联网和人工智能结合,会迸发出怎样的火花,产生什么样的技术?

    首先看到移动互联网包括互联网+,O2O等,共同激发和重塑了人的需求。这些新的需求需要人工智能技术提升连接的能力,因为我们知道互联网的根本是一种连接的能力。传统互联网连接的是人和信息,这种信息包括网页、网站等等,但今天同时要肩负着连接人和服务的使命,比如今天可以足不出户叫保洁、叫美容等等。所以这是新的时代给人工智能提出的需求。

    第二个方面,移动便携设备使人产生场景化、私人化的需求,需要人工智能真正实现私人定制,在空间、时间不同的维度上做投影,用户想了解披萨,就知道到底是外卖订还是想去餐厅吃披萨,这完全不一样,这和个人当前的状态,包括不同的时间,所处的不同的位置,都有关系的。这也是移动互联网时代给人工智能提出的新挑战。

    还有一点同样和移动设备高度相关。在移动设备便携的特点下,我们的交互方式从传统的键盘输入,变成了键盘和语音、图象都可以作为交互的媒介,从而实现多模交互时代。

    还有一点,移动互联网可以使得互联网变得更加平等,因为很多儿童和老年人,因为有了语音输入之后,也能够被连接入互联网,得到互联网上的便捷服务。

    刚才说了这么多,移动互联网使得每个人都能更好、更直接,更近距离地接触到人工智能。

    下面是总结走向实用人工智能当中的几个关键词:第一是大数据。

    这个概念其实已经谈了好几年了,简单概括这样一个图,其实从大数据里吸取的营养是什么?首先是能够训练机器学习模型的数据,所谓的语料,会提升人工智能信息抽取、知识挖掘的能力,有两点是我这里想跟大家分享的。

第一点就是大数据里的数据是活的,不是一个静态的数据,是不断生长的数据,有学者称之为有机数据。利用大数据不光利用数据规模,还要利用数据随着时间不断变化中新的现象,新的趋势和新的发展。所以数据需要从时间轴维度上看待它。

    第二点体验是要学会去利用数据背后所包含的人的行为。数据不是自己产生的,都是人产生的。所以数据背后有大量人的行为,可以作为我们获得智能的线索。以搜索为例,用户的搜索、点击行为,甚至是每一个空格会告诉我们一个线索,让我们从中能够获取某一种智慧,训练某一个机器学习模型。

    第二个关键词是知识图谱,光有大数据是不够,因为很多行业历经了上千年的发展,积累了大量的人类知识和智慧在里面,靠机器在现阶段很难自动学习出来,所以应该去整理和总结这些智慧,并且植入到机器学习的过程中,或者是植入到人工智能系统中。包括知识挖掘存储和管理,简单是说,应该是最重要这样几个环节,有了数据和知识图谱,学习能力非常关键。这里其实近些年来机器学习有很多新的子方向,最熟悉的是深度学习技术。

    机器学习都体现了两个特点。第一个就是机器学习核心的算法在不断演进。过去,有很多实践是人肉智能。其实我们认为人机智能是将人和计算机结合起来,来共同为用户提供服务。在现阶段,在工智能发展一个中间阶段,主要是人机的互补和互助,在这个过程中,人负责把关复杂的事情,积累大量的数据来用于机器的训练。同时,计算机的特点在于大数据高效分析和处理,可以节省人的时间,提升人的效率。

    最后一个关键词是开放的生态,生态的开放这两年各家大的企业都在考虑和尝试。首先是把平台和技术开放,在这个过程中,我们面向全社会,提供人工智能能力。在此基础之上,这样开发者介入这样的平台,获得实用的数据,可以进一步提升人工智能平台的能力,从而形成一个正循环。之所以这两年我们说开放的人工智能成为一个趋势,就是因为大家逐渐认识到人工智能不能靠一家单位来实现,需要全社会各行各业共同努力才能够实现。

    接下来想分享的是实际工作中,重点在攻克的几个问题。

    第一个是自然语言需求理解,尤其是当前移动互联网时代,越来越多人用语言交互,需求越来越自然语言化、越来越口语化,越来越灵活,基于完整的背景包括刚才提到个性化、场景化和交互语境,所有的因素和特征综合起来判断当前用户要的是什么知识和服务。

    另外一个问题是多源异构大数据深入挖掘问题。包括网页数据,用户行为数据,UGC数据,知识库数据,有的是结构化,有的是半结构化的,甚至包括很多基本的结构统统不一样。面对这样的数据如何使用?这是现在攻克另外一个困难的问题。还有一个问题也是刚才提到智能决策,人工智能在理想状况下一定是人的帮手,这个帮手绝不仅仅提供知识,最终要能帮助你做一些决策。

    移动互联网时代为人工智能提出新的需求,也提供新的发展机遇。在数据算法机制的促进下,人工智能逐渐走向实用化,这只丑小鸭一步步变成白天鹅,需要政府、高校、企业和民众一起携手共同努力。

2