最近,关于人工智能、大数据的很多案例近乎神话。在我看来,这些“神话”是违反科学的。有些朋友不理解,我大体说说我的想法。
科学原理的重要作用是告诉我们:什么是不可能的。根据万有引力定律,我们会知道:武侠小说中那些飞檐走壁、水上漂的大侠是不存在的。能量(质能)守恒定律告诉我们:能量只能发生转化,不可能凭空产生、也不可能无缘无故地消失。
更有意思的是热力学第二定律。它告诉我们: 尽管能量可以转化,却不可以任意转化。例如,热量不可能自发地从温度低的物体传递到温度高的物体。但这种说法不严格,严格的说法是:孤立系统的熵永不减小。这个定律告诉我们:虽然“永动机”不违反能量守恒定律,现实中却是不存在的。
1948年,申农将统计物理中熵的概念,引申到通信领域并开创了“信息论”这门学科。申农的理论,不仅可以完美地描述热力学第二定律,还拓展了人们对物理世界的认识:对“麦克斯韦妖”的解释,将信息熵和物理学的熵完美地融合在一起。
对于智能制造,熵的概念应该有更大的用处。我认为:根据封闭系统“熵”不可能增加的原则,用通用算法处理数据,所包含的信息量不可能增加。
我们知道,数据分析和人工智能都与知识相关。其中,知识就是一种必然的联系。联系,就意味着变量不独立。例如,F=Ma意味着:用1牛顿的力推动1千克的质量,加速度就会为1。不独立,就意味着信息可以压缩。我们从大数据集合中发现知识,其实是在做“信息压缩”或者“降维”的尝试。如果这种“信息压缩”或者“降维”在大数据之外仍然合适,就可以看作一种知识。利用这种知识,就可以用少的信息获得更多的信息。
显然,信息是不是“可压缩”是客观规律决定的,非人力所谓。在《三国演义》中,司马懿看到蜀国大营中落下一颗流星,就判断“将星陨落”、诸葛亮死了。这种联系是不是客观规律,故而只能是迷信。
多少数据才能发现规律呢?理论上将,如果问题真的很复杂,所需数据应该是自变量的指数函数。这就是大数据能发挥作用的原因。所以,从数据中发现规律很难、相关因素越多越复杂。这里有个特例:一种是规律本质是简单的。另外,加入了人已有的认识,也会把问题简化——从某种意义说,相当于加入了新的数据进行降维处理。
现在回到文章的主题。我对大数据、人工智能领域的许多报道嗤之以鼻,一个重要的原因是:少量数据,一般得不到规律性的结果——除非这个问题本身就很简单。但如果问题本身就很简单、规律很明晰,过去的人就发现不了吗?我更倾向于另一种可能:这些文章是“高射炮打蚊子”,用复杂方法解决简单问题,就像任正非所言:用展示锄头代替种地。第三种可能就是把偶然联系当作规律,而不用科学的态度去论证。
有人自称他的数据分析方法用了阿尔法狗的算法,得到了规律。但阿尔法狗关键首先是计算量的问题、不是信息量的问题。信息不足是算不出来的。两者怎么能相提并论呢?我听到一种说法:现在的骗子都改名叫大师了。有些大师的工作,真的和算命差不多。