您所在的位置:首页 > 智讯 > 国内资讯

大数据和AI:要警惕披着科学外衣的伪科学

发布时间:2017-08-05 作者:郭朝晖  来源:蝈蝈创新随笔
关键字:大数据和AI 
最近,关于人工智能、大数据的很多案例近乎神话。在我看来,这些“神话”是违反科学的。有些朋友不理解,我大体说说我的想法。

    最近,关于人工智能、大数据的很多案例近乎神话。在我看来,这些“神话”是违反科学的。有些朋友不理解,我大体说说我的想法。

    科学原理的重要作用是告诉我们:什么是不可能的。根据万有引力定律,我们会知道:武侠小说中那些飞檐走壁、水上漂的大侠是不存在的。能量(质能)守恒定律告诉我们:能量只能发生转化,不可能凭空产生、也不可能无缘无故地消失。

    更有意思的是热力学第二定律。它告诉我们: 尽管能量可以转化,却不可以任意转化。例如,热量不可能自发地从温度低的物体传递到温度高的物体。但这种说法不严格,严格的说法是:孤立系统的熵永不减小。这个定律告诉我们:虽然“永动机”不违反能量守恒定律,现实中却是不存在的。

    1948年,申农将统计物理中熵的概念,引申到通信领域并开创了“信息论”这门学科。申农的理论,不仅可以完美地描述热力学第二定律,还拓展了人们对物理世界的认识:对“麦克斯韦妖”的解释,将信息熵和物理学的熵完美地融合在一起。

    对于智能制造,熵的概念应该有更大的用处。我认为:根据封闭系统“熵”不可能增加的原则,用通用算法处理数据,所包含的信息量不可能增加。

    我们知道,数据分析和人工智能都与知识相关。其中,知识就是一种必然的联系。联系,就意味着变量不独立。例如,F=Ma意味着:用1牛顿的力推动1千克的质量,加速度就会为1。不独立,就意味着信息可以压缩。我们从大数据集合中发现知识,其实是在做“信息压缩”或者“降维”的尝试。如果这种“信息压缩”或者“降维”在大数据之外仍然合适,就可以看作一种知识。利用这种知识,就可以用少的信息获得更多的信息。

    显然,信息是不是“可压缩”是客观规律决定的,非人力所谓。在《三国演义》中,司马懿看到蜀国大营中落下一颗流星,就判断“将星陨落”、诸葛亮死了。这种联系是不是客观规律,故而只能是迷信。

    多少数据才能发现规律呢?理论上将,如果问题真的很复杂,所需数据应该是自变量的指数函数。这就是大数据能发挥作用的原因。所以,从数据中发现规律很难、相关因素越多越复杂。这里有个特例:一种是规律本质是简单的。另外,加入了人已有的认识,也会把问题简化——从某种意义说,相当于加入了新的数据进行降维处理。

    现在回到文章的主题。我对大数据、人工智能领域的许多报道嗤之以鼻,一个重要的原因是:少量数据,一般得不到规律性的结果——除非这个问题本身就很简单。但如果问题本身就很简单、规律很明晰,过去的人就发现不了吗?我更倾向于另一种可能:这些文章是“高射炮打蚊子”,用复杂方法解决简单问题,就像任正非所言:用展示锄头代替种地。第三种可能就是把偶然联系当作规律,而不用科学的态度去论证。

    有人自称他的数据分析方法用了阿尔法狗的算法,得到了规律。但阿尔法狗关键首先是计算量的问题、不是信息量的问题。信息不足是算不出来的。两者怎么能相提并论呢?我听到一种说法:现在的骗子都改名叫大师了。有些大师的工作,真的和算命差不多。

本文为作者授权转载文章,任何人未经原作者同意,不得复制、转载、摘编等任何方式进行使用,e-works不承担由此而产生的任何法律责任! 如有异议请及时告之,以便进行及时处理。联系方式:editor@e-works.net.cn tel:027-87592219/20/21。