1、数据的来源
有种观点认为大数据的来源是业务系统,大数据平台只是顺便把这些数据收集起来。这样做不为数据的收集产生额外成本、也不影响原有业务系统的运行。但是,各个业务系统中的数据,往往不是为了分析目的而建立的,关联关系是丢失的。这样,数据中很多的价值就失去了。本人的观点是,如果这种观点成立,建立业务系统的时候就要想到进行数据分析。否则,数据的价值就会大打折扣。未来,如果要让数据发挥大的作用,可能要花很大的时间对某些数据进行人工处理、讲专家头脑中的知识与数据结合起来,然后入库:如果等到分析数据的时候再做,很多信息早已丢失了。当然,这个过程本身的规范化要做好。否则甚至会把好数据变成垃圾。
2、有无明确的业务功能
工业大数据平台有没有明确的功能? 多数观点认为:大数据的功能是事后分析挖掘。而针对事后分析,有两种态度:有什么数据用什么数据、为了便于分析收集数据。我们认为,从未来的角度看,后者应该是发展方向。这时,数据的质量、完整性就变得很非常重要。
在我看来,随着ICT技术的提升,大数据平台很可能会成为新一代的智能监控系统(GE对飞机发动机的设想应该就是)。与传统监控系统不同的是:平台能记忆大量的过往案例和处置方法。未来的这种监控,很可能是为无人化、少人化、移动监控服务的。如果是这样,就会对大数据平台的数据质量、传输的可靠性和实施性产生极高的要求。换而言之,智能制造与工业大数据的相互促进,会大大拓展这个领域的发展前景。
3、大数据能获得什么知识
人们很早就意识到:数据质量是决定于应用的目的。所以,在建立大数据平台之前,最好能够明确希望得到什么样的知识,而不是泛泛地强调分析知识。我想,这些知识的一端是企业关心的结果,如质量、效率、能耗、缺陷率、作业率、设备状态、完成时间,另外一端是与这些要素相关的原因。我们要得到的知识大概分成两类:最初级的分析是原因与结果的关系,比如A变量与B变量的关系。但现实中,这种关系往往是很不稳定的。其他要素变化的时候,这种关系也会发生变化。所以,进一步的知识是要知道:哪些要素固定下来以后,变量之间的关系是稳定的。这些知识可以用于提高生产组织的水平、考核相关人员、发现各种跑冒滴漏、明确优化的侧重点等。当然,理想的情况是分析多变量对多变量的关系。但遗憾的是,这样的分析结果往往是可遇不可求的。
4、知识发现的人机关系问题
发现知识的过程是认识渐进的过程、是对知识可靠性把握不断深入的过程。这个过程往往是人机交互实现的。首先,人要对可能的相关关系提出自己的想法;其次,可以通过计算机对人的想法进行筛选;接着,筛选过程中可能会出现大量难以解释、或无法确认的东西,又需要人进行深入的对比分析:必要时甚至需要试验和文献分析补充数据、乃至提出新的假设。我曾经想通过找到自动化的算法,把机理不清楚的问题搞清楚。这现实中是难以实现的。现实中最好的办法,往往只是“可靠性”的收敛速度比较快、人的工作量相对较小。我一直认为:人类分析复杂问题的能力,是计算机远远不及的。大数据时代我们有更多的素材,但要做得更好,需要更聪明的人来完成。当然,任何事情都有反例、特别是全体人类都非常关注的问题——这时,人类会不计代价,为机器智能做好各种准备工作。但对一般的企业,用机器代替人的分析,很可能是不合算的。
5、对概念的认识
研究工业大数据,不必纠结于数据的多少。我们关心的是:如何让数据创造商业价值。我一直认为,现在的统计理论,主要是针对小数据集合的,比如几十个样本以内;几十年前的数据挖掘方法,基本上停留在科学尺度,勉强进入技术尺度,很少成功进入商业尺度;现在的深度学习理论,则很难广泛地进入工业领域。