1、是全体样本,不是随机取样
我经常谈到这样一个观点:并非所有不确定性都适合用概率来描述。适合概率描述的事件,首先应该满足发生频度稳定的前提。因为这个原因,统计方法常常被滥用。
“从宝钢到浦东机场要花多长时间?” 这个问题本身就有点问题的。不仅是因为这段路上花的时间是不确定的,而且不适合用“概率分布”来描述:出行方式不同、选择的线路不同、时间和季节不同、气情况不同,时间会相差很多倍:可能是40分钟左右,也可能是10个小时左右。上午下午、今天明天的平均时间都会相差很远。当然,你可以用手头的数据硬算一个“期望值”,但这个值与你选择的数据有关——如果数据多而不具有代表性(比如都是工作日的统计),也没多大意思。
在大数据的背景下,就没有这么多头疼的问题了。有了全体样本的数据,你就有条件去判断:在哪些要素区间内,时间分布大体是稳定的。这样,就可能得到靠谱的结论。
2、是混杂性,不是精确性
在我看来,混杂性就是从各个不同方面得到相对独立性的信息。混杂的信息多了,问题就容易分析清楚了。
比如,如果某个人是“浙大博士”、“宝钢首席”、“山东人士”......等几个方面的信息,就很容易聚焦到本人的身上。尽管这些信息不需要特别精确:什么专业的博士?那年毕业的?导师是谁? 山东什么地方?
混杂就是独立性强。如果把上述信息换成“山东人士”、“济南人士”、“历城出生”.......三个条件并起来的人就多了。因为这三个条件不是独立的。
20多年前,我在硕士论文中就意识到这个问题了。可惜没有研究下去。
3、是相关关系,不是因果关系
和因果性相比,相关是一种较弱的关系。强调这一点的原因是:人们几乎不能单纯通过数据得到很强的因果关系。所以,强调相关非因果,意味着提醒大家:不要像“发明永动机”那样,做些做不到的事情、白白浪费时间。
然而,强调不搞永动机不能,并非意味着不能发明高效率的动力机械。我认为:搞大数据的分析人,当然要追求尽可能可靠的结果。如果仅仅止步于简单的相关性,岂不和算命先生差不多了? 我讲工业大数据的时候,强调:找更多证据、找更多独立的证据、数据证据与机理的结合、构造完整的证据链,就是要设法让分析结果逼近“因果性”。
抽象地看,自然科学都可以看成统计分析的结果,都没有绝对的因果。所以,理解“相关关系,不是因果关系”的要点,是要把握火候。既不能过于强调因果,让研究走火入魔;也不能只强调相关,随便给出分析结论。