您所在的位置:首页 > 智讯 > 国内资讯

大数据理论中的三个基本思想:我的看法

发布时间:2017-03-12 作者:郭朝晖  来源:大数据
关键字:蝈蝈创新杂谈 
适合概率描述的事件,首先应该满足发生频度稳定的前提。因为这个原因,统计方法常常被滥用。

    1、是全体样本,不是随机取样

    我经常谈到这样一个观点:并非所有不确定性都适合用概率来描述。适合概率描述的事件,首先应该满足发生频度稳定的前提。因为这个原因,统计方法常常被滥用。

    “从宝钢到浦东机场要花多长时间?” 这个问题本身就有点问题的。不仅是因为这段路上花的时间是不确定的,而且不适合用“概率分布”来描述:出行方式不同、选择的线路不同、时间和季节不同、气情况不同,时间会相差很多倍:可能是40分钟左右,也可能是10个小时左右。上午下午、今天明天的平均时间都会相差很远。当然,你可以用手头的数据硬算一个“期望值”,但这个值与你选择的数据有关——如果数据多而不具有代表性(比如都是工作日的统计),也没多大意思。

    在大数据的背景下,就没有这么多头疼的问题了。有了全体样本的数据,你就有条件去判断:在哪些要素区间内,时间分布大体是稳定的。这样,就可能得到靠谱的结论。

    2、是混杂性,不是精确性

    在我看来,混杂性就是从各个不同方面得到相对独立性的信息。混杂的信息多了,问题就容易分析清楚了。

    比如,如果某个人是“浙大博士”、“宝钢首席”、“山东人士”......等几个方面的信息,就很容易聚焦到本人的身上。尽管这些信息不需要特别精确:什么专业的博士?那年毕业的?导师是谁? 山东什么地方?

    混杂就是独立性强。如果把上述信息换成“山东人士”、“济南人士”、“历城出生”.......三个条件并起来的人就多了。因为这三个条件不是独立的。

    20多年前,我在硕士论文中就意识到这个问题了。可惜没有研究下去。

    3、是相关关系,不是因果关系

    和因果性相比,相关是一种较弱的关系。强调这一点的原因是:人们几乎不能单纯通过数据得到很强的因果关系。所以,强调相关非因果,意味着提醒大家:不要像“发明永动机”那样,做些做不到的事情、白白浪费时间。

    然而,强调不搞永动机不能,并非意味着不能发明高效率的动力机械。我认为:搞大数据的分析人,当然要追求尽可能可靠的结果。如果仅仅止步于简单的相关性,岂不和算命先生差不多了? 我讲工业大数据的时候,强调:找更多证据、找更多独立的证据、数据证据与机理的结合、构造完整的证据链,就是要设法让分析结果逼近“因果性”。

    抽象地看,自然科学都可以看成统计分析的结果,都没有绝对的因果。所以,理解“相关关系,不是因果关系”的要点,是要把握火候。既不能过于强调因果,让研究走火入魔;也不能只强调相关,随便给出分析结论。

本文为授权转载文章,任何人未经原授权方同意,不得复制、转载、摘编等任何方式进行使用,e-works不承担由此而产生的任何法律责任! 如有异议请及时告之,以便进行及时处理。联系方式:editor@e-works.net.cn tel:027-87592219/20/21。