每个行业都有每个行业特有的思维方式,这种思维方式是这个行业的精英们从若干年的实践中总结出来的,行之有效的方法论。例如,毛泽东思想,就是由毛泽东倡导并在二十世纪中国革命中大范围实践的一种政治、军事、发展理论,一般认为其为马列主义在中国的发展。无数的互联网人也总结了互联网的思维方式,我们一般称为互联网思维。百度创始人李彦宏最早提出互联网思维这个概念,雷军、周鸿祎、张亚琴、柳传志等业界大咖也有许多关于互联网思维的精彩解读。和君商学院的赵大伟更是进一步理论化、系统化出来《互联网思维之独孤九剑》。
随着大数据技术的深入人心,很多大数据的技术专家、战略专家、未来学学者等开始提出、解读并丰富大数据思维概念的内涵和外延。总体来说,大数据思维包括全样思维、容错思维和相关思维。
(1)全样思维
抽样又称取样,是从欲研究的全部样品中抽取一部分样品单位。其基本要求是要保证所抽取的样品单位对全部样品具有充分的代表性。抽样的目的是从被抽取样品单位的分析、研究结果来估计和推断全部样品特性,是科学实验、质量检验、社会调查普遍采用的一种经济有效的工作和研究方法。
抽样在一定历史时期内曾经极大的推动了社会的发展,在数据采集难度大、分析和处理困难的时候,抽样不愧为一种非常好的权宜之计。例如,要计算洞庭湖的银鱼的数量,我们可以事先对10000条银鱼打上特定记号,并将这些鱼均匀的投放到洞庭湖中。过一段时间进行捕捞,假设捕捞上来10000条银鱼,有4条打上了预先的记号,那么我们可以得出结论,洞庭湖大概有2500万条银鱼。
抽样的好处显而易见,坏处也显而易见。抽样保证了在客观条件达不到的情况下,可能得出一个相对靠谱的结论,让研究有的放矢。抽样也带来了新的问题。首先抽样是不稳定的,从而导致结论与实际可能差异非常明显。上面的例子,有可能今天去捕捞得到打了记号的银鱼4条,明天去捕捞有可能打了记号的银鱼有400条。国贸大厦上一块砖头掉下来,砸死一个博士,得出结论北京人学历都是博士,这是抽样在极端情况下结论不稳定的极端表现。
在很多情况下,不能抽样。例如为了获得中国的准确人口,从而为党和国家在制定政策、方针时更加符合时代要求,我们基本不会采用抽样,而是采用人口普查。所谓人口普查,就是获得中国所有人的样本,计算中国的精确人口数量。
李开复先生在《李开复自传》中写道,他邻居在院子的池塘里养了很多鱼,总是夸口说有100条。李开复老师不相信,趁着邻居一家人都出门了,几个孩子把池塘的水全舀干了,仔细一数,发现根本没有100 条鱼。从李开复老师的这个例子可以看出,李老师是从小具有全样思维的人。
大数据与“小数据”的根本区别在于大数据采用全样思维方式,小数据强调抽样。抽样是数据采集、数据存储、数据分析、数据呈现技术达不到实际要求,或成本远超过预期的情况下的权宜之计。随着技术的发展,在过去不可能获取全样数据,不可能存储和分析全样数据的情况都将一去不复返。大数据年代是全样的年代,抽样的场景将有利于小,最终消失在历史长河中。
(2)容错思维
前面已经提到,在小数据年代,我们习惯了抽样。由于抽样从理论上讲结论就是不稳定的。一般来说,全样的样本数量比抽样样本数量的很多倍,因此抽样的一丁点错误,就容易导致结论的“失之毫厘谬以千里”。为保证抽样得出的结论相对靠谱,人们对抽样的数据精益求精,容不得半点差错。
这种对数据质量的近乎疯狂的追求,是小数据年代的必然要求。这样,一方面极大的增加了数据预处理的代价,一大堆的数据清洗算法和模型被提出,导致系统逻辑特别复杂。另一方面,不同的数据清洗模型可能会造成清洗后数据差异很大,从而进一步加大数据结论的不稳定性。最后,在现实中,世界本身就是不完美的,现实中的数据本身就是存在异常、纰漏、疏忽,甚至错误。将抽样数据做了极致清洗后,很可能导致结论反而不符合客观事实。这也是为什么很多小数据的模型在测试阶段效果非常好,一到了实际环境效果就非常差的原因。
大数据年代,因为我们采集了全样数据,而不是一部分数据,数据中的异常、纰漏、疏忽、错误都是数据的实际情况,我们没有必要进行任何清晰,其结果是最接近客观事实的。
(3)相关思维
在小数据的年代,大家总是相信因果关系,而不认可其他关系。在历史长河中,佛教在中国信徒众多,其宣扬的也是一种因果报应。因果报应是宗教中关于因果关系的最高阐述。佛教中关于因果报应的阐述,有一种叫现报:干了坏事,立马报应,称为“现作善恶之报,现受苦乐之报”;有一种叫速报,干了坏事,很快报应,称为“眼前作业,目下受报”。
但是因果关系是一个非常不稳定的关系,“有因必有果”的结论也非常武断,在大部分情况下这种关系是错误的,或不合时宜的。以前大家都认为天鹅是白色的,“因为是天鹅,所以是白色的”曾被世界上所有人认为经典。但是当人们在澳大利亚发现真有天鹅就是黑色的时候,世人关于天鹅的知识体系崩溃了。我们曾经引为经典,认为千真万确的牛顿力学理论,在高速运行的世界里全颠覆了,许许多多的曾经认为理所当然的因果关系荡然无存。这都说明因果关系是非常脆弱的,非常不稳定的。
在现实生活中,有很多人干了很多坏事,但是一辈子都没有得到任何报应。这本来可以证明因果关系在很多情况下是不成立的,或者在因果报应也是不靠谱的。为了保证因果关系在这种情况下继续成立,圆因果报应的理论,佛教中也增加了一种报应,生报,即前生作业今生报,或今生作业来生报。
因果关系根源于数据抽样理论。因果关系的得出,一般分为如下几个步骤:
1、我们在一个抽样样本中,偶尔发现某个有趣的规律;
2、我们拿到另一个更大的样本中,我们发现规律依然成立;
3、我们在能见到的所有样本上都判断一下,发现规律依然成立;
4、我们得出结论,这个规律是一个必然规律,因果关系成立。
因果关系是一种非常脆弱的关系,只要存在一个反例,因果关系就失败。从黑天鹅事件可以看出,上述步骤3并不是全样,当欧洲人把所有天鹅都看了,所以他们下结论:天鹅都是白色的。当澳大利亚出现黑天鹅的时候,整个因果关系就瞬间崩塌了。
在大数据年代,我们不追求抽样,而追求全样。当全部数据都加入分析的时候,由于只要有一个反例,因果关系就不成立,因此在大数据时代,因果关系变得几乎不可能。而另一种关系就进入大数据专家的眼里:相关关系。很多男人去超市买了啤酒后会顺便买纸尿裤,但不是买啤酒就一定买纸尿裤。因此,啤酒喝纸尿裤的关系不能算因果关系,而只能是一种相关关系。同样,女孩子裙子的长短与经济热度、摩天大厦与经济危机的关系都是一种相关关系,不是因果关系。