大数据再掀经济学方法论之争

点击：作者：宣讲家来源：宣讲家发布时间:2015-09-17 16:29:19

　　大数据带来的“相关性与因果性”新方法论之争不过是新瓶装旧酒，实质问题仍然是哲学认识论中经验论和唯理论对立的老问题。虽然是老问题，但在现代科学哲学认识论和新兴的知识社会学之中，仍然是一个争论焦点。

　　大数据时代带来的信息风暴，不仅改变着我们的生活、工作和思维，而且影响着人类认知视角，冲击着科学研究的基本方法。经济学被誉为社会科学“皇冠上的明珠”，其主要原因正是强调经验数据验证的实证主义较早在经济研究中得到应用。对经济学而言，大数据究竟是主流范式的革命，还是一个新的噱头?带着这样的问题，笔者于2015年6月下旬参加了中国社会科学院的“电子社会科学”考察团，赴英国了解当代信息和数据科技对社会科学研究的影响。

　　“相关性与因果性”：新方法论之争?

　　当前关于大数据的一个重要分歧，就是“相关性与因果性”之争。大数据倡导者维克托·迈尔·舍恩伯格明确指出，大数据时代最大的转变就是放弃对因果关系的渴求，而代之以关注相关关系。在诺森比亚大学培训第一天的课堂讨论中，考察团就围绕这个问题展开了激烈辩论。

　　实际上，早在大数据时代之前，“因果性与相关性”问题就已经是认知哲学、统计学、经济学等领域中的一个老问题。从经济学基础方法论的角度来看，对“因果性与相关性”的辩论，是人类认知逻辑和科学研究基本问题“演绎与归纳”的现代升级版。19世纪中后期，德国历史学派与奥地利学派之间展开了“方法论之争”。奥地利学派创始人卡尔·门格尔坚持以逻辑演绎为基本分析方法。德国历史学派则怀疑抽象逻辑演绎对现实理解和解释的有效性，主张由于人类社会的复杂性，首先应该大量收集、整理各种历史数据，并且从历史数据中发现经验规律。这与当前大数据方法论主张放弃或者弱化对因果性的追求，注重从海量数据中发现相关性的观点如出一辙。从这个角度来说，德国历史学派可谓大数据“先锋”。

　　“你的理论假设是什么?”

　　“你的理论假设是什么?”这是在英国雷丁大学访问时，考察团成员钟春平教授向Jornvande Wetering博士提出的一个问题。Wetering博士介绍了正在进行的大数据项目“智慧城市”，该项目旨在通过收集整理大量城市相关数据和信息，改善城市治理和人民生活。在笔者看来，这个问题直指大数据的核心——大数据方法的应用是否可以脱离理论假设?

　　这个问题与前面的“方法论之争”密切相关。主流经济学对“方法论之争”的当事双方各打五十大板，认为“演绎与归纳”两者不可偏废，并且形成了标准的经济学实证模式——提出假设和模型，使用数据进行计量检验，由此将“演绎与归纳”在哲学认知上的冲突掩盖起来。新的“相关性与因果性”方法论之争迫使人们重新面对这个问题，并对实证主义经济学提出了挑战。如果按照弗里德曼的“实证主义经济学方法论”，预测是经济理论的根本目标和检验手段的话，对经济学理论而言，重要的问题就是“能否做出准确的预测”，而非“是否理解了真实的因果关系”。但是，大数据在探寻相关性方面的优势，正好构成了对目前主流经济学范式的批判和革命。至少有一部分大数据论者认为，不需要甚至不应该预设理论前提和假设，只需让数据自我呈现出规律。按照这种“大数据经济学”观点，“假设建模—数据检验”的现行标准方法似乎已经过时了。

　　就自身逻辑而言，奥地利学派的先验主义和逻辑演绎法倒是可以固守自身立场，并展开对大数据方法论的批判。毕竟探究世界真实状况和因果关系才是科学研究的核心目标，预测只不过是副产品。在奥地利学派看来，没有演绎逻辑和理论指导，历史学派甚至不能确定什么样的历史资料和数据才是重要的，值得收集和整理。这个批判对大数据同样有效。同样是在雷丁大学的访问之中，Nanda博士引述了IBM的报告：“人类社会每天生成的数据高达250兆亿个字节。”从奥地利学派的视角来看，如果脱离具体的理论前提和需要，这个数据量没有任何意义。生成数据实际上完全依赖于观察者的目标和理论假设。脱离了这个前提，在不同测量工具精度的条件下，人们完全可以生成无限的观察数据。

　　大英图书馆在大数据时代会破产吗?

　　大英图书馆是英国的国家图书馆，拥有超过1.5亿件馆藏。大英图书馆不仅大量收录各种电子出版物，而且已经着手保存各种互联网网页内容。考虑到大数据时代还只是初露头角，未来人类社会所能产生的各种文本、图像等信息数据，无疑还会以指数级别增长。即使英国政府可以颁布法律使图书馆免费获得这些信息，保存信息所消耗的成本无疑也会以指数级别增长。大英图书馆乃至英国政府能否承受如此高的成本，着实令人怀疑。

　　这个“杞人忧天”的疑问，其实关系到“数据”或者“信息”的经济学属性，即从“要素”或“财货”角度来看待“数据”的成本收益问题。大数据理论有一种倾向，认为几乎所有数据都是有价值的，至少是具有潜在价值，哪怕暂时不知道如何利用，也许在未来可以得到重新认识，因此都值得收集和整理。这看起来似乎很有道理，但从经济学的角度看却是不能成立的，因为经济学的核心问题是“效率”，核心视角是“成本—收益”分析。不只是数据，任何事物都具有所谓“潜在”价值，但如果获得和保存它的成本超过了收益，那么在经济学者看来就是无效率的。

　　事实上，在信息时代之初，就有学者指出信息和数据具有“零边际成本”特性，将完全改造经济学，还有学者提出“新信息经济学”，主张软件等信息产品免费共享。大数据时代仍然面临同样的问题。部分学者主张数据是免费公共资源，具有巨大的外部性，最好由政府来提供。但经济学的基本逻辑在此仍然是有效的。虽然具有某些新特性，信息和数据仍然是“要素”和“财货”，需要付出成本，并且能够产生收益。不计成本地收集整理大数据是行不通的。类似地，经济学效率观点还对另一个大数据观点——所谓“全体数据”代替“随机样本”的新方法提出了挑战。“全体数据”固然有其优势，但放到经济学“成本—收益”的框架下来看，其方法本身就未必有效率了。