《大数据时代》阅读笔记
自动生成 | 2026-06-16 04:37 | 📖 epub
《大数据时代》阅读笔记
一、作者与背景
维克托·迈尔·舍恩伯格(Viktor Mayer-Schönberger),奥地利籍著名学者,牛津大学网络学院互联网研究所治理与监管专业教授,牛津大学克伯学院教授研究员。他二十余年来孜孜不倦于网络经济、信息与创新、信息监管、网络规范与战略管理的研究与教学,曾先后任教于哈佛大学、新加坡国立大学等多所世界顶尖学府,现为欧盟互联网官方政策背后的重要制定者与参与者。
作为最早洞见大数据时代发展趋势的数据科学家之一,舍恩伯格早在2010年便于《经济学人》上发表长达十四页的大数据专题文章,成为这一领域的先觉者。他不仅拥有严谨的学术思维,更具备丰富的实战经验——大学期间便创立反病毒软件公司,其产品一度成为奥地利最畅销软件。《大数据时代》英文版付梓于2012年末,中文译本几乎与原版同步出版,彼时云计算技术日臻成熟,移动互联网蓬勃发展,社交网络深刻重塑人类生活方式,一个大规模生产、分享和应用数据的时代正在开启。
二、核心内容
舍恩伯格以其高屋建瓴的视野和丰富翔实的案例,向读者描绘了一场正在发生的时代变革。全书的核心论点在于:大数据时代的来临,使人类第一次有机会在非常多的领域和非常深入的层次获得和使用全面数据、完整数据和系统数据,深入探索现实世界的规律。
作者开篇即抛出大数据时代处理数据理念上的三大转变:其一,“要全体不要抽样”——当数据处理技术发生翻天覆地变化时,抽样分析已如汽车时代骑马般不合时宜,我们需要的是“所有数据”,即“样本=总体”;其二,“要效率不要绝对精确”——执迷于精确性是数据稀缺时代的产物,大数据时代的容错率提高,成本降低,精确性退居次位;其三,“要相关不要因果”——一旦发现了两个现象之间存在的显著相关性,就可以创造巨大的经济或社会效益,而弄清二者为何相关可以留待学者们慢慢研究。
继而,作者从万事万物数据化和数据交叉复用的巨大价值两个方面,阐述驱动大数据战车向前滚动的根本动力。数据化,意味着将一切现象转化为可量化、可分析的数据形式——谷歌的数字地图工程、日本研究所的坐姿研究、UPS的最佳行车路径规划,皆为数据化思维的典范。数据交叉复用,则揭示了数据的独特经济学特性:它不会因使用而折旧,反而因融合而增值,一组DNA可能毁灭,但数据化的DNA却能永存。
最后,作者冷静描绘大数据帝国前夜的脆弱与不安——隐私泄露、数据独裁、算法偏见、信息公正等问题如影随形。他以继父遗留的一万六千张照片为引,探讨数字时代的“取舍之道”与“被遗忘的权利”,警示人类在拥抱大数据便利的同时,须臾不可忘却自由意志与诸神之下的尊严。
三、精华摘录
-
“当数据处理技术已经发生了翻天覆地的变化时,在大数据时代进行抽样分析就像在汽车时代骑马一样。一切都改变了,我们需要的是所有的数据,‘样本=总体’。”
-
“大数据发展的核心动力来源于人类测量、记录和分析世界的渴望。”
-
“现在,我们是时候把聚光灯打向‘I’(信息),开始关注信息本身了。”
-
“只要发现了两个现象之间存在的显著相关性,就可以创造巨大的经济或社会效益,而弄清二者为什么相关可以留待学者们慢慢研究。”
-
“大数据的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,绝大部分都隐藏在表面之下。”
-
“我们时刻都暴露在‘第三只眼’之下:亚马逊监视着我们的购物习惯,谷歌监视着我们的网页浏览习惯。”
-
“数据的重复使用与整合,正是数据蕴含的巨大价值的来源。”
-
“大数据将逐渐成为现代社会基础设施的一部分,就像公路、铁路、港口、水电和通信网络一样不可或缺。”
-
“世界的本质就是数据。”
-
“人类学家克利福德·吉尔兹曾给出朴素而冷静的劝说:‘努力在可以应用、可以拓展的地方,应用它、拓展它;在不能应用、不能拓展的地方,就停下来。’”
四、主题分析
主题一:从因果到相关——认知范式的根本转变
舍恩伯格在书中深刻揭示了大数据时代最具颠覆性的思维变革:从追求因果关系转向拥抱相关关系。这一转变的背后,是人类认知范式的根本性位移。
在传统科学方法论中,因果律被视为知识的基石。培根以来的归纳法传统,科学家对“为什么”的追问,构成了人类理解世界的核心路径。然而,大数据时代的来临颠覆了这一范式。当数据量足够庞大、维度足够丰富时,相关关系的发现可以独立于因果理解而创造价值——亚马逊通过分析顾客的购买关联推荐商品,谷歌通过搜索词的相关性追踪流感疫情,无需弄清因果机理,结果已然有效。
译者周涛教授对此持审慎态度,他认为“相关重于因果”并非大数据自身的诉求,而是机器学习和实用主义内禀的魅影。强子对撞机验证希格斯玻色子的探索,恰恰表明人类对因果关系的追求从未停歇。然而,舍恩伯格敏锐地指出:在商业应用和社会服务的层面,相关关系的发现往往比因果关系的揭示更具时效性和可操作性。这种务实取向并非对因果律的否定,而是对人类认知资源的重新配置——让计算机处理相关,让人类专注因果。
这一转变启示我们:在不同认知层次上,因果与相关并非非此即彼的替代关系,而是互补共生的协作关系。大数据提供的是参考答案,而非最终答案;因果追问的暂时搁置,不等于永久放弃。
主题二:数据隐私与数字时代的权利重构
《大数据时代》另一核心主题是对数据隐私保护的深刻忧虑。舍恩伯格以“我们时刻都暴露在’第三只眼’之下”开篇,描绘了一幅令人不安的图景:亚马逊监视购物习惯,谷歌监视浏览记录,社交网络窃听社交关系——数据脚印被永久铭刻在数字皮肤上,遗忘成为例外,记忆成为常态。
作者通过继父遗留照片的私人经历,将这一忧虑具象化为一个哲学命题:当数字技术使记忆变得无比便捷和廉价,当过去被永久留存且随时可被调取,人类将如何面对“被遗忘的权利”?这一追问在社交网络肆虐、隐私边界日益模糊的今天,显得尤为迫切。
舍恩伯格在另一部著作《删除》中进一步深化了这一主题。他指出,大数据时代,人类面临一个根本性的价值选择:是让遗忘成为常态、记忆成为例外(旧时光的默认设置),还是让记忆成为常态、遗忘成为例外(数字时代的默认设置)?他倾向于前者,认为“被遗忘的权利”是人类尊严的组成部分。这一观点在欧盟的法律实践中已得到回应——2014年欧洲法院裁定“被遗忘权”合法,要求搜索引擎删除与个人隐私相关的过时链接。
然而,这一权利的实现面临技术与商业逻辑的深层张力。大数据的价值恰恰来源于数据的累积与复用,“被遗忘”意味着数据价值的消解。如何在数据利用与隐私保护之间寻求平衡,是大数据时代治理的核心难题。舍恩伯格既非技术乌托邦主义者,亦非技术悲观主义者,他主张通过制度设计(如数据脱敏、匿名化处理、访问权限控制)来缓解张力,而非简单否定大数据的价值。
五、个人感悟
掩卷深思,《大数据时代》给予我的最大触动,并非技术层面的知识更新,而是一种认知框架的重构。当我审视周遭世界——手机里精准推送的广告、地图软件实时更新的路况、聊天软件猜你想要的歌——我意识到,我们早已深嵌于大数据编织的意义之网中,而浑然不觉。
舍恩伯格关于“数据独裁”的警示尤其发人深省。当算法主导决策,当相关性取代判断,当机器学习输出黑箱结果,人类是否正在主动放弃自己的认知主权?译者周涛的批评一语中的:放弃对因果性的追求,就是放弃人类凌驾于计算机之上的智力优势。然而,更深层的忧虑在于:当效率成为唯一尺度,当可量化成为价值前提,人类那些难以数据化、无法被算法捕获的体验——爱情、死亡、超越、诗意——是否将被边缘化?
作为身处大数据洪流中的个体,我深感保持“认知警惕”的必要。数据是资源,是力量,但也是凝视,是规训。在享受便利的同时保持对隐私的敏感,在拥抱技术的同时守护思想的自由——这或许是大数据时代知识分子应有的姿态。
六、方法论联系
舍恩伯格的大数据思维,与儒学传统中的某些智慧形成有趣的对话。
《论语·为政》载孔子言:“君子不器。”朱熹注曰:“器者,各适其用而不能相通。成德之士,礼乐之精,固得而识之。”其意为真正有修养的君子,不应如器具般只有单一用途,而应融会贯通多种才能。舍恩伯格强调的数据交叉复用思维,恰恰体现了这种“通才”智慧——数据之价值,不在其孤立存在,而在其连通与融合,一如君子之德,须贯通诸艺,方成气象。
又,《中庸》有言:“博学之,审问之,慎思之,明辨之,笃行之。”此为儒学认识论的核心框架。迁移至大数据语境,“博学”对应于全体数据的采集与积累;“审问”对应于相关关系的探查与发现;“慎思”“明辨”则对应于对因果机理的分析与理解——这恰是译者周涛所坚持的:相关关系的发现可以先于因果理解,但不能取代因果理解。“笃行”则意味着将数据洞察转化为实际行动与价值创造。儒学的认识论并非排斥数据,而是在数据的基础上融入了人的审辨与躬行,这与大数据时代“人在回路”(Human-in-the-loop)的理念暗合。
然而,舍恩伯格对因果关系的相对轻视,亦可从科学方法论角度加以审视。波普尔的证伪主义强调:科学的进步在于提出可被证伪的假说并不断检验。大数据方法论中的相关性发现,若缺乏因果假说的引导,易陷入“无知的归纳法”——海量数据中的虚假相关(spurious correlation)可能误导决策。正如休谟早已揭示的,归纳法本身无法提供必然性知识,无论数据多么庞大。舍恩伯格在书中亦承认:“错误的前提导致错误的结论”——数据化的前提若不正确,大数据分析亦无从产出正确洞见。因此,大数据方法论需与因果推理、理论建构、实验验证等传统科学方法相融合,方能避免“数据的暴政”。
七、后续计划
基于《大数据时代》的阅读,我拟定以下具体行动计划:
-
系统学习数据分析基础:报名参加在线数据分析课程(Python与SQL),理解数据采集、清洗、分析、可视化的基本流程,以弥补技术能力的短板,将书中理念转化为实践能力。
-
追踪大数据前沿动态:每周阅读一篇大数据领域的学术论文或行业报告,重点关注数据伦理与隐私保护议题,形成阅读笔记,建立个人的“大数据知识库”。
-
批判性审视日常数据消费:在接下来一个月内,有意识地记录并反思自己在使用各类APP时被数据捕获的过程,撰写一篇千字反思文章,探讨个人隐私边界与数据素养。
-
延伸阅读相关著作:基于译者周涛的推荐,阅读郑毅《证析》、子沛《大数据》、苏萌等《个性化:商业的未来》,与本书互为参照,形成对大数据议题更为全面的理解。
-
参与一次数据伦理讨论:加入或组织一次以“被遗忘权”为主题的读书会或讨论会,邀请不同背景的朋友共同探讨大数据时代的权利与责任。
大数据之路,晃晃悠悠,然吾辈已在路上。愿以舍恩伯格的洞见为灯,以周涛教授的审慎为镜,在数据的海洋中,既做勇敢的探险者,亦做清醒的思想者。
笔记撰写日期:乙巳年夏
参考版本:浙江人民出版社2012年版
