最近在听北京大学袁晓如老师的《数据可视化》公开课(B站:BV1z8411j7BY),其中讲到了可视化的发展历程。一边听课一边做了这份笔记,试着将这段从手绘到计算、再向大众延伸的学科史整理下来。因为是随堂梳理,难免有理解不周全之处,恳请读者指正。
一、手绘时代的先驱:当统计图形还靠双手
在计算机远未出现的年代,人们用笔和尺子绘制地图与统计图表,并将其大量用于图书、报刊和人口统计。正是在这一时期,几位先驱用极为朴素的方式,奠定了我们如今赖以理解数据的图形语言。
William Playfair(1759–1823)
Playfair 常被称为“统计图形之父”。1786年,他在《商业与政治图集》中首次发明了折线图、条形图和饼图等至今仍在日常中大量使用的基本图表。他用这些图形直观展示经济贸易数据,让原本枯燥的数字表格一下子拥有了趋势与比例的可读感。这种“用眼睛理解数据”的思路,现在看来似乎寻常,在当时却是开创性的。
Charles Minard(1781–1870)
法国工程师 Minard 最令人动容的作品,是1869年绘制的拿破仑1812年东征俄罗斯流图。此图在一幅画面里同时编码了行军路线、军队人数的持续衰减、撤退时的极低气温等多个变量。爱德华·塔夫特称赞它是“有史以来最优秀的统计图形”,也让我们看见,数据叙事可以在极简的几何线条中容纳如此深沉的悲剧力量。
Harry Beck(1902–1974)
1931年,工程绘图员 Beck 设计了伦敦地铁线路图。他做出了一个在当时颇为大胆的选择:完全舍弃真实地理距离,用拓扑化的横竖斜线和鲜明色彩组织线路。这种以用户认知为中心的示意图风格,后来几乎成为全世界交通图的通用范式——好的可视化有时恰恰要“失真”,才能更有效地传达信息。
John Tukey(1915–2000)
统计学家 Tukey 是探索性数据分析的奠基人。他在1977年出版的著作中,系统地提出了茎叶图、箱线图等方法,并反复强调:在建模之前,应该先借助图形来理解数据。他的工作将统计学与可视化紧密结合,箱线图至今仍是学者和数据分析师手边不可或缺的工具。
Jacques Bertin(1918–2010)
Bertin 被誉为“可视化理论之父”。他在1967年出版的《图形符号学》中,系统地定义了可视化的“视觉变量”——位置、大小、形状、明度、纹理、颜色和方向,并说明如何根据不同数据类型(定类、定序、定量)来合理选用。这一理论框架,直到今天仍然是可视化设计与研究的一块重要基石。
回看这几位先驱的工作,我常常觉得,他们的真正贡献不在于某一种具体的图形技巧,而在于反复在论证同一件事:人的视觉可以成为认识复杂世界的有效通道。
二、早期可视化的两个经典注脚
在手绘时代,地图是最为典型和成熟的可视化形式。但以下两个例子分别在地图与统计图表两个方向上,展示了可视化揭示隐藏规律的惊人能力。
伦敦霍乱地图(1854年)
1854年伦敦霍乱爆发,John Snow 医生将每位因病死亡的患者的住址以点标记在地图上,又将公共水井的位置以叉号标出。
通过图形,可以清晰看到死亡病例聚集在 Broad Street 水井周围。据此 Snow 建议关闭该井,疫情随之缓解。这一工作使他被公认为现代流行病学的先驱,也让无数后来者信服:哪怕数据零散而混乱,良好的可视化也能帮助我们接近真相。
据信为最早的统计数据图表(约1644年)
荷兰天文学家 Michael van Langren(迈克尔·范·朗伦)绘制了一张展示托莱多与罗马两地经度差测量结果的图表。
横轴上,他排列了不同观测者给出的测定值,每条水平线代表一次测量。比起单纯的数值罗列,这张图让人一眼看出测量的分布范围与误差。它被认为是目前已知最早的一幅统计数据图表——在遥远的十七世纪,已经有人在试图用图形让科学数据变得可感、可比。
三、计算机时代:可视化作为独立学科的诞生
学科确立的标志
进入1980年代,超级计算机的模拟与医学影像设备(如CT、MRI)开始产生前所未有的海量数据。1986年,美国国家科学基金会(NSF)召开专题会议,正式提出“科学计算之中的可视化”,希望在计算数据与人类理解之间,架起一座由图形和图像构成的桥梁。这次会议被普遍看作科学可视化作为一个独立学科问世的标志。
此后,从1990年开始举办的 IEEE Visualization Conference(VIS)逐步成为领域内最重要的国际旗舰会议。在中国,从2008年北京的可视化论坛,到2013年以后的 ChinaVis 大会,再到伴随其间的暑期学校,一个渐成规模的研究社区也慢慢成长了起来。
创始时期的算法与社区
科学可视化诞生之初,主要面对的是体数据和流场数据。许多如今仍被广泛使用的经典方法就出自那个时期,例如1987年提出的 Marching Cubes(移动立方体)算法,至今仍是等值面提取的基础。此外,Arie Kaufman 等学者在1990年代积极推动创建了 IEEE Transactions on Visualization and Computer Graphics(TVCG)等期刊,为这个新兴方向奠定了学术发表的阵地。正是从那时起,全球的可视化研究逐渐汇聚为一个有规模、有传统的学术社区。
从科学数据到信息可视化
最初的可视化主要面向物理和医学领域的科学数据。但大家很快意识到,还有大量抽象的、非物理的数据同样需要被看见。1995年,第一届 IEEE 信息可视化会议(InfoVis)召开,高维数据、层级结构、网络与文本等成为新的研究对象。这标志着可视化从“看见物理世界”扩展到“看见抽象关系”。
四、新世纪的转向:分析性可视化与面向大众的传播
可视分析的兴起
进入21世纪,尤其是在“911事件”之后,安全、金融、应急等领域对复杂异构数据分析的需求急剧增长。在此背景下,可视分析强调以交互式可视化作为人机合作的界面,让人的认知与决策能力同机器的计算能力深度融合。这种思路将可视化提升为一种推理和决策环境,而不仅仅是展示结果。
向大众传播的挑战
另一个值得关注的趋势是,如何让可视化走出专家圈,成为更多人能够理解、参与和使用的媒介。新闻中的交互图表、叙事性的数据故事等形式正在蓬勃发展,但如何平衡准确与易懂、深度与普及,至今仍是充满挑战的课题。甚至可以说,面向大众的可视化传播,正在重新定义可视化的边界与责任。
回顾这段从手绘到计算、从专家工具到大众媒介的历程,可视化的核心目标其实一直没有变过:借助人的视觉感知,从复杂数据中发现模式、讲述故事并辅助决策。整理这份笔记的过程,也让我再次感受到,这一领域固然已经积累了大量方法和理论,但它远未定型,仍在不断生长。
课程来源
本文根据北京大学公开课《数据可视化》(共63讲)的学习笔记整理而成,课程链接:
【公开课】北京大学:数据可视化