自序
2019 年底,陈兴璐编辑给我写了封邮件,问我是否有兴趣写一本中文书。这问题可以说是问到我心坎上了。2018 年我在给赵鹏的《学 R》一书写推荐序时就表达了写中文书的强烈愿望,只不过写书这种工作最好是用大块连续的时间去做,而如今多数人的时间都已经严重碎片化,我也不例外(尽管还在假装抗争),所以想要徒手写出一本新书的可能性已经微乎其微,于是我想到这本书稿。
赵鹏在本书后序《古统新修记》中提到了这本书的历史。从我 2007 年开始写这本书起,就不断有人问我何时出版。当年我把这本书的信息放在博客的某个网页上,后来我把这个网页藏了起来,但现在仍然可以看见当年很多读者在下面的留言。有些读者甚至说“银子都准备好了”。一晃十三年过去,我也从一个不靠谱的小青年成长为一个不靠谱的小中年,唯一不变的是这书仍然没有出版,惊喜不惊喜……我不知道以前当大家在谈论拖延症时大家在谈论些什么,反正以后大概可以谈谈这本被我拖成《古代统计图形》的《现代统计图形》了。
这些年来,我曾想过找人帮忙把这本书稿重新整理一下,也有不少人提出要给我帮忙,但我开发了几年 R Markdown 之后,实在不想再打开这本书的 LaTeX 原稿件,所以也没和这些志愿者一起推进。恰好在兴璐编辑问我的三个月之前,我终于咬咬牙把这本书的旧稿子全盘交给了黄湘云(他之前也问过我好几次了),请他帮忙把原始的 LaTeX 格式转化为更简单的 R Markdown 格式,结果他三下五除二很快就把这事搞定了,这解决了出版的两大障碍之一。另一大障碍是,由于此书写于十几年前,彼时 ggplot 还不像现在这样一统江湖,于是这本书的旧稿将重点放在 R 的基础图形上(第9章),而对 ggplot 的介绍则很简略。这个大坑,则被赵鹏卷起袖子给填了,书中凡是能用 ggplot 作的图,他都用 ggplot 重写了一遍,好歹算是把《古代统计图形》拉上了《近代统计图形》的台阶。我依然觉得“现代”二字有点名过其实,但现在总算不像一年前那么心虚了。
话说回来,我们当然不能说用什么工具作图才称得上“现代”。“现代”与否,不应该与工具挂上钩,否则我们一来容易陷入工具崇拜,二来也很容易变成拿着锤子找钉子的人,也就是查理芒格说的“铁锤人倾向”。如果不注意作图的目的和原则,那么优秀的作图工具也一样可能制造图形垃圾,就如同 LaTeX 也绝对可以排出把人丑哭的版式一样。也许有读者还记得,我在最早版本的序言中引用过顾炎武在《日知录》中引用《易经》中的一句话:“形而上者谓之道,形而下者谓之器。”那时候年少轻狂,引这种话有卖弄之嫌(装作很厉害的样子),不过也有一份真心实意在里面,也就是期待读者能得“道”。如今不敢说什么“道”不“道”的大话,只能说要是本书对读者有所启发的话,则善莫大焉。
我本人当然不算图形领域的专家,而且这些年的工作重心离这个领域越来越远,但我也斗胆讲我的两个观察,不知是否确切:
一是随着数据科学的浪潮,数据可视化也被推上了浪尖,图形成了数据科学不可或缺的一个组成成分,但我们似乎越来越依赖现成的作图工具和系统(哪怕自己写代码作图,也是用现成的库),难以见到新颖的数据展示方式,而那些新颖的图形,往往需要用更原始和底层的方式创造出来。在第2章中,我提到用写代码的方式作图能提供高度的定制性,意即越高层的工具,定制性相应也会更弱,所以也更容易束缚创新。有鉴于此,时至今日,我仍然认为读者不妨了解一下 R 的基础作图系统,而不必随大流、认准了 ggplot 不撒手。基础作图系统用起来当然是繁琐一些,但它提供了所有的图形元素供你调遣,而且对数据形式也没有任何假设(不必非得是整齐的数据框),有时候可能会更方便和自由。注意,我是学基础作图系统长大的,所以我的这个观念可能有偏差。当年我玩这些点线面的时候,感觉就像玩画笔,可以说乐在其中、不能自拔,比如图 9.6 让我兴奋地发现原来渐进色可以这样创造(虽然很低效),图 6.4 是我受那幅著名的拿破仑远征图(图 1.6)启发而创造出来的,图 3.14 中的篮球场地则是我按照场地标准尺寸“一笔一划”地用点线圈画出来的(可见曾经有多闲)。第9章最后那个画温度计的练习,可能是我当年沉迷基础作图系统的最好例证。打个比方,用 ggplot 或其它高层作图系统就像是上帝捉住你的手在画图,而用基础图形系统则需要你捉住上帝的手来画。
二是如今画图似乎朝着美观方面一边倒,而难以见到把数学原理与图形结合表达的例子。我不太明白这是果真成了看脸的时代,还是说统计理论与图形的隔阂更深了。坦言之,我读研究生之后开始不太喜欢数学,但有时候看到一种数学方法以图形的方式巧妙表达出来时,还是觉得很惊喜的。例如第 7.8 小节中的四瓣图,和第 6.12 小节中的调和曲线图。对于后者,我本科大四时还仔细验证过那个欧氏距离(当然现在恐怕三角函数的积分都忘了),并感叹这家伙是怎么想出这么绝妙的方法来的。不知这些“古代统计图形”,能否启发我们创造出更多有数学灵魂的图形?其实也未必一定要追求这些看起来高端的东西,有时候一个简单的想法也许就能启发我们,例如图 5.3 中的向日葵散点图,它的想法很简单,而名字又多有诗意。我想表达的意思是,一幅图不管用什么形式表达,只要你注入了特别的心意,它自然会萌发出生命力而动人。正如中岛美雪一首歌所唱的:生命的别名就是心。
所以就算这本书稿拖了十四年,我自问仍是有一定的出版价值的;内容方面依旧有一些闪光点,只不过以我如今的文字标准,有些地方文绉绉的表达我自己也看不惯了。我猜这本书至少会有两类购买者:一类是等它等了十几年的,不为别的,就图买个情怀,以纪念逝去的青春,也许买回去最终只是吃火锅的时候垫桌脚;另一类是冲着鄙人的虚名来的(我为你们赐名“冲虚道长”)。对第一类读者,我只想说,吃火锅的时候请叫上我;对第二类读者,你们来就来,还买什么东西嘛,非要买的话,我也只好第无数次重复我的告诫:读书的时候自己多判断,不要被我一面之词忽悠入坑。
本书每章开头都挑选了一段《福尔摩斯探案集》中的文字,其内容与各章内容有一定关联(有些关联需要一定的脑洞才能理解),这也是由于我个人在上高中时就喜欢看福尔摩斯,并且我认为统计图形也可以看作是一种小小的“探案”。探案集中我最喜欢的一篇是《血字的研究》,尤其欣赏该篇的第二部分中大篇的景色描写,以及对主人公杰弗逊·霍普坚韧不拔性格的刻画,这种波澜壮阔的笔法,令我着实艳羡不已,只可惜我没这种文字功夫能把书写得如此吸引人,于是只能寄希望于“一图胜千言”了。
最后,我要感谢在写作过程中给我提供过帮助的人们,包括我在中国人民大学本硕期间的导师赵彦云老师、人大学弟学妹和统计之都的朋友们(如魏太云、邱怡轩、郑冰、李皞、方莹、李丰、王晓伟、李承文、肖楠、姜晓东等等)、爱荷华州立大学的师友们(如殷腾飞、我的导师 Di Cook 和 Heike Hofmann)。本书修订过程中也收到了来自张列弛、Song Li、JackieMe、Yang Cao、Jonie Yao、tiansworld 等人的贡献。这本书先后得到了多位编辑的付出,包括周筠老师(约十年前)、卢鸫翔编辑、陈兴璐编辑、王军花编辑等,其间我掉过链子,很不好意思,在此觍着脸一并感谢。当然,这本书最终的出版,离不开我的两位苦力合作者黄湘云和赵鹏;要不是他们玩命推,我估计这本书稿可能真的要留给未来的考古队来发掘了。
谢益辉
于美国奥马哈