统计图和信息可视化之争 编辑本段回目录
信息可视化博客EagerEye的作者Robert Kosara和哥伦比亚大学统计系教授Andrew Gelman受邀在Statistical Computing and Graphics Newsletter上发表文章,从各自的角度比较了两者的区别和共通之处。
不久之前的可视化和信息图之争硝烟未定,没想到又和统计图(Statistical Graphics)干上了。信息可视化博客EagerEye的作者Robert Kosara(也是北卡大学计算机系的副教授)和哥伦比亚大学统计系教授Andrew Gelman受邀在Statistical Computing and Graphics Newsletter上发表文章,从各自的角度比较了两者的区别和共通之处(原文在这里)。
Andrew Gelman在他的博客中 提出信息可视化完全不如那些简单平实的统计图表来得有效。他觉得绝大多数的可视化传递的信息都是显而易见,已知的。但是他同时也承认,统计图表比较枯燥, 在传递信息方面并没有象可视化那么有效。他提出人们为什么喜欢可视化的原因可能就是因为可视化故意把显而易见的信息搞得象解迷一样。人们在这个过程中得到 了满足。而Robert Kosara完全不能接受这样的观点。他在博客中 说Andrew完全是站在一个偏颇的立场来评价信息可视化。他认为可视化和数字艺术(Data Arts)是有区别的。后者单纯是为了视觉上的美观。通常的信息图都是偏向这一边的。而计算机背景的信息可视化研究者们始终是把数据分析为核心问题来开展 研究的。他觉得人机互动和数据分析是信息可视化不可忽视的部分。Junk Charts的作者Kaiser Fung提出了一个很有意思的观点: 看图的回报率。他用了一个二维的坐标,X轴是用户读懂一个图花费的时间和精力,Y轴是作为回报得到的信息量。他把Robert Kosawa和Andrew Gelman的争论中用到的一些例子放入到这个坐标系进行评价。众所周知的拿破仑远征图定为高投入高回报。就是说看懂不容易,但是同时提供的信息量很大。 Gapminder和Gelman用折线图表示的Nightingale’s coxcomb列为低投入高回报,这显然是最好的。一般的饼图则是低投入低回报。而ThemeRiver形式的电影票房和Kosara用圆环来表示周期数 据的可视化则被归类到高投入低回报。也就是失败的可视化,用户花了很多时间来解读,但获得的信息却很少。
这里争论的问题其实这也是我们时常有的一个困惑。特别是当我们绞尽脑汁设计想如何可视化某个数据的时候,我们也会问自己难道不能用折线图或是柱状图表示吗? 有一个经常被用来批评不好的可视化的词叫图表垃圾(Chart Junk)。Gelman在他的讲座:Infovis vs. Statistical Graphics中 举了下面这个例子。他认为用简单的饼图就可以了。对于此我们并不能完全同意。饼图之外的东西并不是没有用的。这是一种通过视觉有效传递信息的手段。这个图 里我们能很直观的看到,一支价格一块钱的口红,最后涂在你嘴唇上的只是售价中的8分钱而已。在可视化中如何配色,如何把信息用最自然最符合人们思维的方式 传递给读者是非常重要的一块研究领域。
我们也并不觉得ThemeRiver是一个糟糕的可视化。它最早是用于显示视化了各个时期的文档中的不同主题所占的比重以及对应的时事。在统计学家看来这个 完全可以用x轴是时间的折线图来表示。但是在ThemeRiver里,这些主题被可视化成河流的样子。随着水流的大小,我们可以看到这些主题比重的变化。 这个可视化非常容易被用户接受,因为在我们的常识里,时间就被比喻成流水,而往事就是时间河流中的点滴。我们觉得和折线图比更有效。
再拿最近我们介绍的美国国债的信息图作为例子(在这里,我们仅截取局部)。
这个图其实就是一个数字114.5万亿。但是到底有多少人对这个数字有概念呢?这个可视化里通过一些统计学家可能觉得不必要的Chart Junk,非常形象的告诉你,这笔钱堆起来比帝国大厦还高。
更重要的是还有很多复杂数据是基本的统计图表所无法表示的。比如图和树。对于高维数据,传统的统计图表,比如Scatter Plot Matrix也不是最有效的方法。所以我们不同意Andrew Gelman认为的可视化都是画蛇添足。从另一个角度来说,统计图表本身也是一种可视化。他们之所以通常更容易读懂是因为人们从小就已经开始熟悉他们。相 信在饼图刚发明的时候,也不是人人看到就明白它的意义的。同样我们可以看到一些好的信息可视化已经开始变成对某种数据的默认表示方式而被越来越多的人所接 受,比如用树图(treemap)表示层次数据。如果有一天小学课本里就有树图,我们相信它也会变的象饼图一样直观。
但是我们也不能完全同意Robert Kosawa的观点。数据分析确实是可视化的核心之一。但是研究视觉表达也是可视化必不可少的部分。其实我们一直觉得信息可视化的计算机学生应该去上一些神经系统科学(Neuroscience)和平面设计的课程。
相关阅读:
Robert Kosara:
Information Visualization vs. Statistical Graphics
Andrew Gelman:
http://andrewgelman.com/2010/12/that_puzzle-sol/
http://statisticsforum.wordpress.com/2011/07/28/robert-kosaras-infovis-example-illustrates-the-chris-rock-effect-a-pleasurable-intellectual-effort-spent-in-discovering-something-obvious-that-couldve-been-noticed-and-even-quantified-much-mor/
http://statisticsforum.wordpress.com/2011/07/29/infovis-vs-statgraphics-a-clear-example-of-their-different-goals/
转自视物|致知