数据可视化
数据视觉表现形式的科技研究
数据可视化(数据 visualization)是对大型数据库或数据仓库中的数据的可视化,它是可视化技术在非空间数据领域的应用,使人们不再局限于通过关系数据表来观察和分析数据信息,还能以更直观的方式看到数据及其结构关系。数据可视化技术的基本思想是将数据库中每一个数据项作为单个图元元素表示,大量的数据集构成数据图像,同时将数据的各个属性值以多维数据的形式表示,可以从不同的维度观察数据,从而对数据进行更深入的观察和分析。
数据可视化是个庞大的领域,涉及的学科非常多。广义的数据可视化涉及信息技术、自然科学、统计分析、图形学、交互、地理信息等多门学科。但正是因为这种跨学科性,才让可视化领域充满活力与机遇。
数据可视化最常见的应用是一些统计图表,比如直方图、散点图、饼图等,这些图表作为统计学的工具,创建了一条快速了解数据集的途径,并成为令人信服的沟通手段,所以可以在大量的方案、新闻中见到这些统计图形。
此外,数据可视化在各个领域都得到了十分广泛的应用,包括医学、生物学、地质、海洋、气象、航空、军事、工程技术、金融、网络通信和商业信息等。在大数据时代,面对规模、种类快速增长的数据,可视化已然成为各个领域传递信息不可缺少的手段,是快速理解数据的必然要求。虚拟现实、增强现实和混合现实等新兴技术也有可能使数据可视化更加身临其境、直观、互动和易于操作,从而增强用户的视觉感知和认知能力。
概述
数据不仅指狭义上的数字,还可以是具有一定意义的文字、字母、数字符号的组合、图形、图像、视频、音频等,或者客观事物的属性、数量、位置及其相互关系的抽象表示。在计算机科学中,数据是指所有能输入到计算机并被计算机程序处理的符号的介质的总称,是用于输入电子计算机进行处理,具有一定意义的数字、字母、符号和模拟量等的通称。数据经过加工后就成为信息。两者既有联系,又有区别。数据是信息的表现形式和载体,而信息是数据的内涵,是加载于数据之上对数据做的具有含义的解释。数据和信息是不可分离的,信息依赖数据来表达,数据则生动具体表达出信息。它们之间是形与质的关系。数据本身没有意义,数据只有对实体行为产生影响时才成为信息。
数据可视化就是数据中信息的可视化。经过可视化的数据,可以让人更直观、更清晰地了解到数据中蕴含的信息,从而最大化数据的价值。数据可视化主要借助图形化的手段,达到有效传达与沟通信息的目的。它主要从数据中寻找三个方面的信息:模式—数据中的规律;关系—数据之间的相关性;异常——有问题的数据。但是,数据可视化,不仅仅是统计图表。本质上,任何能够借助图形的方式展示事物原理、规律、逻辑的方法都叫数据可视化。数据可视化的一般流程包括数据收集、数据分析或清理、可视化设计,从抽象的原始数据到可视化图像。
数据可视化的范畴分为狭义的数据可视化和广义的数据可视化。Julie Steele 在他所著的《数据可视化之美》中提到:“数据可视化和信息可视化是两个相近的专业领域名词。狭义上的数据可视化指的是将数据用统计图表方式呈现,而信息可视化则是将非数字的信息进行可视化。前者用于传递信息,后者用于表现抽象或复杂的概念、技术和信息。而广义上的数据可视化则是数据可视化、信息可视化以及科学可视化等等多个领域的统称。”三者并没有严格的界限,但三者各有不同的关注点。科学可视化面向科学和工程领域数据,如三维空间测量数据、计算模拟数据和医学影像数据等,重点探索如何以几何、拓扑和形状特征来呈现数据中蕴含的规律;信息可视化的处理对象则是非结构化的数据,如金融交易、社交网络和文本数据,其核心挑战是如何从大规模高维复杂数据中提取出有用信息。
历史发展
初始时期
自史前时代起,恒星数据或恒星位置等信息就被可视化地显示在洞穴(如在法国南部拉斯科洞穴中发现的那些洞穴)的墙壁上。例如,美索不达米亚粘土代币(公元前5500年)、印加帝国quipus(公元前2600年)和马绍尔群岛木棍图也可被视为量化信息的可视化。最早有文献记载的数据可视化可追溯到公元前 1160年的《都灵纸莎草地图》,该地图准确地描绘了地质资源的分布情况,并提供了有关这些资源开采的信息。
17世纪之前出现的早期地图与图表,表明了可视化思想存在。随着人类知识的增长活动范围的不断扩大,为了能有效探索其他地区,人们开始汇总信息来绘制地图。W.Snell于1617年首创三角测量法后,出现了第一部现代意义的地图集。但由于当时数据总量较少,各科学领域也处于初级阶段,所以可视化的运用还较为单一,整体还处于萌芽阶段。
探索时期
17世纪起,随着科技的进步及经济的发展,数据在时间、空间、距离上的获取方式更加丰富,可视化应用主要集中于制作地图、天文分析及几何学研究上。这一时期,勒内·笛卡尔发展出了解析几何和坐标系,在两个或者三个维度上进行数据分析,成为数据可视化历史中重要的一步。同时,哲学家帕斯卡等发展了早期概率论,英国人John Graunt开始了人口统计学的研究。这些早期的探索,打开了数据可视化的大门,数据的收集、整理和绘制开始了系统性的发展。
18世纪出现了直方图等可视化形式,数据可视化得到了初步发展。科学领域的飞速发展以及英国的工业革命,都推动着数据向精准化以及量化的阶段发展,用抽象图形的方式来表示数据的想法也不断成熟。统计学也出现了早期萌芽,一些和绘图相关的技术也出现了,比如三色彩印和石版印刷,数据的价值开始为人们所重视,人口和商业等方面的经验数据开始被系统地收集整理,天文、测量、医学等学科的实践也有大量的数据被记录下来。现代图表的发明者威廉·普莱费尔(William Playfair)在1786年出版的《商业和政治地图集》中发明了广为流传的折线图和柱形图。在1801年出版的《统计摘要》中发明了饼状图。这些早期的探索,打开了数据可视化的大门,数据的收集、整理和绘制开始了系统性的发展。
飞速发展
数据可视化在19世纪上半叶快速发展,其特点是现代信息图形设计开始出现,包括柱状图、饼图、直方图、折线图、时间线、轮廓线等,大量学者开始对可视化图形的分类和标准化进行研究,关于社会、地理、医学和基金的统计数据越来越多。1801年,英国地质学家 William Smith 绘制了第一幅地质图,也被称为“改变世界的地图”,引领了一场在地图上表现量化信息的潮流。19世纪下半叶,数据制图进入了黄金时期,各种可视化形式层出不穷。统计学理论的建立是推动可视化发展的重要一步,此时数据的来源也变得更加规范化,由政府机构进行采集。随着社会统计学的影响力越来越大,1857年在维也纳召开的统计学国际会议上,学者们开始对可视化图形的分类和标准化进行讨论。许多数据图形开始出现在书籍、报刊、研究报告和政府报告等正式出版物中。
低潮期
20世纪前期,数理统计学成了数学的一个支派,统计学家们这个时期关注的主要是在准确的数学基础上扩展统计的疆域。对当时的大多数统计学家来说,带有标准误差的参数估计和假设检验是严格数学化的,而图形虽然美观(或许也具有启发性),但是对寻找坚实的“事实”还是勉为其难。因此数据的量和种类并没有太大的变化,于是黄金时期所出现的数据表示方式就已经够用,数据可视化进入了创新低潮期。
但同时创新放缓的另一面是更广泛的应用,即数据可视化成果在这一时期得到了推广和普及,并开始被用于尝试解决天文学、物理学、生物学的理论新成果。在社会层面,数据可视化的影响力也在扩大。1910年前后,在美国和英国,统计图形出现在中小学的教科书中,从此成为课堂上一种主流的图形表现方法。大学课程中也出现了图形的课程。在1913年的纽约,甚至出现了统计图形的游行展览,统计数据和数据的可视化已经成为社会生活的一部分。
新的黄金时期
现代电子计算机的诞生带来了强大的冲击,对数据可视化研究的再次兴起有了推波助澜的作用。同时,随着统计应用的发展,计算机对数据分析的影响来自两方面——高分辨率的图形展现和交互式的图形分析都是手绘图形无法带来的革命性改变。1967 年,法国人 Jacques Bertin 出版了 Semiology ofGraphics一书,确定了构成图形的基本要素,并且描述了一种关于平面设计的框架。这套理论奠定了信息可视化的理论基石。随着计算机的普及,20世纪60年代末,各研究机构就逐渐开始使用计算机程序取代手工绘制图形。1973 年 Herman Chernoff发明了表达多维变量数据的脸谱编码。
在这一时期,数据缩减图、多维标度法(MDS) 聚类图、树形图等更为新颖复杂的数据可视化形式开始出现。人们开始尝试着在一张图上表达多种类型数据,或用新的形式表现数据之间的复杂关联,成为数据处理应用的主流方向。20世纪70年代到80年代,人们主要尝试使用多维定量数据的静态图来表现静态数据,80年代中期动态统计图开始出现,最终在20世纪末两种方式开始合并,动态交互式的数据可视化方式成为新的发展主题。数据可视化在这一时期的最大潜力来自动态图形方法的发展,允许对图形对象和相关统计特性进行即时和直接的操作。
新的发展契机
进入21世纪,新的可视化媒介——互联网出现,互联网的普及,进一步促进了各种新形式的可视化快速发展。例如屏幕媒体中大多融入了各种交互、动画和图像渲染技术,并加入了实时的数据反馈,可以创建出沉浸式(Immersive)的数据交流和使用环境。除了商业机构、科研部门和政府外,大众每天也要在自己的屏幕上接触大量的经过可视化的数据,廉价的硬件传感器和自己动手创建系统的框架降低了收集与处理数据的成本。出现了数不胜数的应用、软件工具和底层代码库,帮助人们收集、组织、操作、可视化和理解各种来源的数据。互联网还可作为可视化的传播通道,来自不同社区的设计师、程序员、制图师、游戏设计者和数据分析师聚在一起,分享各种处理数据的新思路和新工具,包含可视化与非可视化方法,帮助人们直观地了解自己感兴趣的领域的数据。此外,各种自媒体都倾向于使用可视化来增加关注度,吸引流量。
理论基础
视觉感知
感知是指客观事物通过人的感觉器官在人脑中形成的直接反映,与可视化密切相关的感知主要是指视觉感知。视觉感知是客观事物通过人的视觉在人脑中形成的直接反映。韦伯定律表示,刺激物的增量与原来刺激物之比是一个常数。也就是说如果两个物品使用相同的参照物或者相互对齐,将有助于人们做出准确的相对判断。视觉感知的类型包括:视觉对色彩的感知;视觉对形状的感知;视觉对空间的感知;视觉对运动的感知。
视觉认知
视觉认知是把通过视觉器官得到的信息加以整合、解释、赋予意义的心理活动,是关于怎样理解和解释所观察到的客观事物的过程。视觉认知的处理过程一般来说有两种:“自上而下"和“自下而上”。
格式塔理论
格式塔心理学派理论认为,视知觉具有组织、结构和分析内在意义的能力,当人看到某事物时,无需对组成这一事物的各个部分进行分析,就能够直接整体把握事物,可以用于分析人是怎样认知和记忆所看到的事物。
视觉编码
人类感知系统在获取周围信息的时候,存在两种最基本的感知模式即视觉编码和视觉通道。把图片看成一组图形符号的组合,这些图形中携带了信息,称作编码。当人们从这些符号中读取信息时,称作解码了一些信息。视觉编码描述的是将数据映射到最终可视化结果上的过程,这里的可视化结果可能是图片,也可能是一张网页等。
数据可视化的图表介绍
基本图表
饼图(Pie Chart)
饼图能够直观反映数据系列中各项的大小、总和以及相互之间的比例关系(即展现的是个体占总体的比例,扇面的角度来展示大小),图表中的每个数据系列具有唯一的颜色或图案并且在图表的图例中表示。基本类型:1、二维饼图和三维饼图;2、复合饼图和复合条饼图;3、分离型饼图和分离型三维饼图。饼图一般适用于表述一维数据(行或列)的可视化结果,它能够直观反映某个部分占整体的比重,人眼对局部占整体的份额一目了然,用不同颜色来区分局部模块,也显得较为清晰。因此,如果想直接展示各项数据占整个数据的比例,并且显示所占的百分比情况,可以选择使用饼图。
条形图(Bar Chart)
条形图往往用于显示各个项目之间的比较情况,排列在工作表的列或行中的数据可以绘制到条形图中。基本类型分为:簇状条形图和三维簇状条形图;堆积条形图和三维堆积条形图;百分比条形图和三维百分比条形图;双向条形图。条形图的注意事项:给条形加上色彩可以获得更好的效果;使用堆积条形或并排条形,把关联数据上下或左右并列显示能够深化分析,一次解决多个问题;把条形图与地图相结合;把条形放在轴的两侧,把正负数据点沿着连续轴标绘,是发现趋势的有效方式。
适用场景:(1)较长的数据标签;(2)大量的数据集,对于10个左右的数据集,可以用柱状图显示,但是对于更大、更多的数量集,柱形图就无法满足要求。条形图和柱状图之间的区别在于:条形图面向水平方向,柱状图面向垂直方向。
柱状图(Column Chart)
柱状图是一种以长方形的长度为变量的表达图形的统计报告图,它由一系列高度不等的纵向条表示数据分布的情况,用来比较两个或以上的价值(不同时间或者不同条件),只有一个变量,通常用于对较小数据集的分析。与条形图类似,柱状图的基本类型有:簇状柱形图和三维簇状柱形图(适合比较各个类别的值);堆积柱状图和三维堆积柱状图(适合比较同类别各变量和不同类别变量总和著异);百分比堆积柱状图和三维百分比堆积柱状图(适合展示同类别的每个变量的比例);分组柱状图(在同一个轴上显示不同分组的各个分类) ;双向柱状图(适合数据有负值的变量的比较)。
柱状图适用于二维数据集,能够清晰地比较两个维度上的数据。它利用柱子的高度来反映数据之间的差异,一般情况下用来反映分类项目之间的比较,也可以用来反映时间趋势。柱状图的局限在于它仅适用于中小规模的数据集,当数据较多时就不易分辨,一般而言,不要超过10个。通常来说,柱状图的横轴是时间,用户习惯性认为存在时间趋势,如果遇到横轴不是时间的情况,建议用颜色区分每根柱子。
散点图
散点图(ScatterPlot)一般用于发现各变量之间的关系,适用于存在大量数据点,而且结果更精准的场景。散点图通过数据点在X-Y面上的位置来展现两个维度的变量。当一个个数据点形成一个整体的时候,变量的相关性就此显现。散点图的值由点在图表中的位置表示,类别由图表中的不同标记表示。如果散点图中的点散布在从右上角到左下角的区域,表示两个变量有正相关关系。还有一些变量呈负相关,这时的点散布在从左上角到右下角的区域内。散点图的基本类型分为散点图矩阵和三维散点图。
散点图通常用于显示和比较数值,可以用来绘制函数曲线,所以在教学和科学计算中会经常用到;散点图适用于三维数据但其中只有两个维度需要比较的情况,以便展示其关系,当存在大量数据点时,散点图的作用尤为明显;散点图中包含的数据越多,比较的效果就越好。对于展现肺活量和自由潜水深度、地震震级和地震持续时间、收益和投入等关系,散点图都比较适合。
折线图(Line Chart)
折线图用于展示数据随时间(或其他有序系列)波动情况的变化趋势。在折线图中,数据是递增还是递减、增减的速率、增减的规律、峰值等特征都可以清晰地反映出来。所以,折线图常用来分析数据随时间的变化趋势,也可用来分析多组数据随时间变化的相互作用和相互影响。基本类型包括普通折线图和带数据标记的折线图,如果有很多数据类别或者数值是近似的,则应该使用不带数据标记的折线图。
折线图适用于二维大数据集,尤其访问量是那些趋势比单个数据点值更重要的场合。它还适用于多个二维数据集的比较,当存在许多数据点并且顺序很重要300时,能够按时间或类别显示趋势。此外,使用时注意给折线下方区域涂上阴影,可便于看图人了解占比,折线太多时需要更换为其他图形,当不足5个项目时可以使用柱图。
地图(Map)
地图就是依据一定的数学法则,使用地图语言、颜色、文字注记等,表达地球(或其他天体)上各种事物的空间分布、组合、联系、数量和质量特征及其在时间中的发展变化状态而绘制出的图形。基本类型包括:气泡地图,用气泡大小展现数据量大小 ;点状地图,用描点展现数据在区域内的分布情况);轨迹地图,展现运动轨迹;地理信息系统地图,更精准的经纬度地图,需要有经纬度数据,可以精确到乡镇等小粒度的区域。
地图必须遵循一定的数学法则,能够准确地反映客观实体在位置、属性等要素之间的关系,同时地图数据必须经过科学概括,缩小了的地图不可能容纳地面所有的现象。地图适合展现呈面状但属分散分布的数据,比如人口密度等各地区销量或者某商业区域店铺密集度等,它的局限在于数据分布和地理区域大小的不对称。通常,大量数据会集中在地理区域范围小的人口密集区,容易造成用户对数据的误解。
传统图表
雷达图(Radar Chart)
雷达图又被称为网络图、蜘蛛图、极坐标图或者星图。雷达图的每一条从中心开始的轴,都代表了一个变量,所有的轴都以等角等距的方式径向排列,相邻的轴通过网格线连接,组成多个多边形或者圆形。雷达图将多个系列的数据值映射到坐标轴上,以对比某项目不同属性的特点,擅长通过数据点围成的多边形形状,展示异常数值或者类别的综合表现。
雷达图主要分为三种类型:标准雷达图、堆叠雷达图、分比堆叠雷达图。使用时雷达图的类别与变量不适宜过多,变量的排序必须重视以及要注意变量的单位。雷达图适用于多维数据,且每个维度必须可以排序,但是如果分类过多或变量过多,会比较混乱。一般来说,雷达图适合的数据点最多为6个,否则无法辨别,因此适用场合有限。
面积图(面积 Chart)
面积图又称区域图,将工作表的数据绘制到面积图中,可以强调数量随时间而变化的程度,也可用于引起人们对总值趋势的注意。通过显示所绘制的值的总和,面积图还可以显示部分与整体的关系。基本类型:二维面积图,用面积展示各种数值随时间或类别变化的趋势;堆积面积图,它显示每个数值所占大小随时间或类别变化的趋势;百分比堆积面积图,它显示每个数值所占百分比随时间或类别变化的趋势;三维簇状面积图;三维堆积面积图;三维百分比堆积面积图。
面积图看上去就像层层叠叠的山脉,错落有致,常用于表达时序特征,面积图和折线图都能描述时间序列,但与折线图不同的是,面积图中带有颜色的面积也可以进行量的表达,这种“面”的表达比“线”的表达更有感染力。此外,使用面积图时要使用透明色,确保数据在背景中不被遮挡。
漏斗图(Funnel Chart)
漏斗图是一种直观表现业务流程中转化情况的图表形式,用梯形面积表示某个环节业务量与上一环节业务量之间的差异。每个环节通常用一个梯形来表示,梯形的上底宽度表示当前环节的输入情况,梯形的下底宽度表示当前环节的输出情况,上底与下底之间的差值形象地表现了当前环节的“榻耗”。漏斗图是对业务流程最直观的一种表现形式,通过漏斗图可以很快发现业务流程中存在的问题。
漏斗图适用于分析在时间或逻辑上存在顺序关系的多个业务环节,通过各环节业务数据的比较,能够直观地发现和说明问题所在。几种典型应用场景如下:1、网站流量分析漏斗;2、销售果分析漏斗;3、网络营销效果转化漏斗;4、crm客户管理系统;5、招聘漏斗。
瀑布图(Waterfall Plot)
瀑布图是由麦肯锡咨询公司所独创的图表类型,因为形似瀑布流水而得名。瀑布图具有自上而下的流畅效果,也可以称为阶梯图或桥图。这种图表采用绝对值与相对值结合的方式,展示各成分的分布构成情况。瀑布图使图表中数据的排列形状(称为浮动列)看似瀑布悬空,从而反映数据在不同时期或受不同因素影响的程度及结果,还可以直观反映出数据的增减变化。
基本类型:(1)组成瀑布图;(2)变化瀑布图;(3)堆叠瀑布图。瀑布图适合用于表达各项数据与各项数据总和的比例,或者用于显示各项数据间的比较。在实际的应用场景中,瀑布图常用于经营情况分析,解释从一个数字到另一个数字的变化过程。比如资产评估有限责任公司利润、比较产品收益、突出显示项目的预算变更、分析一段时间内的库存或销售情况、显示一段时间内产品价值变化等。
树状图(Tree Diagram)
树状图也称为树枝状图,是枚举法的一种表达方式。它以数据树为图形表现形式,以父子层次结构来表示亲缘关系。树状图主要是把分类总单位摆在图上的树枝顶部,然后根据需要,从总单位中分出几个单支,而这些分支又可以作为独立的单位,继续向下分类,以此类推。从树状图中,可以清晰地看出分支和总单位之间的部分和整体的关系,以及这些分支之间的相互关系。如果要处理的数据之间存在整体和部分的关系,在数据量很大的情况下,要想看清每个部分的具体情况,那么采用树状图会是一个很好的选择。
新型图表
热力图(Heat Map)
热力图主要用于展示数据的分布情况。标准的热力图将两个连续数据分别映射到X、Y轴,第三个连续数据映射到颜色。热力地图又叫等值线地图,可以直观地显示测量值在整个地理区域内的变化情况,也可以显示区域内的变化程度。热力图通常用其专有的彩虹色系或渐变色,但要谨慎使用样式,地图中过多的分类图案会分散读者的注意力,而且还会引起适得其反的效果,使区域分布情况变得杂乱模糊。
适用场景:作为地理信息系统中某种现象聚集度的直观展示方式,热力图在城市规划、人口迁移、景区监控等方面起了越来越重要的作用,是位置大数据服务中的重要组成,对人们的衣食住行都有帮助。一般而言,热力图是以特殊高亮的形式显示分析对象的“热度”,它通常有自己的颜色表达系统,例如,一般红色表示最密集、橙色次之、绿色最少。例如,针对景点的人流量,热力图能非常直观地展示出不同时间段人流量的分布情况,景区可以由此设置最佳的游览路线。交管部门可以通过热力图评估不同区域的人车流量,以更好地布局交通设施。
词云图(Word Cloud)
词云又称文字云、标签云,它是文本数据的视觉表示,由词汇组成类似“云”的彩色图形。词云图的独特之处在于可以展示大量文本数据,做词云图的方法是先将语料库分解成单独的词汇,并计算它们出现的次数,然后再将原始语料库中出现的次数映射为词汇(或词汇所在的气泡)的大小或颜色。词云中每个词的大小取决于其在文章中出现的频率,频率越高,在文字云图中显示越大,因此可以直观反映文章中文字的密度及重要性。
词云图适用于非常大的语料库以查询词汇和发现潜在主题,通常用于描述网站上的关键字元数据(标签),或可视化自由格式文本。除此之外,结合地图,还可以生产特殊词云,使得一些与位置点相关的文本信息在地图上展示出来。这种结合地图的词云图的特殊之处在于,词汇的大小并不与其频次直接相关,而是与词汇所处地区的区域大小有关。
弦图(Chord Diagram)
弦图是一种可视化数据关系的图表,它展示了数据之间带有权重的关系。弦图的名称来自几何学中的术语“弦”。在几何学中,圆的“弦”是指端点均落在圆上的线段。基本类型包括:(1)非彩带弦图,弦图的简化版,圆周上的每一个节点分布均匀,不带有权重关系。比较适合用于展现如人物关系、信件往来等关系类的信息;(2)弦图,在弦图中,数据围绕圆周径向布置(节点),数据点之间的关系通常绘制为连接两个数据点的弧。因为弦图所表达的数据关系可以带有权重,所以边的宽度会粗细不一。
数据量过大会导致弦图的可读性降低,可以通过一些交互性设计的辅助使图表更具可读性。此外,数据排列的顺序对弦图呈现效果影响较大。弦图则有助于发现数据之间的关系,适用于比较数据集或不同数据组之间的相似性,表达大量复杂数据。而非彩带弦图适合反映大体量数据之间的关系,带有美观的呈现方式和良好的视觉效果,并且有较大的空间利用率。
数据可视化的主要技术
多维数据可视化
基于几何的技术
基于几何的可视化技术包括Scatter plots、Landscapes、Projection Pursuit、Parallel Coordinates等等,是以几何画法或几何投影的方式来表示数据库中的数据。平行坐标法是最早提出的以二维形式表示n维数据的可视化技术之一。它的基本思想是将n维数据属性空间通过n条等距离的平行轴映射到二维平面上,每一条轴线代表一个属性维,轴线上的取值范围从对应属性的最小值到最大值均匀分布。这样,每一个数据项都可以根据其属性值用一条折线段在n条平行轴上表示出来。利用平行坐标法开发的系统包括Parallel Visual Explorer (IBM)、 XMDV(Matt Ward)、 VS或Express (Van Wijk)等等。 这个方法的优点在于,对于较少的数据集能使用户在二维平面上看到每个数据的n维属性,对于大型的数据集能反映出各维属性之间的关系和数据在各维属性之间的走向趋势。
基于图标的可视化技术
基于图标技术的基本思想是用一个简单图标的各个部分来表示n维数据属性。基于图标的可视化技术包括Chernoff\u0002-face、 Shape coding 、Stick Figures 等,这种技术适用于某些n维值在二维平面上具有良好展开属性的数据集。枝状图方法是其中的基本方法之一。首先选取多维属性中的两种属性作为基本的X-Y 面轴,在此平面上利用小树枝的长度或角度的不同表示出其他属性值的变化。例如下图所示的两个数据点,它们对左边的二维属性含有相同的数据值,而右边的二维属性的数据值则不相同。
时间序列数据可视化
时间序列可视化随着时间的推移采集信息数据,运用可视化技术手段进行呈现,呈现出的可视化方式主要有3种。
一、线形图,通过最开始的点展示不同时间段信息数据变化,在可视化过程中信息数据呈现较多时间维度,根据不同维度建立相应图标进行排列,观察数据的变化。
二、堆积图,这类图主要对所有时间序列进行叠加,出现负数时,堆积图无法处理所有的时间序列,极大程度降低了可视化的呈现效果。
三、地平线图,随着时间变化清楚地观察到信息数据的变化率,颜色的深浅表示正向、负向的变动效果。
网络数据可视化
网络数据可视化技术手段核心是自动布局算法,将信息数据通过自动布局、计算,绘制成网状结构的图形,应用较广泛的有3类:力导向布局,借助力的概念,连接受力节点绘制网状图,适用于描述事物之间的关系,例如计算机网络关系、社交网络关系等各类关系;圆形布局,将所有节点自定义排序,按照顺序在圆形上排列出来,快速分析出结果,适用于查找较多关联关系的节点场景,例如在圆形布局图中可明显分辨出哪些节点关联关系较多;网格布局,采用网格设计方式绘制网格状信息数据网状图,适用于分层网络,利于观察整体层次。
基于层次的可视化技术
基于层次的可视化技术主要针对数据库系统中具有层次结构的数据信息,例如人事组织、文件目录、人口调查数据。它的基本思想是将n维数据空间划分为若干子空间,对这些子空间仍以层次结构的方式组织并以图形表示出来。基于层次的技术包括Dimensional Stacking 、Treemap 、Cone Trees等方法。树图是其中的一种代表技术。
主要的数据可视化软件
Tableau是桌面系统中的商业智能工具软件。它不强迫用户编写自定义代码,新控制台也可以完全自定义配置。在控制台上,不仅能够监测信息,还提供了完整的分析能力,具有高度动态性。此外,Tableau拥有计算机图形学、人机交互和高性能的数据库系统,VizQL可视化查询语言和混合数据架构,专注于处理最简单的结构化数据,即已整理好的数据——Excel、数据库等,结构化数据处理在技术上难度较低。
QlikView是一个完整的商业分析软件,由开发工具(QlikView Local Client)、服务器组件(QlikView Server)、发布组件(QlikView Publisher)以及其他应用接口(SAP或赛富时Informatica)组成,服务器支持多种发布方式,如AJAX客户端、ActiveX客户端,还可以与其他CS或BS系统进行集成。此外,它还拥有强大的AQL分析引擎和一个高度直觉化、使用简单的用户界面,让开发者能从多种数据库里提取和清洗数据,建立强大、高效的应用,并能被移动用户和每天的终端用户修改后使用。
ECharts(Enterprise Charts)是商业级数据图表,一个纯ECMAScript的图表库,可以在PC和移动设备上流畅运行,兼容绝大部分浏览器,底层依赖轻量级的Canvas类库ZRender,提供直观、生动、可交互、可高度个性化定制的数据可视化图表。ECharts支持折线图(区域图)、柱状图、散点图(气泡图)、K线图、饼图(环形图)、雷达图、和弦图、力导向布局图、地图、仪表盘、漏斗图、事件河流图等12类图表,同时提供标题、详情气泡、图例、值域、数据区域、时间轴、工具箱等7个可交互组件,支持多图表、组件的联动和混搭。
HighCharts界面美观,使用ECMAScript编写,不需要像Flash和Java一样需要插件才可以运行。另外,它还具有很好的兼容性,能够完美支持大多数浏览器。作为纯JavaScript编写的图表库,能够直接为Web网站或Web应用程序添加交互性图表,并且免费供个人学习、个人网站和非商业用途使用。HighCharts支持的图表类型主要有曲线图、区域图、柱状图、饼状图、散状点图和综合图表等。
Python工具
Python 是一款开源的编程语言,利用大量的函数库高效的实现各种应用功能。Python 语言的特点是简单、高级、面向对象、可扩展性强、开源免费、可移植性强、函数库丰富、可嵌入性强,它为用户提供了丰富的绘图功能,主要可以通过 Tkinter 模 块、turtle 模块、Matplotlib 模块实现不同的数据可视化。 tkinter 模块用于绘制画布,其主要功能是在空白处建立大小可调的矩形区域作为画布,利用绘制函数在画布上绘制各种图形图像、文字、组件框架等实现数据可视化。turtle 模块本质也是调用 turtle 模块函数,通过代码实现数据可视化,turtle 模块创作出的可视化图可以动态的查看代码与海龟的交互,便于对可视化图表进行维护和修改。 Matplotlib 模块主要用于二维可视化图形的绘制,该模块通常与 Python 的数值计算模块 Numeric、Numarray 模块合作使用,并将复制 MATLIB 的函数实现高质量的二维可视化图形。
实际应用
生命科学领域
数据可视化在医学领域的应用,最为常见的当属三维图像可视化,其本身类属于生物医学图像处理技术,如 CT、PET 等,两者结合辅以可视化手段处理,可以帮助医生更为精准地定位病变体属性,包括大小、 形态以及空间位置等,并可分辨其与周围生物组织的关系,从而提升了诊疗效果。同时,数据可视化在生命科学领域的应用,还可模拟器官形态和病变情况,对于重大医疗项目,通过手术前的多次实验论证,最终得到最佳的解决方案,提升了医疗服务水平。此外,随着临床数据量明显增长,很多有用信息以零散的状态存储于异构临床信息系统当中,数据可视化的应用加持,实现了以患者为中心的数据组织模式转变,直观呈现给临床医师,有利于推动医疗卫生质量的精细化管理,包括医疗保险管理、经济学实时监控、医疗数据挖掘等,符合国家战略部署要求。
地理气象领域
地图本身作为一种历史悠久的地理信息可视化符号模型,在简单的线条勾勒下附上不同颜色色块进行区域划分,是最原始的可视化产物之一。基于数据可视化处理的地理信息, 可帮助人类进一步了解地球系统结构,如火山构造、运动情况、 环境污染等,为实现可持续发展战略目标提供了有力支持。数据可视化在气象信息处理方面的应用,可模拟天气情况进行实验,从而更为精准地预测气象变化,提高了人类生产生活安全性。在此基础上,以直观的方式对气象数据信息进行可视化表 达,将复杂抽象的数据转化为可读、形象的图形动画,达到了大众传播的目的,有利于增强受众对气象信息和科普知识的理解,服务属性攀升到了一个新的层次,满足了受众对气象信息专业化、高效 化的读取需求。
工业工程领域
从专业维度上讲,工业工程领域的数据可视化应用已然相当成熟。依托数据可视化在工业生产中的应用,实现了专业图纸化设计的“所见即所得”,通过建模、渲染等技术将抽象的符号转化为3D软件,辅助设计师表达,可更为精准地呈现零配件细节,大大降低了出错概率。除此之外,对于大型工程技术研究而言,需要在不同的工况下进行测试,耗费了大 量人力、物力、财力和时间,而基于数据可视化的模拟实验,则可将各类数据变化动态显示在屏幕上,为工程师计算提供了诸多便利, 以此来寻求最佳的问题解决方法。
金融商务领域
在信息大爆炸的新时代,数据可视化与数据仓库、数据挖掘等相关技术的组合, 生成了商业智能这个全新的生态领域,在金融领域, 可视化商业智能够将数据资源、成本控制、盈利分析、绩效指标、 风险管理等整合在一起,发挥内容丰富的报表功能,有着重要的决策参考价值。同时,数据可视化在一定程度上提升了企业领导层的决策反应速度,以更好适应 瞬息万变的市场经济环境,继而由此获得更高的经济产出收益,是现代企业管理变革的重要方向。
教育教学领域
数据可视化在教育教学领域的应用,支持学生更为直观地了解知识本身,并借助形象化的图表、图像,帮助其消化理解。同时,课堂数据可视化,还建构了教学关联的课堂数据,通过即时反馈、全局展示、动态累积等多举措并行的方式, 表征课堂动态,并由此发现问题,促进了教学改进的良性循环。在此过程中,基于数据可视化表达的方式,高度浓缩了学生动态关联数据信息,方便教师了解分析学生表现情况,继以输出个性化引导服务,在一定程度上促进了师生交互,导引更深层次的教学设计优化。未来,数据可视化在教育教学领域的应用,将释放出更大的可为空间,有利于促进师生双向素质发展。
安全管理方面
可视化的对象就是数据,它是整个可视化过程的基础。传统数据的采集可以通过抽样调查、模拟数据等方式,在专利数据进行可视化的过程中,通常使用爬行纲技术获取专利数据。数据采集的质量直接决定了最后呈现的可视化图形的精确度、准确度等特征。在景区的安全管理方面,景区通过建立旅游大数据平台,完善景区安全预警的设施设备,建立景区数据采集的可视化、智能化系统,实现对景区重点区域的客流量的自动监测,起到客流控制和时间段跟踪的作用。例如,江苏镇江借助“感知芯”技术,让游客通过手机终端进入景区,自动接收景区排队人数情况,并通过信息亭内的互动触摸屏让游客自助查询服务信息。
数据挖掘方面
数据挖掘是从大量的、复杂的、不规则的、随机的、模糊的数据中获取隐含的、有潜在价值的知识和信息的过程。可视化数据挖掘可看作是数据可视化和数据挖掘两个学科的融合,可以实现数据的可视化、数据挖掘结果的可视化、数据挖掘过程的可视化和交互式的可视化数据挖掘,用户从中可以看出数据源自的数据库或数据仓库,抽称的方式,数据清理、集成、预处理、挖掘的过程。在化学及制药行业,将可视化数据挖掘用于大量化学信息可以发现新的有用的化学成分;在遥感领域,利用每天从卫星上及其他方面来的海量数据,可视化数据挖掘能对气象预报、臭氧层监测等起很大的作用。
数据分析处理方面
可视化分析技术将不同的数据模型分解成两两相连的关联关系,运用关联分析、网络分析、路径分析、时序分析、空间分析、群集分析等图形分析方法来揭示数据中隐含的信息和关联,可以帮助办案人员将大量的、未知的、低关联性的、低价值的信息转化为少量的、易于理解的、高关联性的、高价值的可操作信息,有利于侦查调查工作的顺利开展。此外,图书馆利用数据分析与可视化技术对无序分散的数字资源进行处理和表示,让用户获取有序的、便于认知和可交互的高价值资源,改善用户的使用体验,提高知识服务能力。
挑战与前景
挑战
大数据时代,数据可视化日益受到关注,可视化技术也日益成熟。然而,数据可视化依然存在许多问题,且面临着巨大的挑战。具体包括以下几个方面:
(1)数据规模大,已超越单机、外存模型甚至小型计算集群处理能力的极限,需探索全新思路解决该问题。
(2)在数据采集工具与分析处理过程中,易产生数据质量问题,需特别关注数据的不确定性。
(3)数据快速动态变化,常以流式数据形式存在,需要寻找流式数据的实时分析与可视化方法。
(4)面临复杂的高维数据。当前的软件系统以统计和基本分析为主、分析能力不足。
(5)视觉噪声。在数据集中,大多数数据具有极强的相关性,无法将其分离作为独立的对象显示。
(6)大型图像感知。数据可视化不单单受限于设备的长度比及分辨率,也受限于现实世界的感受。
(7)高速图像变换。用户虽然能够观察数据,却不能对数据强度变化做出反应。
前景
互动式可视化正在成为数据可视化的标准媒介:随着地理信息数据的不断增长和普及,更多的数据可视化需要一个互动式的地图来全面讲述数据故事。互动式数据可视化,尤其是地图形式,提供了一个新的社交共享的优秀范式。人们可以基于来自社交平台和开源数据网站上可用的地理数据,快速搭建数据可视化地图。
协同可视化 :在可视化实现过程中,需要多团队协作完成,创造出协同可视化的环境(可视化接口设计、可视化协同平台开发、协同可视化视图设计、工作流管理等),进行工作站之间的数据资源共享,通过对可视化过程进行控制,解决多团队之间的协同性问题。
使用新的配色方案与色板弥补视觉缺陷:全世界有4.5%的人口是色盲,数据可视化设计师需要考虑搭建适合色盲人群的调色板,并将其与设计趋势相结合。
应用领域拓展化:数据可视化技术已经被应用到越来越多的领域,既促进了各个领域的发展,也为可视化技术自身发展和完善提供了良好环境,未来可视化的应用热点领域还包括统计可视化、新闻可视化、思维可视化、社交网络可视化和搜索日志可视化等。
参考资料
..2023-08-19
..2023-08-19
..2023-08-19
..2023-08-15
目录
概述
概述
历史发展
初始时期
探索时期
飞速发展
低潮期
新的黄金时期
新的发展契机
理论基础
数据可视化的图表介绍
基本图表
传统图表
新型图表
数据可视化的主要技术
多维数据可视化
时间序列数据可视化
网络数据可视化
基于层次的可视化技术
主要的数据可视化软件
实际应用
生命科学领域
地理气象领域
工业工程领域
金融商务领域
教育教学领域
安全管理方面
数据挖掘方面
数据分析处理方面
挑战与前景
参考资料