〈导语〉
大数据分析工程师除了要知道如何处理数据、进行分析,对于分析的结果进行可视化呈现也是必备的技能。本文就来介绍一下可视化分析平台-Tableau。
可视化的重要性
想象一下你辛辛苦苦做了一堆分析,得出来的数据却没有人看得懂,你该怎么办?
这个时候你需要借助可视化来展示你的结果,俗话说,有图有真相,一图胜千言。数据可视化主要旨在借助于图形化手段,清晰有效地传达信息,同样的结果不同的展现方式给人不同的信息体验。
决策者需要的是快速直观准确读懂数据中蕴含的信息 ,所以这些数据不能只是一堆结果数据,要通过科学的可视化展示出来让决策者直观的通过可视化了解这些数据背后的含义。
本文的主要目标
1)认识Tableau可视化软件
2)简单使用Tableau Desktop软件
3)如何学习Tableau
4)了解下其他可视化工具
本文的讲解思路
本文围绕Tableau可视化工具进行讲解,通过介绍Tableau的功能和使用让读者对Tableau有初步的认识,同时给出了Tableau的学习指南,最后介绍了其他的可视化工具。
×××
以下为正文
Tableau简介
1.1为什么是Tableau
作为一款商业数据分析可视化工具,Tableau 已连续 7 年稳居“Gartner 商业智能和分析平台魔力象限”领导者!2019年6月10日,Salesforce以天价157亿美元收购Tableau,创云营销平台历史上最大收购事件。
简单的来说,Tableau是一款可以帮助人们快速分析、可视化并分享数据信息的工具。
它将数据运算和图表展示完美结合起来,不需要编码基础,软件非常容易上手,通过简单的拖拽去制作精美的图表,这样一款工具深受数据分析师和商业分析师的青睐。
1.2Tabeau的优点
非常全的数据连接支持
简便地无编码拖拽式操作
开箱即用,快速制图
内置美观的可视化图表,不用考虑配色,格式
强大的权限管理
方便易用的数据订阅服务
1.3Tableau套件
Tableau Prep Builder
Tableau Prep Builder 是 Tableau 产品套件中的一个新工具,使用 Tableau Prep Builder 来合并、调整和清理数据,以便在 Tableau 中进行分析。
Tableau Desktop
Tableau Desktop 是Tableau 套件中负责制作可视化视图的工具,连接所需数据源后,通过拖拽的方式构建所需的可视化视图,发布到Tableau Online或者Tableau Server上。
Tableau Online
Tableau Online 是完全托管在云端的分析平台。发布仪表板并与任何人共享自己的发现。所有内容均可通过浏览器轻松访问,还可借助移动应用随时随地进行查看。这样既获得 Server 的共享和协作功能,又不需要真正管理服务器,无需维护任何硬件。
Tableau Server
Tableau Server轻松跟踪和管理内容、用户、许可证和性能。快速管理数据源和内容的权限,直观监视使用情况。随时可以进行纵向、横向扩展。可以部署到本地或者私有云上。
Tableau必知
2.1数据源
1)支持多种类型数据
Tableau支持连接到存储在各个地方的各种数据。可以是存储在计算机上的电子表格或文本文件中,或存储在企业内服务器上的大数据、关系或多维数据集(多维度)数据库中,也可以连接到 Web 上提供的公共域数据,如美国人口普查局信息,或连接到云数据库源,如 Google Analytics、Amazon Redshift 或 Salesforce。
2)连接方式
支持实时连接和数据提取。实时连接每次打开视图都会去服务器捞取数据,适合数据量小,即席查询速度快的数据源;而数据提取是将数据拉取到本地或者Tableau Server服务器中,这样每次打开视图就会从本地或者Tableau Server服务器中去捞取数据,对原始的数据服务器不会产生压力。
2.2视图
1)什么是视图
能够展示数据的图都可以称做视图,Tableau中的视图有三种形式-工作表、仪表板和故事,其中仪表板由工作表组成,故事可由工作表和仪表板组成-类似PPT形式,工作表是最基本的视图,这三种都可以进行分享和发布。下图依次表示工作表、仪表板、故事的标识。保存视图的文件叫做工作簿。
2)可以做哪些图
除了这些内置的图表类型,Tableau还支持生成其他复杂的图表,下面自行感受下吧。
2.3工作区
制作可视化视图的界面,叫做Tableau工作区,这里是一切精美视图的工厂,必须了解它的全部功能和含义,下图是工作区的图示,具体位置的含义见下方的说明。
A. 工作簿名称 – 工作簿包含工作表,后者可以是工作表、仪表板或故事。
B. 卡和功能区 – 将字段拖到工作区中的卡和功能区,以将数据添加到视图中。
C. 工具栏 – 使用工具栏访问命令以及分析和导航工具。
D. 可视化区 – 显示可视化图表区域。
E. 单击此图标转到“开始”页面,可以在其中连接到数据。
F. 侧栏 – 侧栏区域包含“数据”窗格和“分析”窗格。
G. 单击此选项卡可转到“数据源”页面并查看数据。
H. 状态栏 – 显示有关当前视图的信息。
I. 工作表标签 – 标签表示工作簿中的每个工作表。这可能包括工作表、仪表板和故事。
2.4维度和度量
1)维度包含定量值(例如名称、日期或地理数据)。可以使用维度进行分类、分段以及揭示数据中的详细信息。维度影响视图中的详细级别。
2)度量包含可以测量的数字定量值。度量可以聚合。将度量拖到视图中时,Tableau(默认情况下)会向该度量应用一个聚合。
维度和度量可以在工作区的数据窗格中查看,维度和度量可以相互转换。
2.5度量颜色
Tableau 在视图中以不同的方式表示数据,具体取决于字段是离散字段(蓝色)还是连续字段(绿色)。连续和离散是数学术语。连续意指“构成一个不间断的整体,没有中断”;离散意指“各自分离且不同”。
绿色度量
和维度
是连续的。连续字段值被视为无限范围。通常,连续字段会向视图中添加轴。
蓝色度量
和维度
是离散的。离散值被视为有限。通常,离散字段会向视图中添加标题。
2.6数据类型
数据源中的每个字段都具有一种数据类型。数据类型反映了该字段中存储的信息的种类,例如整数 (410)、日期 (1/23/2015) 和字符串(“Wisconsin”)。字段的数据类型在“数据”窗格中由以下所示图标之一来标识。
2.7筛选器
筛选器的作用就是对数据做过滤操作,分为数据源筛选器和视图筛选器。
1)数据源筛选器
在连接数据源的时候可以对数据源增加筛选操作。
2)视图筛选器
视图筛选器顾名思义是在制作视图的时候进行筛选操作,它的位置在工作区的功能区域中。
2.8标记卡
标记卡在视图构建的使用频率是最高的,因为它可以调整视图的图表类型、颜色、大小、标签、提示文字,下面重点说明下常用的图表类型、颜色、大小这三个功能。
1)图表类型
通过下拉菜单可以切换12种基本的图表类型。
2)颜色卡片
将维度或者度量拖到颜色卡片中,可以根据维度和度量的信息显示不同的颜色,默认一套颜色,也可以进行调整。
3)大小
2.9共享数据和视图
1)共享数据
向其他 Tableau Desktop 用户提供数据源时,可以将其发布到 Tableau Server 或 Tableau Online。如果数据源在 Tableau Server 或 Tableau Online 的工作簿中,则可以通过保存数据源来提供数据源,前提是它是嵌入式 Excel 或文本文件。
2)共享视图
可以将视图发布到 Tableau Server 或 Tableau Online,以与其他成员共享视图。发布之后,可通过 Web 浏览器或 Tableau 移动应用访问内容。
2.10权限管理
Tableau Server有一套完整的站点权限管理机制,可以设置用户和用户组可以访问的站点、项目、工作簿、视图、数据源,不同用户有相应的角色,不同角色对应不同的权限,也可以自定义权限。
1)站点角色
在Tableau Server中用户在新建的时候都会赋予一种站点角色,不同的角色默认权限不同,支持自定义权限。
如上图所示,站点角色包括站点管理员、发布者、交互者、查看者、未许可,其中站点管理员具备所有的权限,而未许可无任何权限,其他角色的权限,请看下图:
2.11定时调度
定时调度也就是定时启动一个任务去执行相应的操作,目前可以支持数据刷新和邮件订阅
1)数据刷新
可以为发布的数据提取数据源或连接到该数据提取的已发布工作簿计划刷新任务,支持全量刷新和增量刷新。
2)邮件通知
通过邮件的方式去查看相应的报表数据,是一个很普遍的需求,可以在相应的视图中去进行邮件订阅,然后选择相应的调度时间,就完成了邮件订阅;另外一种邮件通知是用在邮件告警上,当视图中的某个度量的值满足相应的条件(过高、过低或者达到一个特殊值)就发送邮件通知。
小试牛刀
目的:分析下不同省份的销售额及不同产品类型的销售额
通过Tableau Desktop制作一个在地图上显示饼图,根据每个省的销售额显示饼图的大小,饼图内部由各类别组成,可以一眼看出哪个省份的销售额最高及哪种产品的销售额最高。
这里的数据源采用Tableau Desktop自带的超市数据。
3.1连接数据源
连接Tableau自带的示例数据,选择订单表。
3.2生成地图
更改省份的地理角色为省/市/自治区,双击省份,这将在行和列上自动生成经度和纬度。将省份拖到标签,显示每个省的标签。
3.3生成饼图
将销售额字段拖到大小标记卡上,并调整显示圆的大小比例。
将类别字段拖到颜色标记卡上,并将标记卡的类型改为饼图。
这样一份完整的视图就完成了,简单而又清晰的表达出各省的销售额情况。
学习指南
Tableau如何学习其实是一个范围很大的问题,本文所介绍的只是一点皮毛,让读者对Tableau有一个初步的认识,想要熟练的在工作中使用最有效的方法是将官方的文档实际操作一遍,Tableau的官方文档从入门到精通有详细的进阶教程。
4.1官方培训视频
网址:
http://www.tableau.com/zh-cn/learn/training
从中可以学到:
工具界面操作
文件的发布和共享
连接数据库、连接文本数据、发布数据源、数据提取、数据关联等
分组、集、数据桶、参数、排序、参考线、趋势线、筛选器、预测等
创建仪表板和故事
一般常用图形绘制及地图绘制
计算字段以及LOD表达式(“超越视图级别” 详细级别表达式)
格式调整与布局
4.2帮助手册
比视频更详细的手册,可下载相应版本PDF。
https://www.tableau.com/zh-cn/support/help
4.3达人作品
https://public.tableau.com/
Tableau Public 这里聚集了世界各地的 Tableau 粉丝,他们通过 Public 分享自己的 Viz 作品。在 Gallery 版块上每天都会有精选 Viz 发布,并且每篇 Viz 都能够下载,供大家学习。
通过研究大神们的作品,模仿并加以创新,创造出更棒的作品。Tableau Public上的 blog 版块也是寻找资料的入口。里面的文章推送,不仅包括优秀 Viz 的展示,更有作品背后故事的讲述,很多还会有具体教程的干货分享。
还有哪些可视化工具
5.1零编码类
1)在线处理类
这一类工具导入数据后,对数据的可视化处理均在线上完成,结果可以下载保存、内嵌网站或者分享到社交网站上。
RAWGraphs
ChartBlocks
ChartBlocks 是英国的一家公司开发的制作统计图表的线上工具,它无法取代专业的Excel等办公软体但是可以专注于帮我们线上快速简单制作出漂亮的统计图表,运用到简报、网页或报告文件中。
Visme
Visme平台提供数以百万计的免费图片资源,各种漂亮的字体支持,数以千计的免费矢量素材可以选择,针对个人有免费版。
Grow
Grow 提供了一个极简、且高度个性化的数据分析平台,能够从多个数据源中挖掘、提取数据,并实时更新,Grow还支持从150多个数据源导入数据。
Infogram
InFogram是一款支持在线制作响应式资讯图表设计的工具,用户通过简单的拖拽功能组合各种图表样式完成精美的可视化图表,它还支持根据显示器屏幕的大小自动调整适合的阅读效果。可以使用Infogram的免费模板创建信息图、图表和地图,可以下载生成后的图表,或将这些图表嵌入到网站中。Infogram除了免费的基础版本外,还提供专业版本、企业版本等。类似的工具还有Visual.ly。
2)平台类
这一类一般为可视化提供一套完整的解决方案,包括数据的读入、可视化的制作、可视化的发布及各种权限设置,Tableau也属于这一种。
PowerBI
Power BI是微软旗下的商业分析工具,可以很好地集成微软的Office办公软件,可惜的是只支持Windows系统,用户可以自由导入任何数据,如文件、文件夹和数据库,并且可以使用Power BI软件、网页、手机应用来查看数据。Power BI对个人用户是免费的。
QlikView
QlikView是一个完整的商业分析软件,使开发者和分析者能够构建和部署强大的分析应用。QlikView应用使各种各样的终端用户以一个高度可视化,功能强大和创造性的方式,互动分析重要业务信息。
Sugar
Sugar是百度云推出的数据可视化服务平台,目标是解决报表和大屏的数据可视化问题,解放数据可视化系统的开发人力。Sugar提供界面优美、体验良好的交互设计,通过拖拽图表组件可实现5分钟搭建数据可视化页面。
平台支持直连多种数据源(MySQL、SQL Server、PostgreSQL、Oracle、GreenPlum、Baidu Palo等),还可以通过API、静态JSON方式绑定可视化图表的数据,简单灵活。大屏与报表的图表数据源可以复用,用户可以方便地为同一套数据搭建不同的展示形式。
DATAV
DataV旨让更多的人看到数据可视化的魅力,帮助非专业的工程师通过图形化的界面轻松搭建专业水准的可视化应用,满足您会议展览、业务监控、风险预警、地理信息分析等多种业务的展示需求。
支持的数据类型如下:
5.2编码类
这一类的工具大多是JavaScript库,需要一定的代码基础。
1)ECharts
ECharts,使用 JavaScript 实现的开源可视化库,可以流畅的运行在 PC 和移动设备上,兼容当前绝大部分浏览器(IE8/9/10/11,Chrome,Firefox,Safari等),底层依赖轻量级的矢量图形库 ZRender,提供直观,交互丰富,可高度个性化定制的数据可视化图表。
2)D3.js
D3.js是开源的数据可视化JavaScript函数库,被认为是很好的JavaScript可视化框架之一。开发者刚开始学习D3.js时会感到很复杂,但是D3.js功能强大,非常灵活,值得开发者深入学习研究。注意D3.js无法在较低版本的IE浏览器中正常显示图形。
类似的开源库还有:
Chart.js:它为设计人员和开发人员提供8个可定制的动态可视化展现方式,用HTML5 Canvas高效地绘制响应式图表;
Ember Charts:它专注于图形交互,可以绘制很多种图表,包括时间序列图表,有很强的错误处理能力,当遇到错误数据时,系统也不会崩溃;
Chartist.js:它可以创建复杂的响应式图表,配置简单,代码简洁,还支持自定义SASS架构;
Highcharts:它的兼容性比D3.js更好,在现代浏览器中使用矢量图,在低版本的IE浏览器中使用VML来绘制图形,所以它可以在所有移动设备和电脑浏览器上使用。
3)Plotly
Plotly是一个功能强大的数据可视化框架,可以构建交互式图形和创建丰富多样的图表和地图。Plotly可以提供比较少见的图表,比如等高线图、烛台图(K线图)和3D图表,而大多数工具都没有这些图表。它所支持的语言不只是JavaScript,还支持诸如R,Matlab,Python等语言。
plotly绘制的图能直接在jupyter中查看,也能保存为离线网页,或者保存在plot.ly云端服务器内,以便在线查看。
总结
本文通过对Tableau可视化工具的介绍,让读者了解到这样一款可以快速上手的的可视化工具,作为大数据分析工程师必备技能的补充。
最后希望读者按照学习指南实际操作学习一下,它真的可以帮到你。
-end-