对于做数据分析,数据源规范,则事半功倍;数据源不规范,则事倍功半。
要提升自己的Excel技能或者进阶分析技能,你必须要懂得一些数据规范的知识,因为这会让你少走弯路,避免走火入魔。。。
什么是规范的数据源
对于企业日常的经营分析,最合适我们使用的数据源应该是结构化的数据,比如以下的数据库表结构:
左侧蓝色块是销售相关的数据表,右侧红色块的是商品相关的数据表。一个框框就代表具体的一个数据表,例如customers就是客户表,orders就是订单表,stores就是门店表,order_items就是订单明细表等。由于大型系统的数据库都会习惯使用英文,以便在编程时避免编码问题,编写也会更方便。
表和表之间的连线,意味着表之间是存在着关系的,这种关系,Excel用户可以暂且理解为两表之间是可以通过vlookup进行合并的。比如在orders表中,可以通过store_id字段把stores表的字段vlookup过来orders表中,这也是我们很多朋友用透视表分析前的高频操作。
最容易搞混淆的两种表
上面简介的是关于企业整体的数据结构,但当遇到同属于结构化数据的时候,很多人都搞不清楚以下哪张才是单表最规范的数据源表格式?
是它 ↓ ?
还是它 ↓ ?
给你 5 秒钟思考
1
2
3
4
5
答案是图2。
因为在数据表的设计上,每个数据字段应该是尽量地精简唯一的,在图1中,你的字段名会有2021/2/1,2021/2/2,2021/2/3 …… ,这些日期是具体的值,是不适合直接作为字段名称的,而应该合并作为日期字段,就是图2显示的这种结构了。
为什么是图 2
很多人可能会觉得,为什么会是 图2 呢?明明 图1 看起来更舒服呀!
图1 的确更适合人类阅读,而 图2 则更适合计算机去处理!
数据处理的很多技能,都是更适合用来处理 图2 的数据,例如函数中的sumifs,countifs,averageifs等,或者是透视表的数据源,SQL查询的数据源,PBI的数据模型等等。
如果你要提升分析工具技能,这些才是正道,若使用 图1 作为数据源,容易走上歪道,吃力不讨好。
还有一个思想,每个数据分析的人员必须要具备,就是分清楚数据源、报表,你是基于某个数据源,去生产出某个报表。为什么人更喜欢 图1 ,就是因为 图1 是很常见的报表形式,确实很适合我们去进行交叉分析。但我们不能因此而使用 图1 作为数据源,正确的思考方式是:
怎么根据数据源(图2)转化为报表(图1)?
然后你再去使用函数,透视表,SQL,BI工作都将会事半功倍!
图1 如何转成 图2
在很多人工数据源的场景,我们获得可能就是 图1 的数据源结构,那么怎么快速地把它转化为规范的 图2 这种数据结构呢?
这里常见的有二种办法:
透视表法
step1:依次按下Alt D P,调出旧版本的透视表向导功能,按下图进行选择
step2:下一步后,选择创建单页字段
step3:选择要转换的数据源区域,点添加然后点下一步,生成透视表
step4:双击右下角的单元格,即可转化成 图2 的规范数据源
双击后会显示如下结果:
然后取前3列,并调整下字段名称,即可完成转换。这种适用于所有Excel版本,甚至wps也可以使用该方法实现转换。
Power Query法
对于Excel 2016以上的版本,可以使用Power Query进行处理,点几下鼠标即可完成,非常高效。
总结
希望本文内容,能加深大家对数据规范,数据结构的理解。虽然我们Excel用户不需要了解太多数据库的知识,但稍有了解还是非常有必要的。这对于你的进阶学习,例如学习SQL,Power BI都会是很重要的基础知识。
点分享
点收藏