1.1 主数据规划与方法论
主数据建设首先是标准化的规划,规划就需要有方法论支撑。主数据方法论一般按照下图步骤:
1.方案制定
需求调研与分析
主数据范围与标准制定主数据服务规范制定
主数据集成方案制定
2.平台建设
搭建主数据平台
数据清洗初始化
主数据服务发布
3.集成改造
系统改造方案
系统对接
系统调试
4.系统扩展
主数据范围扩大
新系统加入
主数据信息资源规划强调将需求分析与系统建模紧密结合,需求分析是系统建模的基础,而业务调研又是需求分析的前提。在进行规划的时候,首先要根据业务工作内容(而不是按照现行的部门)划分出一些“职能域”;然后由业务人员和分析人员组成的一些小组,分别对各个职能域进行业务数据的调研分析,进而建立主数据信息标准和管理流程,作为整个系统建设的基础。在做业务分析时,要注意识别主要的业务过程和核心数据,研究新的管理模式,即与管理创新相结合。在做数据分析时,要调研分析职能域之间、职能域内部间的数据流向,只有这样细致的调研分析,才能进行科学的综合,获取相应的模型。
模型驱动的主数据规划方法,可以概括为:两条主线、三种模型、一套标准、三个阶段。
两条主线:以业务和数据为主线,分别进行业务梳理、优化、数据分析、建模工作。业务主线强调的是职能域和业务域的划分,并以此对数据主线的分析工作进行分类。
三种模型:在系统建模阶段完成功能模型、信息模型和关联模型的建模,模型是用户需求的综合反映和规范化表达。
一套标准:即主数据信息资源标准,包括主数据的元数据定义标准、分类标准、编码规范、管理流程、共享服务标准等。
三个阶段:即基于业务主线的应用调研和业务分析阶段、基于数据主线的标准制定阶段、基于三种模型基础上的系统实施规划阶段。
1.1.1主数据标准化确定
工作目标:信息资源分类编码作为一类重要的数据资源,在信息化建设中具有重要的地位和作用,是保证现有信息系统和未来新系统建设成功的关键因素,决定着系统中的信息一致性。
分类编码原则:分类采用信息用途与业务主题相结合的分类方法,使分类体系具有业务主题的直接性和信息用途的系统性。
主数据类别的选取标准为,需要多个系统使用的,并对于系统展现效果或BI经营分析的准确度产生影响的数据列表。
主数据属性的选择标准为,根据类别实体的使用特征,选择能够确定唯一一个数据实体的属性作为唯一性属性;选择唯一性属性之外的,对实体特征进行扩展性描述的属性作为共享分类属性。
系统通过唯一性属性定位数据记录,并完成编码的分配。
本项目的信息分类将遵循下面的原则:
实用性原则:从建筑业务特点出发,在保证分类系统的科学性、逻辑性的同时,将一些建筑施工业务涉及的公共信息跨越业务逻辑层次,作为公用基础信息大类列出,以期达到重点突出、降低分类难度和分类设置相对平衡的目的。
稳定性原则:在进行信息分类过程中,充分考虑到未来信息变化可能影响到信息分类结构以及编码结构的可变因素,建立的分类体系和编码结构不受新增信息的分类编码影响,以保证分类及编码具有稳定性。
可扩展性原则:考虑到航天科技庞大的业务体系,各个单位在信息分类粗细等方面存在一定的差异,本项目中分类标准在信息分类类目扩展上预留充足的空间,以保证出现新增信息时,不打乱已经建立的分类体系。
分类编码方法:在对航天科技主数据规划过程中,要依据上述原则建立企业的信息分类编码标准。可以按照A、B、C三类编码对象来建立企业信息分类编码标准。
A类编码对象:这类编码对象具有一定的分类方法和编码规则,其码表内容一般随信息的增加而逐步扩充,很难一次编完。这类编码对象一般在具体的应用系统中有较多的使用,如身份证号码、客户编码、员工编码、物资编码等。
B类编码对象:这类编码码表内容具有相对的稳定性,可以组织力量一次编完。这类码表数量一般都较大,往往被多个应用系统共享,作为单独的库表管理是方便的,如国家行政区划、职称编码、生产统计项目编码等。
C类编码对象:在应用系统中有一些码表短而使用频率很大的编码对象,如人性别代码、文化程度代码、婚姻状况代码等,把这类对象统一设在一个编码库管理就可以了。
工作内容:本项目中将重点规划A类编码对象,因其贯穿于航天科技主要业务价值链中,随着业务变化而扩展,同时具有很强的流程特性,未来的主要数据分析将依据此类对象。
示例及模板:采用层次分类法,来描述具体的编码结构,如下图所示:
1.1.2 主数据流程梳理
工作目标:结合现有的组织架构和业务职能分工,分析现有主数据管理流程的不足之处,提出优化改进方案。
流程优化原则:
要从主数据管理的目标而非工作的过程出发,定义岗位职责;
让使用流程输出结果的人来执行流程;
将地理上分散的资源视为集中的资源来处理;
对并行活动进行连接,而不是仅仅集成其结果;
将决策点下放到基层单位活动中,并对执行过程进行控制;
尽量在信息产生的源头,一次性获取信息,并保持信息的一致性。
管理流程梳理优化方法与步骤:
主数据管理流程优化的最终目的应该是为了提升客户在价值链上的价值分配,是为了以一种新的方式为客户提供价值增加,并提升这种价值增加的程度,反映到具体的流程设计上,就是利用ESIA的原则来尽可能减少流程中非增值活动以及调整流程的核心增值活动,解决流程问题。ESIA的具体含义如下:
E-Eliminate,清除,即清除流程中非增值部分;
S-Simplify,简化,即简化流程,使流程得到改进;
I- Integrate,整合,即对企业流程进行整合,提升效率;
A- Automate,自动化,即通过自动化手段执行流程,提升效率。
1.1.3 主数据服务规范
工作目标:为了实现航天科技各级单位间的人员信息、组织信息、物资信息、项目信息等主要数据的共享使用,制定一套数据的交换标准。
工作内容:结合上述的分类编码规范以及流程规范,遵循业界标准的XML、WebService标准,定义各类主数据的数据传输格式、服务接口命名、接口参数、接口描述等。
主数据服务,大多情况下,需具备下面几点:
主数据查询服务:用于根据主数据编码查询主数据信息。
主数据通知服务:主数据接收通知方法,企业服务总线调用该方法来通知接收系统。
示例及模板:可以参考下面的图表
服务列表
主数据同步服务方法列表
主数据查询服务方法列表
主数据推送服务方法列表
主数据通知服务方法列表
增加主数据方法
服务名称:
MdSyncService
方法名称:
增加主数据信息(AddMdmInfo)
方法描述:
增加主数据信息。
该方法会处理多种类型的主数据,所有非主数据系统直接维护的主数据,都需要调用该方法来创建主数据。
发布方:
主数据系统
调用方:
输入:
输出:
企业服务总线服务规范错误代码表
1.1.4 主数据数据清洗规范
工作目标:制定一套相关系统的基础数据的汇总整理排重纠错的方案,保证主数据平台的初始化数据的准确性和权威性。
工作方法:数据清理是将数据库精简以除去重复记录,并使剩余部分转换成标准可接收格式的过程,从数据的准确性、完整性、一致性、惟一性、适时性、有效性几个方面来处理数据的丢失值、越界值、不一致代码、重复数据等问题。
数据清理一般针对具体应用,因而难以归纳统一的方法和步骤,但是根据数据不同可以给出相应的数据清理方法。
1.解决不完整数据(即值缺失)的方法
大多数情况下,缺失的值必须手工填入(即手工清理)。当然,某些缺失值可以从本数据源或其它数据源推导出来,这就可以用平均值、最大值、最小值或更为复杂的概率估计代替缺失的值,从而达到清理的目的。
2.错误值的检测及解决方法
用统计分析的方法识别可能的错误值或异常值,如偏差分析、识别不遵守分布或回归方程的值,也可以用简单规则库(常识性规则、业务特定规则等)检查数据值,或使用不同属性间的约束、外部的数据来检测和清理数据。
3.重复记录的检测及消除方法
数据库中属性值相同的记录被认为是重复记录,通过判断记录间的属性值是否相等来检测记录是否相等,相等的记录合并为一条记录(即合并/清除)。合并/清除是消重的基本方法。
4.不一致性(数据源内部及数据源之间)的检测及解决方法
从多数据源集成的数据可能有语义冲突,可定义完整性约束用于检测不一致性,也可通过分析数据发现联系,从而使得数据保持一致。
常用的数据清理规则如下:
数据查重规则:选定查重字段、选定字段匹配度定义、字段权重;定义阀值(重复阀值、疑似阀值)。
数据校验规则定义:选定校验字段、校验准则(非空、正确性)。
历史数据清洗规则主要确定数据清洗对应的查重规则、校验规则以及方案执行时间、清洗数据的范围、制定结果的处理人等信息。如下图:
示例及模板
数据清洗工作流程图
数据清洗步骤描述:
组织讨论数据清理方案=>根据讨论的结果结合主数据系统填报规范进行数据清理=>提交清理的结果;
主数据项目组根据提交的数据进行匹配。匹配原则如下:
1、生产商、经销商数据按照名称与主数据系统数据进行匹配,能匹配上导出主数据数据,格式按照XX公司的格式,匹配不上的在原表中标注;
2、仪器设备按照通用名与厂家进行匹配,能匹配上导出主数据数据,格式按照XX公司的格式,匹配不上的在原表中标注;
3、工程机械类数据暂不处理;
4、其他类数据按照唯一性进行匹配,能匹配上导出主数据数据,格式按照XX公司的格式,匹配不上的在原表中标注;
5、匹配后的结果反馈XX公司进行核对;
6、数据排重导入。
数据清洗工具及效果描述:
对于数据校验规则的服务形式调用结果,提交一组数据后,将不符合数据校验规则的数据单独列出,可供前台系统进行提示及后续处理。
对于数据查重规则的服务形式调用结果,提交单条或多条记录后,将提交的记录与背景数据基于查重规则进行模糊比对,返回疑似记录,供前台系统进行提示及后续处理.
以任务形式提供的对于数据排重的检验结果。对于指定的数据集进行筛选,将其中疑似相近的记录以任务的形式进行提交。供前台系统进行提示以及后续处理。
1.1.5 主数据应用考核办法
为了进一步保障主数据管理平台成功实施和有效运行,必须做到组织、职能、责任、人员的四落实。制定涉及到主数据管理的各个环节、组织、人员的一套绩效考核办法,明确各组织部门的职责与分工。
主要从三个方面来进行绩效考核:
1.申报数据的及时性、准确性和完整性
考核对象:申报单位和相关人员
考核办法:根据各类编码申报所需要填写的信息项以及录入规则,按照规则进行申报操作,各主数据唯一性的分类属性,必须录入完整和准确。系统将会自动记录因数据录入不完整、不准确而导致修改的过程,可以定期列出申报人员操作质量报表。
2.新增及变更的审批及时性
考核对象:主数据审批人员
考核办法:主数据编码按不同大类划分,分别由相关主管部门负责审核,系统将会自动记录每个主数据审核的全部过程,包括总体时间,每个环节的时间,处理人等信息。相关部门定期抽查这些审批过程,包括申报编码的数量及时性以及数据准确性、完整性,定期从信息系统中取得审批时效分析表,可以对审批时效进行分析排名。
3.下载使用及时性
考核对象:各下属相关部门
考核办法:要求各信息系统嵌入主数据编码,为单位间协调业务应用以及BI分析做好基础准备。要求各信息系统提供数据检查的查询服务,总部信息部门可以定期通过BI系统从信息系统数据中抽取项目、人员等基础数据与主数据编码的数据集,并形成下载使用及时性分析报表。
示例及模板:可以参考下面的图例来表达主数据管理的考核方法。
1.1.6 主数据系统接入规范
工作目标:制定一套针对相关业务系统与主数据平台的对接方案,以便在后续的系统建设、系统集成过程中有章可循。
工作方法:首先确定系统间接口方式。主数据平台采用主数据(企业服务总线)方式对外发布服务组件,因此与各业务系统的数据交互也遵循这一方式。企业服务总线针对当前服务列表的所有服务,提供Webservice调用方式。服务的指定实现厂商原则上也需要使用Webservice或API数据服务实现。确定接口方式后,再明确对接的系统交互流程,可以时序图的方式进行表达。时序图中,标出发起者、响应者、传递的参数、返回的数据格式、其他备注信息等。流程确定后,还需要考虑接入的安全问题,即如何识别被接入的系统、如何确保数据的完整性和真实性、加密方式、密钥交换方式等。
上述接入方案确定后,在遵循主数据服务标准、接入流程、安全规范等基础上,再与相关厂商商讨各自系统的改造方案,形成完整的系统接入改造方案。
示例及模板:可用下图的方式来表达系统接入流程。
1.2 主数据项目需要注意问题
1.2.1 项目组织保证
主数据和一个业务系统实施不一样,它是一个覆盖全部部门和系统的工作,是所有项目和数据的基础,需要协调的部门和厂家很多。项目组需要公司高层直接带队,信息部门牵头组织,所有部门共同参与,不同的主数据会有不同的职责部门,相关的主数据标准和流程必须是职责部门最终确定,同时,主数据是基础性工作,不是业务部门之间需求,主数据对单个部门可能暂时看不出,对主数据必要性认识也不够,业务部门积极性不高,所以没有强有力的推进,项目进展会很艰难。
1.2.2 数据范围确定
一个企业主数据会有很多,如果一次把所有主数据都管起来,工作量会很大,周期会很长,通常主数据会分2-3年去完成,并持续优化。这时候,主数据范围确定就很重要,给每个主数据排个优先级,企业最需要统一的、标准化程度高,基础好的、数据一致性好的、数据量可控的都是排序依据,最终根据优先级,我们分布建设主数据,这样可按期看到阶段性效果,便于项目推进。
1.2.3 系统集成
主数据如果不和系统集成,那么也是一个数据孤岛,解决不了数据质量问题,很多企业都整理过数据标准,但大多最终流于形式。所以,主数据需要个所有系统进行对接。但是每个系统复杂性不一样,改造难度不一样,并不是每个系统都要按照一个标准去集成,同时,主数据对未来新建系统可以直接进行规范,对新数据可以直接规范,如果集成困难而不敢建立主数据系统,那么5年后,10年后,新建的系统同样面临现在的问题。
所以根据各系统情况不一,制定不同的集成方案,比如历史数据各自如何清理、数据对照在哪里做、数据是主动推送还是订阅方式,通过多种集成方式,最终逐渐解决企业系统间的数据不一致问题。
【回复关键字主数据可查询相关文档约20个】
您可能也喜欢
信息化建设与主数据管理
企业主数据的管理和实施
CIO:主数据管理那些事儿
CIO:主数据管理(MDM)的一些概念
CIO:主数据管理(MDM)知多少
推荐文档
(长按扫描图中二维码 或回复代码即可获取文档)
2208471331 喻继鹏 数据中台之主数据建设