前言
数据清洗是数据标准化项目实施过程中非常重要的阶段,也是企业投入的人力物力最多、投入的时间最长且用户深度参与的阶段。如果说数据标准的制定是企业数据标准化的基础,那么数据清洗实际上就是对制定的数据标准是否科学合理的检验和完善过程,同时也是对制定的标准的宣贯过程,其重要性不言而喻。
以物料主数据为例,当我们制定完物料的分类标准、物料描述标准及物料编码规则后,接下来的阶段就需要把原业务系统中的物料编码及物料描述按新制定的物料分类及物料模板标准规则清洗到系统中,形成今后业务可以使用的物料主数据明细代码。下面从数据清洗概念、目标、意义、范围、数据清洗工具及适用条件、步骤及数据清洗中的注意事项等几个方面对物料数据清洗进行探讨。
1
数据清洗的概念
数据清洗是指主数据系统上线前,将各业务环节使用到的主数据(包括手工帐和业务系统中的)和计划将要使用的数据,按照新的主数据标准进行归类、有效性检验、查重、规范描述、转换、调整、删除等操作,最终形成符合标准的主数据代码库,并更新替换原业务数据的过程。
2
数据清洗的目标
数据清洗的目标最终形成符合新的分类标准和描述标准的物料数据代码库,实现各业务环节数据共享,实现企业主数据数出一源。
3
数据清洗的意义
数据清洗的意义可以用图中几个方面表示:
数据清洗是为了解决数据质量问题。除了上面所说的几个方面意义外,数据清洗在这几方面也有很重要的现实意义:
1、是对所制定的物料标准的宣贯过程
对物料分类标准的宣贯。参与数据清洗的人员一般都是企业经常接触并使用物料及物料编码的人员,在数据清洗过程中,数据清洗人员通过对每一个具体原物料按制定的新分类标准重新归类,更进一步强化了对物料分类标准的认识,如物料是如何分类的、为什么要这样归类、哪些物料应该归到什么类别,哪些物料不能归到什么类别,对归类可能模棱两可的物料是如何界定归类界限的,这些东西都可在数据清洗的过程中得到进一步巩固,也是对制定的物料分类标准的一个宣贯过程。
对物料模板标准的宣贯。通过对每一个具体原物料的数据清洗,知道了新制定的物料模板是如何通过描述规则对物料描述进行规范化描述和定义的。
2、数据清洗也是对物料分类标准和物料描述模板进行检验和完善的过程
制定的物料分类是否科学规范,是否满足企业实际需求,是否存在分类缺失,通过对原有系统库存物资和未结业务的数据清洗就能较全面的检验之。
制定的物料模板是否规范合理,模板中特征量取值是否准确,是否存在把本应分开填写的特征量值填写在一个特征量中,通过对原物料编码的清洗,能够对物料模板进行检验和进一步完善。
4
数据清洗的范围
库存和未结业务。数据清洗范围一般都是需对企业原有库存和未结业务进行清洗,也可把库存和未结业务中不存在但企业常用的物料根据制定物料标准而直接新增到系统中。
5
数据清洗工具及适用条件
数据清洗工具选择:考虑到各集团、各公司数据多样性和复杂性,如下三种工具,可根据实际需求选用:
下面分别对这三种工具进行说明。
工具1利用EXCEL表格进行清洗
适用条件:
适合同一类别待清洗的原始数据较多、且可使用同一物料模板进行数据清洗和批量导入的。对于数据标准化系统中有物料描述模板及取值的,批量清洗物料代码时最为常用;
工具2模板对照工具
适用条件:
工程材料编码与采购及生产使用的物料编码对照。设计院提供的物料表以工程材料编码作为标识,而企业无论在ERP、EC中的采购还是转资过程中都使用物料编码;
工程材料编码与物料编码不统一,造成设计成果无法直接应用于物资采购和生产企业工程管理,对物资供应需求计划管理、工程转资等带来不便。这在工程板块ERP实施工作中体现的尤为突出。
模板对照工具主要功能
模板对照工具的对照规则示例
编码对照结果查询
工具3利用清洗工具进行清洗
适用条件:
数据标准化系统中有涵盖物料类别比较广、数据质量比较高、数据量相对完整的物料标准代码库;
具有同名词库,并建立有对应的映射关系;如:老鼠夹=耗子夹,活接头=由壬或由任;
清洗业务人员成熟度高;
适用于同类企业推广使用。
由于清洗工具是利用物料描述的相似度进行匹配,所以清洗工具的算法也很重要,如物料名称是否占有权重、应占多大的权重合适,建立的同名词库及对应的映射关系是否齐全等等。
另外,清洗工具对清洗人员素质也有一定的要求。如要有一定的物资基础知识。待清洗的原始物料数据导入到清洗工具中后,虽然系统会自动按物料描述相似度百分比由高到低排出了物料匹配顺序,但也需要人工干预,在系统所显示的相似度中选择正确的物料分类和标准物料编码进行匹配确认。
相似度匹配示例:
如对原描述为三角带的物料编码进行清洗:系统自动给出匹配最高的是物料描述是:三角带A2489:
如果觉得匹配不对,可点击重新清洗,进入清洗页面,在与之匹配的物料信息行中点击右边的“匹配”按钮:
匹配完成后,回到物料代码清洗页面可以看到刚才待清洗的数据状态已经更新为已匹配代码:
6
数据清洗步骤
数据清洗步骤可以用如下图方式明了的表示:
数据收集时的要求
人员分工要求
一般按设立的物料专业组分工,把公司熟悉物料专业的人员分配到相应的专业组中。为保证数据质量,一般要求参与过物料分类标准、物料描述模板标准制定的人员尽可能也要参与物料清洗中。
每条待清洗的物料数据必须落实到人。待清洗数据的转入转出必须有记录。
物料组的设置不要太多,避免在物料清洗过程中,由于个别待清洗的物料类别界定不清,造成不同的物料组之间待清洗的数据转来转去,产生推诿、扯皮情况。
原始数据按公司分别收集,收集的信息要准确全面,一般需收集有库存和未结业务的数据。数据清洗过程是一个迭代清洗的过程,在数据清洗的过程中,原各业务系统又会产生新的库存和未结业务数据,第一批清洗完成后,需再次收集数据,对增量数据清洗迭代清洗。
原始数据清洗。数据清洗过程要严格按制定的物料分类和模板标准进行清洗,并要执行数据清洗中的注意事项。
新旧编码对照。对所有收集上来待清洗数据,在完成数据清洗后,必须建立新旧编码对照表。
7
数据清洗注意事项
物料名称要求
物料名称是物料描述中最主要特征量之一,名称描述要准确、规范;
凡有国家标准、行业标准的,使用标准名称;
能用小类名称作为物料名称的,不再使用其他名称;
没有标准名称、也不能用小类名称作为物料名称的,要尽可能采用准确、正规、通行的全称,避免使用简称、俗称、别名、音译名、外文名等。如:深沟球轴承,圆锥滚子轴承,液压缸接头,直通管接头,直角管接头等,清洗时应写物料全称,不能写简称。
物料清洗要尽量避免通用配件专用化
设备备件是指设备上使用的非标配件,不能把标准件、通用件的物料清洗到设备配件中。
关于规格型号
国家或行业有标准规定的标准化产品,应严格遵照标准执行,严禁按制造商自定义型号编码。也不可把本应分开填写的特征量值填写在一个特征量中。
对材质和常用符号的要求
要用已颁布的新牌号,不能用旧牌号,如“A3” 等,类似“20#钢”这样的材质,提报时要加“#”不写汉字“钢”。
材质作为物料的重要属性时,材质描述要规范,应填报标准的材质牌号(如Q235B、304、316L、Cr5Mo等),尽量不要用中文表示,如用铸钢、碳钢、不锈钢等模糊描述。
使用国外标准描述物料材质时,统一使用美标标准的描述方法,例如:SUS304、TP304、304SS等,统一描述为304。
注意区分大小写字母,如用“Al”、“Cr”、“Gr”,不能写成“AL”、“CR”、“GR”等。
非金属材质采用材质代号描述,杜绝材质代号和材质名称同时存在的现象。如材质为橡胶的材质代号为NBR,材质只能写:NBR。不能写成:橡胶NBR。
提报两种以上的材质时用“+”连接。
描述中不能使用的集中符号,如“*”、“?”、 “|”、“,”、“&”。
所有字符均使用半角字符;中、西文的单引号和双引号尽量不使用。
所有乘号都统一用“×”,不能用“*” 、“X”或“x”等。
除螺纹钢直径使用“Ψ”外,其他使用的直径统一用“Φ”,不能用“φ”、“∮”、“Ψ”、“ф”等。
公称压力、公称直径(通径)的描述方法分别是PN、DN,不用Pg、Dg,注意:PN对应的KG/cm2,而不是Mpa。
也不能把“m2、m3”写成“m2 、M2或m3 、M3”。
标准填写要求。所有物料描述所用的标准号一律去掉年号,以最新的版本为主,标准号字母与数字间用空格连接。
对品牌和产地的要求
品牌主要针对民用产品。有些民用产品品牌众所周知,可以取代制造商信息,编码时可以在物料描述中注明。
标注品牌的物资一般无须再标注制造厂,但对于跨国公司生产的产品如用品牌编码时还需选择制造商,因为不同产地对价格及质量影响较大。
对于非民用或非名牌(网上查不到)产品不能用品牌编码,也不允许用厂家简称代替品牌。
有些装备制造行业由于其特殊性,可能会对某些类别的物资需要填写品牌或产地,这需要在制定物料模板时根据使用单位的实际需求讨论确定。
原油一般需要注明产地,其他物资如上述所说的跨国公司相同的品牌,不同的产地对价格及品质影响较大,可注明产地。其余的除约定的外,一般不能标注产地。
物料短描述的截取
物料短描述是物料描述的简要概括。在SAPERP系统中,物料短描述的长度不能超过40个字符。当物料长描述大于40个字符时,需要把物料短描述压缩在40个字符以内,而且物料描述必须能正确表达物料的特征。
END
邮箱:ccjiu@163.com
QQ:174856958
我们的使命:发展数据治理行业、普及数据治理知识、改变企业数据管理现状、提高企业数据质量、推动企业走进大数据时代。
我们的愿景:打造数据治理专家、数据治理平台、数据治理生态圈。
我们的价值观:凝聚行业力量、打造数据治理全链条平台、改变数据治理生态圈。