大数据环境下的铁路统计信息化平台研究

(整期优先)网络出版时间:2018-12-22
/ 2

大数据环境下的铁路统计信息化平台研究

马强

中国铁路呼和浩特局集团有限公司信息技术所内蒙古呼和浩特市010050

摘要:进入铁路大数据时代,为解决铁路统计存在的数据分散、统计滞后、结果不准确等问题,亟需构建数据高度融合的铁路统计信息化平台。

关键词:铁路;大数据;数据融合;统计分析

大数据环境下,传统的铁路统计工作模式日益显得力不从心,积极重构现代铁路统计工作模式,满足铁路大数据的统计分析需求,成为铁路工作者面临的重要课题。

一、大数据环境下的铁路统计新需求

1.总体需求分析,在铁路大数据背景下,统计的作用正在发生转变,原有的以报表编制逐级上报为主的统计系统,已不能适应现代化企业管理和经营的需要,基层站段为满足上级单位各类信息统计需求,工作量不断增加,不堪重负,广泛存在着数据重复上报、质量难以保证、共享难以实现等问题。面对大数据的挑战,需从大数据分析的视角,重新思考和定位,以数据为核心,以分析决策为导向,采用全新的统计业务模式和先进架构,进行整体规划,构建新技术条件下的智能铁路统计信息化平台。

2.业务需求分析,基于我国铁路统计信息化的现状,以数据为核心,以总体需求为导向,分析铁路统计信息化建设的业务需求,主要包括以下几个方面:(1)支持统计业务流程的改变。铁路统计的处理流程要改变传统数据统计上报的方式,不再简单延续从站段、铁路局到总公司,层层固定报表汇总上报的模式,转而实现各类源数据信息的规范化、自动化采集,在总公司层面做到对统计数据的集中存储、统一管理和综合使用。统计业务分析专家能够掌握全面数据资源,灵活进行数据分析,定制统计指标和分析报表,全面整合各专业统计指标生成系统,从根本上改变传统的统计流程和服务方式。(2)实现细粒度原始数据采集和集中共享。直接从业务系统采集细粒度的原始数据,避免数据汇总上报后失去细节信息,难以支撑深度分析、数据价值挖掘的问题。统计信息应直接来源于业务系统的基础数据,统计数据仓库全面掌握包含细粒度原始信息的数据,通过数据仓库实现铁路各类统计相关原始数据的集中汇总,并通过科学规范的数据模型,实现各类专业数据的融合贯通,在统计数据层面实现“管理、生产、绩效”的“三流合一”,构建铁路业务的完整细粒度数据价值链,形成铁路统计分析的基础性数据资源,实现统计信息的“一次采集、多次使用”,降低基层数据上报的工作强度,并将统计人员的精力更多地投入到数据管理和数据分析上。(3)满足灵活快捷的数据分析及展现要求。平台应规划部署灵活的数据分析工具,支持统计分析专家、业务部门用户及相关部门领导,根据不同需求灵活地获取统计信息,既能够提供专业化的数据分析模型、数据挖掘工具为专业统计分析专家使用,为运输生产组织和经营管理服务提供决策支持,也能够为不同类型的非专业化用户提供自定义的数据访问接口,为业务部门提供更加多样的统计分析。同时,应提供友好、多样、直观的数据展现界面,为不同偏好的用户提供所需的展现结果。(4)满足数据质量管理和基础编码管理的需求。不同业务相关统计数据的整合及分析应用,需要对数据基础编码进行统一管理,保证数据链条贯通一致,同时全面的数据质量监控,也是未来铁路统计信息化平台有效运行的关键环节。

二、大数据环境下铁路统计模式的重构路径

1.优化数据统计流程。大数据对铁路统计的影响不单体现在数据量方面,更体现在统计流程的变化上。在大数据技术支持下,构建一种以数据自动采集、实时获取、智能整合、分析应用为主要流程的铁路统计工作模式成为可能。这就要求我们从统计各环节、各层次入手,对数据的采集、存储、加工流程进行优化改造,消除以往的统计专业壁垒,摒弃基于固定报表获取的数据采集方式,灵活引用大数据技术手段,建立起以“原始数据获取→数据存储→数据整合→统计指标核算→数据发布→智能挖掘→分析应用”为主的一体化铁路统计工作流程。

2.改变数据采集方式。当前铁路统计主要采取逐级上报报表的方式,采集模式较为粗放,不能达到精细化统计管理效果。对此,需要重构统计数据采集模式,力求第一时间获取原始统计资料;建立规范化的数据采集平台,实现对各方面信息的自动采集以及采集流程的全方位管理;改变以报表收集和报表加工为主的基层统计职能,提高基层统计人员的原始数据审核能力和统计分析能力,全面提高统计工作价值。重构后的铁路统计数据采集架构如图1所示:

该数据采集架构下,直接从各铁路局、站段、地方铁路及合资铁路处采集原始数据,并经铁路信息网汇总至总公司的原始数据库。例如,在货车统计中,可将某一货车从生产到停用的全部生命周期作为采集对象,既要采集货车的出厂日期、型号、造价等车辆基本信息,也要采集车辆始发、终点信息、货物装卸信息、运非转换信息等车辆使用信息,同时还要采集车辆扣修、修竣信息等,藉此获取细粒度的原始信息,防止数据在逐级上报过程中丢失信息细节,确保统计信息可以“一次采集、反复使用”。

规范统计编码标准。统计编码即用来标识铁路信息元素的编码,包括铁路局编码、站段编码等。传统的铁路统计编码存在数据标准不一、难以匹配等问题,不能支持铁路各专业统计数据的整合及交互使用。因此,需要对现行统计编码进行统一化、规范化处理,重新设计一套科学性强的基础数据标准,对统计编码信息进行合理分类,确保所有编码均具有唯一性,在此基础上,运用相应的编码管理工具对各基础编码进行统一、规范管理。在具体操作中,建议相关部门尽快研究制定针对铁路统计基础数据的智能编码管理系统,该系统预先设定编码规则,如顺序编码、公式编码、拼音编码、组合编码等,这样系统在维护基础数据时,可依据相应规则自动生成编码。以车站编码为例,可采取图2所示编码模型:

4.创新统计分析手段。随着科学技术的发展,数据发布形式、统计分析方法发生了日新月异的变化,以往的固定报表展示模式应用价值十分有限,难以满足铁路企业对数据挖掘的深层需求。大数据环境下,铁路统计系统需要在快速处理大量数据的基础上,实现对铁路运输状况、企业经营效益的即时分析,这就要求在铁路统计系统中引入智能分析工具,对储存至数据仓库中的数据进行实时分析和处理,得到对铁路生产有参考价值的数据产品,进而通过多样化的交互平台予以展示。在具体展示形式上,可综合运用各种生动、直观、可视化的形式,包括数据、表格、地图、线条等。

5.重构数据整合方法。数据整合是从铁路各业务系统中获取统计所需的原始数据信息,然后运用一定的关联技术将其关联整合到一起,形成统一、规范的数据整合管理平台,这样一方面满足了原始数据、统计数据的长期储存需求,另一方面也为统计各环节提供了有力的数据共享支持。以铁路运输统计系统为例,同时存在十八点统计分析通用系统”“、BusinessObject”“、货车追踪系统”等若干子系统,通过采取“数据仓库”的方式,将各子系统数据以一定格式进行提取、转换、汇总,最后上传至数据仓库,形成铁路统计数据共享中心,从而有效保证了各级18点统计工作成效,构建起具有后台支持作用的铁路统计数据价值链。

综合统计部门掌握着大量的铁路及地方各省市统计数据资源,如何进行挖掘和综合利用是一个非常重要的课题,值得我们去探索。实际工作中我们不能把信息化的结果变成数据的堆积,而应该从中发现更具价值和内涵的新东西,特别是综合部门还承担经济普查、投入产出等大型普查工作,内容涉及范围广泛、层次丰富,适合进行数据挖掘和利用。

参考文献:

[1]王代文.我国铁路应用大数据技术的思考.2015

[2]陈冲.铁路统计信息化规划.2015

[3]吴羽霞.铁路运输统计综合信息体系及关键技术研究.2015