用工匠精神打造国之重器——中国航信首发重大技术难题处理纪实

文章来源:中国民航信息集团公司  发布时间:2016-06-28

[创新文化与工匠精神]

 

 

  这是中国航信系统运行维护史上的一次突破!
   2016年4月2日,经过持续70小时的技术攻关,在外国专家连连摇头,直呼“看不懂”的情况下,中国航信依靠自己的技术力量,成功解决了大型主机操作系统升级过程中遇到的世界首发重大技术难题,为后续的系统扩容夯实了基础。
   令人称道的远不仅是此次技术上的进步和系统运行维护能力的提升,这家以信息技术为核心竞争力的央企,近年来所焕发的蓬勃生机和未来的无限可能更令世人关注。
   民航信息系统的安全运行直接关系到航空公司、机场、旅客的切身利益,如有不测,后果不堪设想:2013年4月16日,美国某航空公司的预定系统发生故障,致使其所有航班停飞数小时,取消和延误航班超过1000个,受影响乘客数以千计;2016年3月22日,日本某航空公司在日本国内拥有航线的全部50个机场值机系统发生故障,导致87个日本国内航班被取消,约1万人出行受到影响。而作为涉及国计民生的八大信息系统之一,由中国航信运营的中国民航信息系统,则一直运行平稳。
   是怎样一支队伍打造了信息科技的“国之重器”?带着这样的疑问,记者走进中国航信,听一线工程师讲述他们的亲身经历。
      一、系统升档
   “为了满足民航旅客订座业务增长的需求,我们的主机每2年就要扩容一次。这次操作系统的版本升档,是主机升级的准备工作。”运行中心资深系统硬件工程师冯毅告诉记者。他是解决此次技术难题的关键人物,也是系统硬件技术团队的负责人。
   近年来,中国民航旅客运输量逐级上升,2015年达到4.4亿人次,同比增长11.4%。行业红红火火,系统却压力山大。“业务高峰期,主机每秒有1万多个处理量,年均增长15%,”冯毅说,“为了应对这样的发展态势,公司向优利(Unisys)买了2台最新型号、能力最强大的主机,承担后续扩容的任务。同时,公司新一代系统的建设也将为主机减压。”
   冯毅所说的主机就是大型机(mainframe)——IT系统最为重要的位置。它比我们日常用到的微型计算机要强大得多,其I/O(输入/输出)能力、非数值计算能力、稳定性、安全性更是微型计算机所望尘莫及的。如今,全球银行100家中的92家、美国零售商25强中的23家、以及全球10家最大的保险公司都依靠大型机来执行复杂的事务,由此可见其在国际市场中的权威地位。
   与其他用户大多使用IBM(国际商业机器公司)的产品不同,中国航信选择了优利公司的大型机,也是后者在中国的唯一主机用户。在本就“高冷”的大型机技术领域,他们所依赖的除了优利公司偶尔外派中国的专家,就只有自己优秀的工程师团队了。
  

 

   2004年自南京航空航天大学毕业以后,从没接触过大型机的冯毅,一头扎进了机房。由于大型机造价不菲,一台动辄几千万甚至上亿,一般大学没有能力购置,中小型企业也无力购买。“来到公司都是现学,先是师傅带,然后自己钻研。我们的团队有28个硬件工程师,平均年龄29岁。掌管着10套优利大型主机(规模世界第一),近5000台开放平台服务器,118套存储设备,近6PB(较高的存储单位,1PB=1024TB)数据容量,7000余台逻辑设备,近6000余个端口。”作为基层管理者,冯毅对数字很敏感。
   “有没有想过跳槽去换一个更高薪水的工作?”
   “前几年有两个同事走了,拿到七、八十万的年薪,也心动过。不过公司很重视我们,自己也舍不得这几台机器。事实上,比起其他IT公司,我们这儿离职的并不多,大家很团结,可能做主机的相对稳定些吧,”他笑了笑,“钱不是工作的唯一目的。”
   二、突遇险情
   中国航信官网上,用粗体字强调了他们的经营理念:“把安全放在首位、用服务赢得客户、让信息创造价值”。在一线采访的这段时间里,记者深切感受到这里强烈的安全生产意识。
   “每一次主机升级,我们都很小心,就怕有一点闪失,影响了用户体验。”运行中心资深系统软件工程师徐志光,说话慢条斯理,眼神不时瞥向身后的电脑,屏幕上黑底绿字,一行行英文字母与数字,看起来很专业。“平时要监控系统,快成职业病了。”看的出,与和我交谈比起来,他更喜欢和电脑打交道。
   2015年7月,中国航信启动了主机操作系统的版本升档工作。在完成前期各项测试后,于2015年12月成功完成了代理人销售系统(CRS系统)的升档工作。2016年3月,在CRS系统升档完成并平稳运行3个月后,又启动了航空公司订座系统(ICS系统)升档工作。为降低风险,减少对业务影响,升档工作分两步实施。3月26日晚,对ICS系统的第1个HOST(主机)实施升档,3月30日晚,对其余3个HOST实施升档,当晚所有工作按流程顺利完成,并通过各项测试。
   “主机的升级流程很严格,时间安排也很科学。这次升级,开始也挺顺利。”徐志光说。但是,IT系统就是这样,时不时会和你开个玩笑。


   

  江标,研发中心订座主机维护部门资深工程师,2004年南开大学研究生毕业后,加入系统应用层的维护团队。他第一时间发现了问题。
   “3月31号早上,我发现有报文积压的情况。”
   “报文积压是什么概念?”
   “就像是我给你发短信,但是你没收到,都堆在电信公司了。”
   “这说明系统有问题了?”
   “少量的积压没问题,很快就下去了。一旦积压值超过100,监控系统就会报警,我们会定义为问题征候。”
   “如果不及时处理,会造成什么后果?”
   “因为系统是负载均衡架构,用户不会感觉到异常,但是会影响系统的冗余备份能力,有潜在隐患。”
   为了做好安全防范,研发部门开发了报文监控程序,这是系统的第一道防火墙。江标发现问题后,马上打电话给徐志光——“当时发现系统层一切正常,需要到主机系统去排查。”
   “这种问题真是前所未有,通过以往的手段没法恢复正常”,徐志光回忆起当时的情况还是一副匪夷所思的表情。随后,他们根据公司的应急处理流程,对出现问题的主机系统进行了隔离。
   “用户肯定感觉不到有什么问题,系统架构设计得很科学。”在徐志光口中,记者听到最多的一个词就是“用户”。
   “没办法,我们做运维的,最关心的就是用户体验。”
   三、全面部署
    对中国航信来说,安全无小事。
    记者了解到,他们在安全管理的金字塔顶端,设立了安全生产委员会(安委会),作为领导机构,对公司整体生产和网络、信息安全负主要责任。由公司法人作为安委会主任,副主任由公司总经理、公司主管安全的副总经理担任。安委会下设两个非常设机构:故障调查小组、技术工作小组,根据实际情况随时启动。安全生产与质量管理部(安质部)作为职能部门,处理具体相关事务。各生产部门还设立了安全管理员和安全审计员等专职安全岗位。
   “公司有三级值班制度,运维部门全部都是7*24小时连轴转,根本不敢放松,遇到情况及时上报是我们的‘生存法则’,呵呵。”不善言辞的徐志光也开起了玩笑。
   江标也证实了他的说法:“来航信的大多是名校高材生,为了减少人才流失率,我们隔一段时间就轮一次岗,夜班太伤身体。”
   3月31日,接到故障通报后,安质部迅速组织技术人员分析故障情况,制定应对措施,并要求生产部门联系服务厂商协助分析故障。当晚,各部门相关负责人亲临现场指挥。
   “优利公司的外国专家提供了一些建议,但都没有什么实质帮助。我们虽然掌握了机器的操作维护技术,但是如果出现了没见过的问题,还是不敢轻举妄动。”冯毅说。
   尽管用户体验没有受到影响,但是对于安全隐患谁也不敢大意,事情很快上报到了安委会。公司迅速组织安质部、运行中心与研发中心成立故障处置小组,董事长崔志雄、总经理肖殷洪和副总经理荣刚及时对故障处置作出指示,要求尽快查清原因并切实做好应急准备,务必要保障系统运行安全,让广大航空旅客顺利出行、过一个舒心快乐的清明小长假。荣刚副总经理亲自赶赴现场,召开紧急会议,对故障处置及业务连续性保障做出全面部署,为一线故障处置人员鼓舞打气,组织相关负责人以及优利专家共同研究制定了后续的故障处置措施和业务应急的连续性安排。
“上级的要求会给你压力么?”
   “肯定会的,其实我们自己遇到这种情况比谁都急”,江标说,“领导的安排还是比较及时、科学的。”
   “不是恭维的话?”
   “怎么会呢?很多事情我们一线员工无法决策,比如要不要停掉主机?当晚的例行工作要不要继续?资源不够了怎么办?领导很多都是技术牛人出身,比我们牛。”
   “你们做了很多保障工作?”
   “对,问题的处理在运行那边,我们制定了《系统功能降级预案》,以防遇到极端情况。把已经做了一半的例行工作也回滚了。”
   “领导还安排买了麦当劳做夜宵。”徐志光终于能放开谈了。
   四、突破壁垒
   “那3天我只睡了3个小时”,冯毅说。
   “没回家?”
   “对,就在单位。”
   “压力大?”
   “倒不全是压力,我自己有点强迫症,遇到技术问题解决不了就睡不着,特别是这种首次出现的,有种莫名的兴奋。”
   这种首发问题,在优利公司的实验室中没有遇到过,其他用户也没有遇到过,这可愁坏了前来支持的外国老头,急着打越洋电话请求支援。
   “积压报文是现象,问题的实质是系统读写操作缓慢,我们很快能判断出是I/O设备的问题”,徐志光说。


   “但是系统共有24条I/O通道,每条有3个故障节点。排查的时候要对其中12条通道逐一进行配置,然后启动徐志光他们编写的自动测试程序,对32种不同组合方式的性能进行测试和数据记录,并借助快速分析程序进行通道的性能分析。每次测试需要程序运行5分钟。”冯毅说着,眉头紧锁。
   “他们排查问题确实很难,因为这么多设备、端口、线路,毫无头绪。”江标对运行中心的难处深表同情。
   排查工作历时2个昼夜,外国专家们也束手无策。问题难道无解么?
   “是不是微码有问题?”冯毅第一个提出疑问。
   微码是主机硬件设备的驱动程序。外国专家当即否定了这个设想,因为他们检查后认为出问题的系统所在主机的操作系统、微码版本与另外一台正常运行的主机相同,应该不存在问题。但是多年与主机打交道的经验告诉冯毅,有进一步尝试的必要。
   在制定慎重的升级方案后,冯毅带领技术人员对出问题系统的全部输入/输出处理设备进行了微码升级。经验证,该系统的读写操作缓慢问题消除,恢复正常,并于4月2日11点19分正式对用户开放。
   “这是不是像电子竞技比赛,夺冠的从来没有游戏开发者?”
   “哈哈,不能这么说,我们还是要不断学习最前沿的技术,创造出新成果。”冯毅终于开心地笑了。
   采访之初,记者惊讶于中国航信在资本市场的表现:其复权后股价从2011年的3元左右一路上扬,2016年已经达到了15元左右,按照市值来计算,5年时间相当于再造了5个航信!采访之后,记者终于释然,甚至想到了魏巍当年从朝鲜战场归来后,撰写的那篇家喻户晓的报告文学——《谁是最可爱的人》。用历史的长镜头去观察“中国梦”的实现征途,决不失为一场战斗,而中国航信的这些“工匠”们,不正是我们这个伟大时代最可爱的人么?