为什么银行总是在深夜升级维护系统因为守夜人在加班
阳光划破浓重的晓雾,崭新的一天开始了。在城市、在乡镇、在农村、在大山深处,四川农信5100个网点开始营业,4万名干部员工开始工作,5000万客户开始享受金融服务……这一切有赖于四川农信“守夜人”在黑夜中的守护。
王兆坤,是四川
“守夜人”,是对生产系统进行升级或维护的一群人,为不影响业务正常办理,他们的工作大部分在夜间开展。系统升级前的充分准备、系统升级中的谨慎操作、系统升级后的值守观察,“守夜人”如同一位医生一样,在完成一台大型手术后,小心翼翼“护理”着生产系统,确保它们的健康运行。
阳光划破浓重的晓雾,崭新的一天开始了。在城市、在乡镇、在农村、在大山深处,四川农信5100个网点开始营业,4万名干部员工开始工作,5000万客户开始享受金融服务……这一切有赖于四川农信“守夜人”在黑夜中的守护。
王兆坤,是四川农信“守夜人”中的一员,默默保障了多套生产系统的稳定,有力支撑了“智能贷款”“智能渠道”等多个重大建设项目建设。他是数据领域方面的专家,因其精益求精的工作精神、生产应急处置中的卓越表现以及在数据库领域的特殊贡献,先后荣获“农信银中心先进个人”“四川农信优秀员工”“运维达人”等多项荣誉,同时,也取得了ORACLE数据库大师(OCM)(ORACLE数据库的最高级认证)等多个证书,被单位树立为学习的榜样。
生产系统的忠诚卫士
生产系统具有特殊的特性,需要365天全天候运行,重要系统可用率要确保达99.95%以上,几乎没有停机整修的时间。生产系统每年需要进行12次月度常规版本升级、24次周版本升级、上百次的紧急任务上线及生产系统演练......这些工作通常要在夜间完成,需要“守夜人”焚膏继晷。他们几乎全年无休,以确保生产系统安全稳定运行。
一次,核心业务系统前置机(控管平台)一台机器的硬件出现问题,计划在周六停机修复,需要王兆坤到现场支持。恰逢他父母外出休假,妻子在外地出差培训,只有他一人在家照顾几个月大的女儿,在这种重要时刻,他没有推辞。周五晚上约23:30,他抱着女儿,拉着婴儿车大包小包地出现在生产运维间。在大家的惊诧目光中,他淡然一笑,熟练地把女儿安置到婴儿床里,一边哄她入睡,一边翻阅资料,着手停机前的准备、检查工作。凌晨,系统按计划停机,运维、开发、数据库等人员分工协作,按照方案,停止业务应用服务、数据库服务、系统等各种工作,最后实施关机操作。更换硬件,重启系统、数据库服务、应用服务,一系列操作有条不紊,控管平台又恢复正常运行。为确保系统不发生意外差错,王兆坤又坚守两个小时,确认数据库运行稳定,才和大家一道别,抱着女儿踏着夜色回家了。
“洛阳亲友如相问,一片冰心在玉壶”。对于“守夜人”来说,好好享受假期和周末是一种极度的奢侈。
2021年的一个周末,他终于答应参加女儿学校组织的社会实践活动。出发前,他习惯性地带上了办公电脑。果不其然,在活动途中,接到值班同事的紧急电话,生产系统批量任务报错,需协助排查。此时,外面正下着雨,虽然衣服、鞋子、头发都被打湿了,但他心无旁骛,用身体护着电脑,迅速地分析问题,仅用10分钟就找到了原因。然后通过远程rebuild相关索引操作,问题得以解决。这时,他才想起女儿的实践活动,返回现场,活动已结束。
这样的例子,数不胜数,他用自己的实际行动,捍卫了四川农信的生产数据库的安全。
数据库领域的领军人物
2021年的一天,一个重要生产系统数据库发生异常,出现“负载猛增”现象,王兆坤收到异常信息后,立即驱车前往单位,来到生产运维间,认真查看异常现象,分析日志、SQL语句等,深入和开发人员沟通,终于找到“病因”所在,收集相关表统计信息,制定紧急修复方案,用时近30分钟,暂时解除手机银行危机。后续,他又制定了最终解决措施,并于当天23点后执行调整索引顺序操作,SQL语句执行时间由原来38,442毫秒缩短至0.054毫秒,提升了70万倍,生产数据库整体负载压力降低了100倍,大幅提升了手机银行效率,也为用户带来了良好体验。
2020年,为有效提升“双十一”、年终决算、春节等重要节日系统交易高峰应对能力以及落实监管部门的政策要求,科技中心开展了“治水行动”专项工作,重点提升重要生产系统性能。王兆坤主动请缨,积极作为,挑起本次“治水行动”的数据库优化重担。在统一支付系统的性能优化中,遇到了一个性能瓶颈,任务、产品和性能测试负责人经过多次沟通,每秒峰值处理能力仍无法突破1000。王兆坤不惧困难,加班熬夜分析数据库设计,连续奋战几个昼夜,终于找到突破点。优化数据库设计,开展调整索引顺序、改造成hash分区索引等操作,TPS由原来的1,000增至3,000,是当初目标的3倍,SQL的平均响应时间由原来1秒压降到0.1秒以内,效率提升10倍。
他不仅在本单位工作表现出色,专业能力在金融同业也居于前列,多次被推荐到其他金融机构协助优化生产系统。比如,四川银保监局的OA系统在白天的不同时间段出现运行缓慢的现象,由于缺少有力的技术支持,始终没有找到问题根源,便请四川农信协助。他收到任务后,第一时间赶到现场,认真观察现象,深入分析数据库,最终找到几条有性能问题的SQL语句,通过优化数据库索引设计,性能问题得到解决。他也因此受到了四川银保监局的好评。
工作8年中,他还获得农信银、四川省联社、部门内部各种表扬及荣誉,成为四川农信名副其实的数据库专家、数据库领域的领军人物。
技术领域的学习楷模
王兆坤,作为数据库管理员,身上肩负着300多套生产数据库稳定运行的重担。使命在肩,他从未放松对自身的要求,不断学习数据库新知识、运维新技术,确保自己的知识能力配得上这份重要的工作。
近年来,随着分布式技术的广泛应用,分布式数据库在国内已成为主流的数据库。他深入学习、日夜钻研,通过自己的不断努力,最终获得了Oceanbase的OBCA和巨杉数据库的SCDP两大类数据库证书的可喜成绩,受到了单位领导、同事的高度肯定。
作为讲师,王兆坤曾多次为年轻同事传授数据库基础知识,在他们的职业生涯初期,为他们打下了数据库基础。同时,他也非常注重实践经验的分享,曾多次开展性能调优方面的案例培训,结合生产系统,现身说法。参加培训的同事纷纷表示,王老师案例分享深入浅出、生动幽默,受益良多,也进一步提升了本单位数据库专业技术整体水平。
疫情“单元化管理”期间,他和同事们舍小家为大家,用责任担负使命、用坚毅筑牢防线,多次坚守“72个小时”不回家,认真做好生产事件处置、生产变更、一线咨询回复等工作,全力保障“西南地区银行业最大的数据中心”安全稳定运行,确保生产系统不瘫痪、金融服务不断档。
弘扬科技人的工匠精神,时刻保持“随时待战、随时应战、随时胜战”的工作状态,“守夜人”们以永不停歇的专业奋斗精神,书写了“在农信、爱农信、干农信”的职业追求,为四川农信4万名员工和四川5000万客户提供了数字化服务的宽度、广度和温度。
作者:四川省联社 张朝辉
编辑:王珊珊
文章评论