林阳安排人做好准备,机器一到位就准备部署安装。
这次老天可没有眷顾运维部,9点多的时候来了一波流量高潮,扩容的10台节点还是没顶住,服务又挂了。
但是这时新采购的节点还没有到位,林阳硬着头皮找到朱志方,朱志方也只好板着脸再去催相关的人。
经历了半个多小时,机器节点终于给到了林阳这边,林阳抓紧安排人安装。
这部署安装又花了大半个小时,终于等10台节点的服务正常启动后,服务才恢复到正常状态。
朱志方这次不敢再大意了,盯着林阳一定要找出问题原因。按照正常的流量估算,早高峰的这一波熬过了之后,后面峰值就没那么大了,理论上能扛过去。但是现在包括林阳在内心里也没底了。
接下来就是运维部的全员开始定位问题,这个过程真的是煎熬,测试环境没出现,生产环境出现了,而现在生产环境还比较脆弱,不敢随便改东西,所以定位起问题的难度大了不少。
一个下午,林阳和运维部达成的意见就是应该是大流量触发的某个bug,王鹏也带着运维开发组的人再按照逻辑和日志排查起代码来。
到了晚上,依然没有很明显的进展和结果,期间朱志方多次打电话来确认,因为上面也有人盯着,搞得林阳压力山大。
晚上也没人下班了,运维部热热闹闹的,林阳把几个骨干留了下来,并且放话,定位不出问题来就住在公司了,谁累了就趴桌子上眯一会。
凌晨过后,业务流量小了些,林阳决定还是得在生产验证一把,在经过多次的推演和尝试后,终于定位到了错误的代码逻辑。此时已经凌晨2点多了,像肖子元这样一开始就处理问题的人,已经20几个小时没休息了。
从逻辑上分析,确实是bug引起的,在运行很长时间后,遇到大流量的访问,才会触发这个bug,这个是始料未及的。
总算找到了突破口,林阳让王鹏把代码修改后,重新上线。
大半夜的林阳也不好意思再向朱志方汇报了,于是自己决策先把新增的20台节点撤掉,作为备用。理论上已经找出了问题所在,只要早上抗住那一波高峰,就没问题了。即使出了问题,迅速的把20台节点上架应该也还好,顶多影响一小会。
在做完所有安排后,林阳才让大家在工位上休息,此时已经早上3点多了。林阳给自己定了7点半的闹钟,方便早上提前观察高峰流量。
早上快7点的时候,朱志方打来电话把林阳吵醒了,林阳汇报了下昨晚的情况和自己的措施,朱志方觉着还可以。
好在早上8点和9点的流量高峰时,服务正常,这下大家才放下心来。不过,事情并没有结束,公司副总李元真还在等着汇报。
于是,林阳带着肖子元和王鹏把事件的前因后果都梳理了一遍,上午11点多,就跟着朱志方和魏红宝去汇报了。