虽然游戏陪玩系统在上线前都通过了测试,但这并不意味着上线后就万无一失了,游戏陪玩系统在线上运行时仍会因为机房故障、人为操作失误、系统自身缺陷等原因出现故障,为降低故障发生后对系统的影响,我们需要掌握一些运维故障的防治方法。
一、故障发生前
在故障发生前,游戏陪玩系统需要做足准备,像人工方面的主动巡检、隐患排查,平台方面的监控系统和日志系统的实现等。
1、主动巡检:主要是为了了解系统是否存在引发故障的风险,主动巡检可以分为例行巡检和突击巡检两种。
2、隐患排查:主要是通过对游戏陪玩系统架构、业务等方面的分析,排查是否存在隐患。
3、监控系统:监控系统能够实时监测游戏陪玩系统的当前状态,及时发现故障、定位故障。
4、日志系统:通过日志搜集的数据可降低系统排查的难度。
二、故障发生时
1、告警
当游戏陪玩系统发生故障后,通常需要监控系统发出告警,以通知后台管理人员。
2、处理
故障的处理是一个较为复杂的过程,通常包含故障评级、快速恢复、分析治理等环节。
(1)后台管理人员在接收到告警通知后,需要按照既定的故障分级进行故障的评判,以决定故障的处理流程。
(2)通常在游戏陪玩系统开发时都会提前准备好一些应急预案,无论是什么故障都需先恢复系统,以保证用户体验。
(3)在系统恢复正常运行后,再进行故障的分析,并制定根治方案,从而解决故障。
3、观察确认
在解决故障后,需要仔细观察游戏陪玩系统是否完全恢复,没有完全恢复就继续分析、修复,直至确认完全恢复。
三、故障发生后
为避免相同故障再次发生,在故障发生后需要进行复盘,以此提升之后的游戏陪玩系统质量。复盘时需要将该次故障处理的完整流程记录上传,记录内容包含影响面、故障原因、解决方案、影响程度等,方便其他开发人员借鉴、学习,
由于游戏陪玩系统并不是百分之百可用,所以在运行过程中发生故障是很正常的情况,我们所要做的就是在游戏陪玩系统开发时实现一些运维故障的防治方法,避免因故障的出现造成不必要的损失。云豹游戏陪玩系统功能丰富,源码清晰完整,如有需要可联系客服咨询。
声明:以上内容为云豹科技作者本人原创,未经作者本人同意,禁止转载,否则将追究相关法律责任www.yunbaokj.com