云计算aws宕机影响大量服务
2020年12月,AWS美国东部时间2:37发生大规模宕机,影响超过1000个服务,包括Netflix、TikTok等。
这就是坑,别信单点部署。
多地域部署,定期备份。
云计算AWS宕机这事复杂在它的影响力范围之广。去年我们跑的那个项目,大概3000量级的服务都受到了影响。先说最重要的,一旦AWS某区域宕机,受影响的不仅仅是单个应用,而是整个区域内的所有服务。另外一点,这个宕机往往是因为基础设施级别的故障,比如网络问题或硬件故障。还有个细节挺关键的,就是恢复时间通常较长,因为需要排查和修复整个区域的问题。
我一开始也以为单个服务的宕机不会波及太多,后来发现不对,因为现在很多服务都是相互依赖的。等等,还有个事,就是一旦宕机,不仅服务会中断,数据同步和备份也可能受到影响。
所以,我的建议是,对于依赖AWS的服务,要定期进行压力测试和故障模拟,确保有足够的冗余和备份策略。这个点很多人没注意,但说实话挺坑的。我觉得值得试试。