Google云服務(wù)故障:只因同時做了兩項升級
本月11日13時13分到15時,Google位于美國數(shù)據(jù)中心的App Engine服務(wù)出現(xiàn)大面積故障。其中3%的應(yīng)用出錯概率超過50%,18%的應(yīng)用訪問出錯概率在10%到50%之間,14%的應(yīng)用出錯概率在1%到10%之間,有2%的應(yīng)用出錯率在1%以下但依然高于正常水平。剩余63%的應(yīng)用訪問正常。
本文引用地址:http://www.biyoush.com/article/201608/296024.htm近日Google在其云服務(wù)官方日志中公開了故障原因,原來只因為工程師們在例行維護(hù)時同時做了兩件事。
出于負(fù)載均衡的考慮,Googe的工程師配置了新的數(shù)據(jù)中心,把老數(shù)據(jù)中心一定比例的App遷移到了新的數(shù)據(jù)中心,然后把流量從之前的服務(wù)器導(dǎo)向新的數(shù)據(jù)中心。
至此相安無事,但不湊巧的是,數(shù)據(jù)中心的多臺路由器正在軟件升級,需要滾動式重啟,網(wǎng)絡(luò)流量處理能力不如平常。
同時,新遷移的許多應(yīng)用由于啟動緩慢,導(dǎo)致舊服務(wù)器大量重復(fù)向新服務(wù)器發(fā)送啟動應(yīng)用的請求,進(jìn)一步加重路由器負(fù)載,最終造成偶然丟失外部用戶的訪問。
對此意外,Google方面表示將會加大對硬件的投入,修正導(dǎo)入流量的方式,并修改針對新服務(wù)器的重試請求。
評論