“闰年虫”引发Windows Azure中断

微软Windows Azure云平台若干子区域受“闰年虫”影响致许多客户12至24个小时无法使用服务。

根据Windows Azure服务仪表板显示,从UTC时间2月29日凌晨到3月1日早上,大量的子区域服务和全球性服务发生了超过24小时的中断。以下是受影响的服务:

  • Windows Azure计算服务(Compute Service)部分出现故障,6个子区域中有4个出错,共影响了美国中北部区域6.7%、美国中南部28%以及北欧区域37%的托管服务。另 外,Azure的一些其他服务也受到了波及,包括:访问控制2.0(Access Control 2.0)、市场(Marketplace)、服务总线(Service Bus)以及访问控制&缓存入口(Access Control & Caching Portal);
  • 美国中南部区域的服务总线中断超过24小时;
  • 位于美国中南部的市场也部分受到了超过12小时的影响,特别是那些需要OAuth访问的服务。
  • 2012年2月29日触发的某个证书问题导致服务管理(Service Management)服务在全球性范围内受到影响。一些区域约12小时无法正常访问,其他区域超过24小时无法正常访问。

存储、CDN和其他服务似乎并未受到影响。  而平台管理入口(Platform Management Portal)由于另外一个不同的问题,导致3月1号全球范围内受到大约3小时的影响,其原因是因为“后台某个设置被配置错误”。

微软负责服务器和云服务的副总裁Bill Laing简要通报了Azure客户此次中断及其原因。据Laing描述,Azure团队在太平洋标准时间2月28日下午5:45,即UTC时间2月29日上午1:45意识到该问题。而问题的罪魁祸首是由2月29日这个特殊日子触发的一个软件bug。

这个问题迅速被触发并确定起因是一个软件bug。虽然根本原因分析还在进行当中,但是问题看起来似乎是对闰年的时间计算不正确所致。

赛门铁克报告说,闰年虫影响了他们6.1版本的软件交付。Inedo合作伙伴Alex Papadimoulis报告说,他们的一些客户受到了影响。此外,新西兰一些销售设备也发生了故障

虽然这个bug对小公司多少可以接受,但是对于微软着实有些尴尬,特别是因为它影响了客户托管在微软云平台上的服务。有意思的是,如此之小的事情竟然够弄垮这么大的计算平台,同样一年前亚马逊也发生过这样的事情:在美国东部区域的 一块可用区流量被错误地转到一个无法处理这些流量的低级别的路由中,影响了几个EBS(弹性块存储,Elastic Block Storage)结点,并最终导致了整个区域的垮掉。我们可能还会看到此类中断事件,毕竟“人非圣贤,孰能无过”。

查看英文原文:http://www.infoq.com/news/2012/03/Azure-Blackout-Leap-Year-Bug

This entry was posted in Security. Bookmark the permalink.

发表评论

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / 更改 )

Twitter picture

You are commenting using your Twitter account. Log Out / 更改 )

Facebook photo

You are commenting using your Facebook account. Log Out / 更改 )

Google+ photo

You are commenting using your Google+ account. Log Out / 更改 )

Connecting to %s