请选择 进入手机版 | 继续访问电脑版
 找回密码
 立即注册
搜索

阿里云的工程师要被祭天了?

qhwq47 2018-11-16 01:33:39 显示全部楼层 阅读模式
那边刚根据美国市场研究机构 Synergy Research Group 的数据,阿里巴巴云计算业务赶超了 IBM,成为全球第四大云基础设备及相关服务的提供商,然后这边的阿里云就挂掉了。
昨天下午 16:30 左右,朋友圈、微博等地方受到众多网友的刷屏,原因是纷纷吐槽阿里云控制台访问出现故障,导致官网时好时坏,后台直接登录不上,其中图片服务器也挂掉。
影响范围

受影响的可不止阿里巴巴自家的淘宝天猫,毕竟如今作为全球领先的云计算服务平台,这一故障,直接导致了国内半个互联网瘫痪。
对此,不少网友怨声载道:
阿里云的函数计算挂了,导致线上故障。打算马上降级到本地计算,结果阿里云的 Kubernetes 也挂了。想着挨个机器手工改一下,发现 OSS 也挂了...整个过程没有报警,由于 SLS 也挂了...
022136u06jyxb6pbm7j6z6.jpg


022140lcbjrkxjjnjb7cya.jpg


最怕就是在上线交差的时候出现了 Bug。
022145y2rskfy63102nfo6.jpg


随后,阿里云正式发布通告称,于北京时间 2018 年 6 月 27 日 16:21 分左右,阿里云官网的部分管控功能,及 NAS、OSS 等产品的部分功能出现访问异常。阿里工程师正在紧急处理中。
022148wogyquoyiydydy2l.jpg


现状

而对于这次故障,阿里云表示已经在昨天下午 17:30 陆续修复恢复正常,并于凌晨 12:54 发布公告表示:没有借口,我们不能也不该出现这样的失误!我们将认真复盘改进自动化运维技术和发布验证流程,敬畏每一行代码,敬畏每一份托付。
至于具体的原因,阿里云称:
当天下午,工程师团队在上线一个自动化运维新功能中,执行了一项变更验证操作。这一功能在测试环境验证中并未发生问题,上线到自动化运维系统后,触发了一个未知代码bug。错误代码禁用了部分内部IP,导致部分产品访问链路不通。 后续人工介入后,工程师团队快速定位问题进行了恢复。
受影响范围包括阿里云官网控制台,以及MQ、NAS、OSS等产品功能。
022148vi5qi555uq0rriwz.jpg


写在最后

每一次的故障的确不应该发生,但有时又难以避免。对此,不少网友表示,理解身为同行的程序员们,处理问题比处理人更重要。
022149b20phpwhf0wf88d9.jpg


但是也有不少人认为:
出了故障可以原谅,那客户的损失该如何算?
假如是没按规范操作导致的事故一定是要处罚的,否则这次事故的复盘就是无价的经验啊。
技术人员一定得背故障啊,但是这事应该要更新,不是说一个技术人或开除就算了的。
对此,你怎看呢?
回复

使用道具 举报

大神点评20

cnwang 2018-11-16 02:21:49 显示全部楼层
程序员何必难为程序员
回复

使用道具 举报

kqzc 2018-11-16 02:21:49 显示全部楼层
想问下工厂停电,国家电网怎么赔?
回复

使用道具 举报

play641944 2018-11-16 02:21:49 显示全部楼层
所有程序都有bug没错,但是导致这种大面积宕机的,属于严重生产事故,这不只是写bug的程序员问题,是整个产品线全流程有问题,KPI基本要跪了
回复

使用道具 举报

valentine 2018-11-16 02:21:49 显示全部楼层
其实就是要拜服务器神。安全是精神层面的,运维是神学层面的。
回复

使用道具 举报

hezhe888 2018-11-16 02:21:49 显示全部楼层
这个就是IT厂商和电信运营商的差异了:IT厂商提供的服务承诺SLA(比如AWS)是99.99%而电信运营商一般的业务承诺是5个9(就是99.999%)。按照IT厂商的条件,业务每个月不中断4分多钟就算达标。而电信运营商要达到每月不超过26秒。按照AWS年初当5个小时的机,它们应该赔10%的用户费用给用户。只有超过7.2小时才赔偿30%。各位可以去看看跟阿里云的合同里面SLA和SERVICES CREDIT怎么定义的。
回复

使用道具 举报

chier 2018-11-16 02:21:49 显示全部楼层
我一农民一看什么云啊雾啊,什么IT啊,吓的都不敢看,仔细一看评论区,这帮所谓的IT精英,评论的都是些啥东西?有要赔偿的,这样那样的,本来觉的自己书读的少,不敢写评论,看了一下评论,突然很想告诉在座的各位,都是乐射
回复

使用道具 举报

fgdfgdg9898 2018-11-16 02:21:49 显示全部楼层
仔细分析了一下,问题出现在明文验证环节,简单来说,就是本应该在末端返回一个ok的字段来告知服务器验证完成,由于网络波动等原因,验证字节没在规定时间内没返回,服务器认为验证不通过,运行了非验证完毕的代码,然而末段此时又向服务端发送了之前的验证码,服务器此时认为是末端有异常,有外挂,所以开始封ip。由于访问量巨大,都堵在了验证阶段,导致验证返回更慢,所以出现了大面积ip被封。复盘整个过程,还是整体框架考虑有欠缺。人无完人,总结教训,下次再努力吧。。。。。。。好了,我编不下去了,你们别看了。。。
回复

使用道具 举报

lieca 2018-11-16 02:21:49 显示全部楼层
支付宝显示界面越来越慢,特别是扫码骑自行车。
回复

使用道具 举报

yeping2003 2018-11-16 02:21:49 显示全部楼层
阿里云就是一个不成熟的产品。还不如华为云。阿里云被美国黑了。腾讯云基本没有问题。腾讯云如果有问题游戏就不能玩了。直接挂了。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册