- 经验
- 8737
- 分贝
- 100
- 家园分
- 13954
- 在线时间:
- 790 小时
- 最后登录:
- 2024-4-19
- 帖子:
- 8245
- 精华:
- 0
- 注册时间:
- 2009-4-28
- UID:
- 523676
注册:2009-4-28444
|
手机的故事-云平台举步维艰
老W对是否要做云平台一直处于质疑的状态。他又要我把做云平台的必要性再论证一次,于是,2010年,2011年我们做过的事情,又重新做了一次,跟云T谈、跟IT谈、甚至跟外部公有云谈,结果又是一样。唯一的区别是,这次因为已经有不少业务已经运营在云平台上面了,所以更加有说服力。
为了说服老W继续支持云平台,我专门写了一个PPT,把云计算的来历,技术流派,趋势、发展现状详细进行了详细介绍,一个部长在看了我的论证报告后给我说:你这个就是一个上好的云计算培训资料呀,我现在才终于明白云计算是干嘛的了。我却窝火死了:都扯皮两年多了,还没几个人搞明白云计算是啥玩艺,一次在讨论是否继续做云平台的会议结束,老W总结,他说:你们云平台要优化性能,我们手机上的RAM是很有限的,当时简直晕死一片,有个部长提醒他,云平台不是运行在手机上,是运行在服务器上,老W才恍然大悟,原来你们的云平台是运行在服务器上。
回想起来,我浪费在解释云计算上的时间可真不少,可是还是没几个人能听懂,一个手机或者手机业务对于领导来说真的是很直观,可是谈云计算对他们来说确实是太难以理解。没能理解其实也还罢了,更糟糕的是甚至很多人形成错误理解,并且还坚持不放。
我想如果不是我牵头这个云平台,他肯定跟马总一样把这个平台砍了,一次老W找我谈话,直接就说:我不相信你们做的比云T做的好,你们7,8个人比得上人家上千人吗?其实发出这种质疑的不只是老W,老马、多多也曾这样质疑过。但是他们忘记了一个事实就是技术不是人数多少决定的,老W这样质疑我都觉得可以理解,他确实是没做过软件的。而事实上当时公司云T的云平台正陷入一个困境当中。
前面说到,我们在一开始就选择了开源的架构,使用了OPENSTACK、MYDQL、mangoDB、CEPH作为主要构件,而系统那边侧几乎全是都自研封闭架构,而云平台是一个庞大的系统,想做封闭架构的难度和投入远不是我们公司所能承担得起的,而这几年,我们所采取的框架却成为云计算的主流框架,openstack成为云计算的主要平台,而ceph更是异军突起。我曾给老W说:我们领先于系统侧起码两年以上,老W对我的说法肯定是不信的,因为我说的那些什么openstack、Ceph他完全听不懂。实际上,系统那边到2014年才转到openstack上面来,这个时候我们已经玩了4年的openstack了。而当系统那边开始玩openstack的时候,我们已经开始玩大数据、DOCKER、PAAS了。
老W到来之后,业软更加分化瓦解,有人的地方就有江湖,业软也不例外,我其实也基本靠边站了,老W有自己信任的一帮人。而业务与云平台之间的冲突也不断产生,在开始的时候,我还力争把业务和平台团结在一起,后来我发现,很多人其实并不在乎业软的前途,一批新提拔的人基本都围绕老W形成了新的核心,业软内部之间攻伐变得更加严重,我想对于一个空降的干部来说,这个局面实际上是有好处的,但是业软就这么趋于瓦解,在2012年底,我发出了一个预言,业软的日子,顶多只有两年。无比悲催的是,每次我的坏的预言,都无比的准确。
在这种情况下,平台与业务之间的冲突就几乎不可避免,在最初,我对各个业务都是全力支持,因为业务是我们平台的客户,而基于我是总工这个角色,业务也多少卖平台一些面子,大家合作都很愉快,但是随着业务的增加,以及老W到来之后的分化,平台与业务之间的矛盾日渐突出。
客观说,平台前期的毛病其实不少,但是到2012年之后其实比较稳定了,唯一的问题就是停电,而这个问题是我无法解决的。一般说,业务出现问题,都需要平台配合解决,但是老W来了之后,一个不正常现象出现了,当业务出现问题的时候,某些业务的负责人不是通知平台,而是立刻向领导告状。而老W基本都是把问题归咎于平台上。让我百思不得其解,后来老W自己说漏嘴,说他上任之前别人就给他说过我这个人不好惹,我明白我被别人上眼药了。
一次,老W我说有人投诉我们数据库有问题,我去看看,数据库一切正常呀,问了下面做数据库的兄弟,说是某业务说我们数据库很慢,他们做一个SQL查询花了70多分钟,这明显属于应用设计的问题了,我把他们负责人找来,我问他们数据库设计是不是有问题,他回答:没问题,我们的库已经很简单了,一个表只有两列,你们不懂不要乱说,我当时就火了,巧的是我在多年前做MIS系统,算半个数据库专家的,我说你一共就两列,用什么MYSQL?一共就几万条数据,竟然查70分钟,你用EXCEL表排个序,数都数完了。我让我的工程师去优化,只是把一个复杂查询分解成两条查询语句执行,速度立刻变成两秒完成。
还有一次更可笑,某个业务投诉平台死机了,老W一个邮件立刻责骂过来,我们去看,虚拟机都是好好的,没出问题,而业务开发者一口咬定平台死机了,我们没办法,登陆到他们的虚拟机上看,原来是他们私自改了虚拟机的网络配置,导致客户端无法链接到虚拟机。我把他们负责人叫过来问:你们连虚拟机死和网络不通都分辨不清楚吗?这个业务的负责人很拽,说,我们就是分不清。我火冒三丈:你的二级主任工程师是怎么评上的?
而每次停机,老W都是不问原因,算我们身上了,一次成都南区联通网络故障,据说是因为施工把通讯光纤挖断了,我们立刻跟老W报告了情况,老吴发了一个邮件:为什么会发生联通断网这种事故,项目组要深刻反思,并拿去解决措施,给项目组记一次质量事故。看了这个邮件我简直哭笑不得,我要是知道联通老板的信箱我就转发给联通老板去了。无奈之下,我们又申请了一个电信的专线。
对云平台的考核更是搞笑,一开始,老W要我们拿出一个平台考核的KPI,要业界通用的,于是我拿出可用性和可靠性两个指标,平台可用性99%,数据可靠性99.99%,这个指标老W很满意,实际上,这个指标是远低于业界水平的,我们都暗自偷乐,可用性99%,意味着我们一年可以有3天半的时间不提供服务,而数据可靠性99.99%,对于我们这种分布式文件系统简直是小菜,因为到现在我们都还没丢过数据。
果然,考核一段时间之后,老W发现问题了,除了偶尔停电的月份,平台日常运行其实非常平稳,所以我们平台的考核都是满分,稳居部门前列,而那些产品经理、项目经理、规划经理之类的,却因为推广落地率、产品质量缺陷,考核成绩惨不忍睹。这个结果老W肯定很不爽,于是要求更改KPI,这次他不找我们了,找质量总监重新定义对云平台的考核KPI,可是质量总监对云平台一无所知,更想不出一个可以取代可用性和可靠性指标的KPI来。可是平时的考核对我们来说其实没任何意义,因为半年考核、以及加薪的时候,我发现我们平台的人却是部门里面最吃亏的,我心里明白,这回是我把兄弟们拖累了。
随着部署业务的增加,以及升级、信息收集业务的上线,原先的30M带宽开始出现不足的问题,各个业务都开始抱怨带宽问题,我也顶不住了,找老W要求增加更多的带宽,30M带宽,顶多就是一个网吧的级别,现在服务数十个业务和上千万用户明显是有问题的,老W每次都给否决了,他的答复是:不要动不动就增加带宽,要优化性能。次数多了,我也疲了,每次业务抱怨,我都直接给他们说:你们自己找老W吧,我已经没招了。随着投诉越来越多,最后老W自己也坐不住了,于是背着我私下找那些产品经理和部长们讨论带宽的事情,大家果然都是一致要求增加带宽,于是老W终于允许把带宽增加到50M。
而我最担心的事情,终于发生了,就是人员流失,下面的兄弟们都觉得领导其实根本不重视云平台,做下去也没前途,而云计算人才在外面正是抢手得很,我们的项目组开始松动了,一些人辞职走了,更糟糕的是我们的骨干也生病住院了,最惨的时候,只有两个人还在工作了,留下的人,也基本上都垂头丧气的,整个云平台陷入困境当中。
这个时候,连我自己也动摇了,我觉得,现在首要的任务,并不是支持业务的发展,而是学技术,我给项目组的兄弟们说:业软的业务,看来是发展不起来了,我们目前最关键就是掌握好云平台相关的技术。我要求每个人都具备独立部署的能力,让项目组尽量尝试不同的部署方式。同时,因为员工病的病,走的走,我不得不亲自去分析解决很多故障,这也给了我更多的机会了解整个云平台的很多细节,特别是对数据库、网络neutron有了更深的掌握。
这个时候,我们的目标已经变成:万一业软垮掉,我们出去好找工作了。
但是这个时候,老W似乎也逐渐开始有点开窍了,一来,运行在云平台上的业务越来越多,业务对平台的依赖日益严重,而云平台时常出现问题也让他头疼,二来我不断给他发出告警,给老W说,再来一次停电我们未必能啊平台重新RUN起来。老W终于答应增加投资了,首先是买了UPS电源,硬件防火墙,然后给我们增加了3个新员工指标。在平台运行3年之后,才配备UPS和防火墙,这在业界也算是一个奇迹了。
但是这一切都来得太晚了,因为手机的经营形势发生了根本性的变化。
|
|