- 经验
- 8737
- 分贝
- 100
- 家园分
- 13954
- 在线时间:
- 790 小时
- 最后登录:
- 2024-4-19
- 帖子:
- 8245
- 精华:
- 0
- 注册时间:
- 2009-4-28
- UID:
- 523676
注册:2009-4-28444
|
手机的故事-业软云平台
在我们把云桌面玩起来之后,马上就开始着手建设一个业软的业务云平台,在我看我们在具体的互联网业务上跟互联网公司竞争是没有前途的,公司的体制决定了我们不适合做移动互联网业务,但是在平台上我们却具备先天的优势,只要我们控制了端和云,我们就相当于控制了高速公里上的两端,至于跑什么车我其实不关注了,但是我做这个平台还是需要给人用的,所以我也积极忽悠各个部门去开发移动互联网业务,但是我真正的目标是想把这个平台建设起来之后开放给外部的用户用,我来赚取平台费和通道费。
我把5楼一个会议室拆了,作为我们的机房,这个机房简陋到什么程度,既没有备用电源,也没有UPS,连防静电漆都没有刷,窗户也是漏风的,两年之后,我们的服务器里面都是厚厚的一层灰,我只把电源线做了升级,再买了一个大功率的家用空调,从联通拉一根10M专线。有了机房,又买了一台公司生产的刀片服务器和两台存储服务器,因为经费紧缺,只买了9个刀片,剩下5个插槽还空着,又从各个部门搜刮了一批旧服务器和PC,自己买网卡和内存把系统升级,从公司的呆料库、废料库里面搞了一些交换机和路由器,就这样,业软自己的云平台就这么东拼西凑有了初步的规模。
虚拟化的选择,一开始我们选了XEN,这个是对比了网上的各种测试报告,XEN的效率稍微比KVM高一点,而且强强也使用的是XEN,我想跟他保持一致,从而达到资源共享,而虚拟化管理平台的选择就成了难题,系统那边打算自己开发,而我们就只有6,7个人,这个时候我又忽悠了几个人加入我们,都是一帮公司的老杆子发烧友们,让我特别感动的是他们很多都是放弃了自己的总工、科长、项目经理的职位跑来跟我一起干,虽然人数增加了,但是完全自己开发云管理系统还是根本没可能的,于是自然而然地去找开源。
我选开源系统有一些原则,就是找那些活跃度高,背后厂商比较强大的开源系统,结果就锁定了openstack,这个时候openstack还远没流行起来,有一个CloudStack比较流行,但我看到openstack背后的支持厂家,就选这个openstack了,就这么鬼使神差地,我们竟然成了国内最早一批玩openstack 的人,而系统那边几乎是3年之后才开始玩openstack。老RAO负责搭建OpenStack环境,这个时候才发现,openstack不支持XEN,只支持KVM,当时openstack刚出来不久,版本很低,这个让大家很苦恼,大家讨论一番,我们又做了一个重大的决策,自己做openstack对XEN的支持实在太难了,干脆把XEN也抛弃了,就上KVM。
而存储的选择,也锁定在CEPH和lustra,CEPH当时刚出来,BUG很多,但是老邹认为其结构最好,Lustra最稳定,但是存在单点和扩展性问题,于是我们先上了lustra,继续跟踪研究CEPH,在使用lustra之后一年,我们的CEPH也上线了。
数据库就没啥可选的,就是用MYSQL,但是使用模式上产生了分歧,开发部建议用单机模式,我们则坚持集群模式,实际上MYSQL的集群模式使用的人非常少,功能还受到很多限制,比如不支持外键,但是集群模式的安全性和可扩展性是单机模式不具备的,我设立一个基本的原则就是:任何一个节点必须都是可以损毁的,而不至于导致系统崩溃,在整个设计中,我一直强化这个原则,其他的问题都必须向这个原则让路,事实证明这个原则是绝对正确的,我们在正式运营之后遭遇到各种奇怪事故,但是竟然没出过丢数据,也没出现不可恢复的崩溃。
当时lustra在处理海量小文件的时候存在性能不高的的问题,4部有些人研究了mongDB,我一看,这东西挺好,干脆也弄到我们平台里面作为NOSQL数据库使用,这样,一个完整云平台所需要的几乎所有主要模块都被我们凑齐了,后来基于nagios开发了一套网管监控系统,整个云平台的架子就这么搭建起来了,当然中间还是遇到很多痛苦的过程,解决了很多烧脑的BUG,就不一一叙述了。
经过几年之后回头看,感觉真的是如有神助,我们当时有意或者无意选的这些方案,竟然都成为行业主流标准模型,以至于我一直认为我的运气实在是太好了。我们这个小团队的也基本都成为这个领域里面的专家,不说别的,2010年就做openstack的人在市面上真是少之又少。后来,业软的情况不好的时候,我们的兄弟们出去找工作,基本都拿到高薪,这都是前期做云平台积累的优势。
但是这个平台一面世就命运多舛,在手机立项会议和投资决策上,我把立项报告读完,却看见评委们都呆若木鸡,一大串他们从来没听说过的新名词新概念,让领导们完全找不到北,这也难怪,这些领导们全都是做手机的,对这些闻所未闻的新技术提不出一点点意见,好在我亲自上阵当评审主席,这个项目才没被枪毙。
业软云平台就这么拼凑起来了,第一个上线的业务是云备份,这个业务是4部开发的,利用我当总工和专家组组长的便利条件,我把业软云平台搞成了公司级战略投资项目,从公司搞了几百万的战略投资,在取项目名称的时候头大了,开始是叫”手机云平台“这个名字,被公司战略专家组否了,和系统那边云平台撞车的,于是改成“移动瘦终端平台”。业软的云平台成为公司真正第一个对外运营的云服务平台。
但是,这一步确实是走得太远了,在手机体系内部做云平台,不仅马总反对,连部长们大都不支持了,除去那些还继续纠缠手机本地应用的部长,即便那些做互联网业务的部门对我们做云平台也是基本持反对意见,他们的观点认为,业务只是需要一个部署环境,只要能满足业务的部署需求就足够了,为啥冒这么大的风险去做一个从来没听说过的东西?很多部门都倾向于使用传统的IT架构,而不是云架构。
也不是所有部长都反对,其中4部的Y部长对云平台和移动互联网业务转型最为积极,后来4部也是业软编制保留最完整,人员水平最高的部门,许多人跳槽都去了大公司。在当时,在处理海量连接,高并发,高可靠性,海量数据方面的能力,我们是超过系统侧的,因为我们的业务是真实上线的,而且巨大的手机终端用户数量不断地锤炼了我们的能力。
在我看,传统IT架构已经过时了,按照各个部门业务数量的估算,我们少说要买上百台服务器,这不现实,公司也不会给我们这笔钱,这些业务能做成啥规模谁都心里没数,而利用虚拟化技术可以虚拟出几百台服务器,花费不过几十万而已,不管愿不愿意,这个云平台是手机唯一的选择,这个时候,我一改过去的老好人态度,变得异常强硬!我们肯定是只做云平台,需要传统IT架构的请找别人伺候,愿意去找IT部门的、或者找阿里云的,请自便。这个时候,我已经顾不得许多了,只能硬着往前冲,云平台就这么进入裸奔状态了。
与此同时,公司系统那边也建立了一个庞大的队伍做云计算,号称投入3000人,我估计起码也有千人以上。与我们不同的是,他们没有走开源路线,基本上都是从最底层的虚拟化到最上层应用完全独立开发。对这个策略我一直是高度怀疑的,云计算是一个非常大的概念,我们这些通讯厂商其实起步都已经落后了,再从底层自己新开发,恐怕没啥好果子吃,事情也果真如我所料,公司的云计算做得非常不顺利,在2014年他们终于也全面转向openstack,而这个时候我们已经玩了4年openstack了,我们的云平台也上线3年多了,积累了数千万手机用户。在我最后一次参加的公司战略项目规划会上,听完我对业软云平台的介绍,战略规划部的一个孟总发飙说:你们说说,做这么多年,唯一的一个真正能大规模使用的竟然是手机做的云平台,这个算是个什么事情?
那个时候业界还处于什么水平呢,除了阿里云上线,其他的云都还没影呢,在跟企鹅公司讨论云盘合作的时候,我发现企鹅公司的架构仍然还是基于物理机的。而上线的阿里云当时还处于非常原始的状态,记得当时还都不能即时开通,需要客户先提单,过一天才能拿到虚拟机,据说是手台手动开通。
虽然我们没走到业界的前列,起码走在公司的前面了,很多系统那边的人都私下向我们要技术,这个时候我们已经可以向公司输出我们的技术。
|
|