- 经验
- 3334
- 分贝
- 0
- 家园分
- 7824
- 在线时间:
- 777 小时
- 最后登录:
- 2024-5-28
- 帖子:
- 1681
- 精华:
- 0
- 注册时间:
- 2016-9-11
- UID:
- 1311163
注册:2016-9-11 294
|
运维工程师(Operations)。负责维护并确保整个服务的高可用性,同时不断优化系统架构、提升部署效率、优化资源利用率。
每天面对的最大挑战是大规模集群的管理问题,如何管理好不同数量级的服务器正常运行,同时保障服务的高可用性。
运维工程师一天的工作时间是如何度过的?作为一名运维工程师,深知这个岗位的重要性。虽然每天面对着一片无情而又无辜的服务器,但是这也同样是我们处在这个行业里生存的一丝价值。
下面分享几个在不同领域做运维的技术工程师每天的日常工作,看看是否有和你类似的呢。
张工 银行运维
08:30-08:50 检查昨晚的自动脚本是否成功,检查服务器性能容量。(银行上班真是早……)
08:50-09:00 发现有shell需要优化,发现有运维工具的代码需要改一改,计划新装一台服务器。统统加入to_do_list,准备大干一场!然而...
09:00-12:00
总行来要统计报表了...xx部门来要数据了...xx支行有个问题请求指导...xx网点程序报错需要远程支持...xx业务流程需要参会讨论...xx新功能需要调整参数...
设备商又耍无赖了需要找人抽他...测试环境新出一大波问题等待您的宠幸...
13:00-18:00
写系统检查报告。写安全检查报告。改分行应急方案手册。改支行技术指导手册。
程序猿突然说他们有个新版本需要投产。总行来通知说今晚你们得修改个配置文件。
写今晚的变更实施方案...
18:00-21:00
吃晚饭、消化、玩手机、补补觉、调戏下隔壁加班的程序猿……这仨小时不干活是因为我还不想猝死。
21:00-22:00 备个份啥的,准备实施变更。
22:00-23:00 小心翼翼的做变更,做一遍核对一遍。
23:00 看到今早的to_do_list,第n次下定决心明天一定要完成...
陈工 游戏运维
早晨起床揉揉惺忪的双眼, 一边刷牙,脑子一边在回想凌晨四点被客服叫醒处理的故障,心中咒骂着那该死的硬盘。嗯…… 黑眼圈又深了。
背上电脑包去挤地铁, 拿出手机看看小说, 顺便瞄几眼报警短信,“No route to host”? 流量又超了啊……
到公司9:08分了, 看看监控页面,屁股还没坐热就去给同事修电脑了。 看看开服计划, 准备把脚本整理整理的时候广告部门说西北地区广告加载又慢了,这边刚说完,运营的来说海外的大户玩家又上不去了,采购部门来问固定资产的资料, 开发部门说这几张表给导一下到内网。请求上苍,给我来个分身术吧,这样子我就可以早点完成这些事情了。
下午昏昏沉沉手工跑脚本开服,心想老子有一天都要用puppet自动开 (实践证明用fabric吧)! 联运哭哭闹闹说自己的服务器比较卡,用监控图表打败他们 XD、 OA又卡了,重启了之。
李工 运维DBA
早上起来,看看报警邮件,有没有什么特别的报警 一般监控是自己写的Nagios脚本,如果没有邮件报警,那么一切正常。不会有什么特别的毛病,然后给各大BOSS出上个星期的报表 数据库出一份AWR,看看Top SQL,抓出两条来优化一下,要么加索引,要么改SQL 。
然后琢么一下业务或者财务又要求我导出报表,我就特别纳闷,你财务报表天天用Excel来搞,100w行,有数据库还非得用Excel来搞。做几个视图来满足他们的需求,写个脚本,慢慢自己导出。 基本上一上午就过去了,我们9点半上班,11点半吃饭。
下午睡醒了,扫一遍RSS看看有没有什么新的漏洞或者BUG爆出来,有的话,准备升级打补丁。 然后才是重头戏! 开始看书,对于一个DBA来说,你的每一条命令,都至关重要。你COMMIT敲出去或者你的某个回车敲出去,你可先想好,如果出了问题怎么恢复出来。可能你看运维DBA的命令敲的比较简单,什么shutdown immediate,drop table purge什么的,你可想好了,很有可能业务说删除了。你还没开Flash Back,恭喜你,可以来一次愉快的长达6个小时数据库还原。如果归档也没开,好样的!收拾收拾跑路吧。
杨工 Linux运维
早上起来打开nagios,看到一串的报警,比如日志空间不足80%,某个备份没成功,某个计划任务执行失败,某个数据库的索引建立失败,等等……手动全部解决大约11点。
看看昨天值班的日志,各种上线,各种下线,各种修修补补,nginx主配置里增加了14行,8个配置文件;DNS配置增加N行;两块硬盘要换,一台存储机头要换,已经下线在机房等DELL过来换。给IDC的同事打电话确认这些乱事……
开发和测试说某个项目的性能要提升到20W/小时(其实这个项目每日独立ip没超过200),编辑说让我们给他们转换几万个文章的UID,给三个部门的header写邮件“不给项目加服务器、把转uid的任务交给dba”,然后被vp交去办公室说要尽力配合其它部门,回去给值班的同事写邮件说把某个项目加2台服务器,怕被骂只能自己转uid……这就一天结束了。
陈工 运维主管
我最不喜欢的一天:
早上一来到,刚坐下,被一个同事跑过来说一个需求打断一下。一位同事 im 上也提了一个需求。一位同事邮件上也提了一个需求。一位同事电话你也提了一个需求。好,默默地把这些需求记在 todo list 上。
刚坐下,临时被拉去开一次会,同事说要怎样怎样协助他。刚回来,发现 10 分钟后有一个面试。
面试回来,发现 10 分钟后有一个计划中的会议。会议回来,产品功能测试完毕,要协助上线操作。
上线过程没有标准化,生产环境出错,紧急回滚。
抓来这次上线相关人员,讨论为何会出现这样的事故,日后如何规避。
回来后,再次准备上线,这次上线过程全程跟进。终于正常上线完成了。
噢,不。只是功能上线完成,原来还有一个很大的性能问题。继续救火。
调整参数,性能调优,服务器负载终于下去了。
看一下时间,已经差不多是下班的时间了。对着一直在增长的 to do list ,一脸的茫然。
|
|