饿了么技术运营是如何摆平那些恼人事故的
副标题[/!--empirenews.page--]
《饿了么技术运营是如何摆平那些恼人事故的》要点: 饿了么技术运营部、风控管理部高级总监 作者:徐盎 编辑:孙淑娟 徐盎,擅长精益运维、精细化风控,通过与公司其他团队协作、推动并完善运维信息化、标准化、服务化的建设,逐步实现自动化运维及交付,数据可视化,进而做到低成本的保障系统稳定;通过数据与规则适配,以及产品设计、人工审计、风控平台建设使每一元补贴用在公司既定目标的实现上. 饿了么平台不仅做外卖,还有蜂鸟、早餐和未来餐厅,以及很多其他的一些平台,正处在快速扩张阶段.整个外卖的产品链条长,从用户下单到最后配送到达,时间大概是30分钟左右,对时效性的要求非常强. 从技术的角度来看,饿了么遇到的最大挑战是事故.本文将围绕事故展开,分成两部分内容:技术运营经历与心得.第一部分经历又分为三个阶段:精细化分工、保稳定(容量和变更)和增效.第二部分心得,是作者对运维服务的理解. 一、技术运营经历 技术运营的职责是尽最大的努力协同更多的人来达成保稳定的目标,可以划分为两个阶段:运维保障、运维服务.现在,饿了么处在运维服务的阶段,技术运营团队作为乙方,把开发出来的产品,开发测试后的服务,做维护,保障稳定、调优性能、提高资源的利用率. 在业务快速扩张阶段,技术团队需要做哪些事情呢? 首先,第一阶段,精细化分工. 通过精细化分工促进并行提速,让专业的人利用专业的知识、最有效的工作方式提高工作效率及代码吞吐量,建立沟通渠道加速决策、信息流通保稳定. 精细化分工分为三部分内容: 第一部分是做数据库拆分和代码解耦.技术工作集中在数据库的拆分,先纵向拆分,不得已才做横向拆分,为了更快地服务业务的扩张,又夹杂了一些对代码解耦的工作. 所谓代码解耦,是把原来的代码系统想象成一个泥球,把它逐渐拆分成很多块.现在是有十多个业务模块,每一模块里面都有专门的团队来维护,内部又会划分域. 饿了么是数据库、代码拆分并行在做.然后,启动了强制接入新发布系统和单实例、单运用,也就是物理拆分. 在整个的代码解耦和精细化分工的过程当中,他们碰到了很多问题,其中比较典型的两类事故是:
精细化分工的第二部分是组建水平团队,例如大数据是水平团队,业务线是竖向团队,划分之后,从整个业务的发展走势图上升曲线非常陡,可以推断技术并没有防碍业务的快速发展,也就是技术的吞吐量、新产品研发效率是健康的. 期间,运维工程师还做了几件事,比如把监控分为 Metric、Log、Trace、基础设施四个部分.组建 Noc 团队,负责应急响应,当发现有问题的时候,及时把信息通过 Oncall 通报给各成员.还有梳理各类扫除,接入发布、 SOA,降级熔断开发等. 大扫除 大扫除的概念是什么呢?就是工程师对历史的事故进行分析之后,大概做出技术总结,把经常犯的一些错误,列成一些可做的规程,给所在部门的骨干进行宣传.具体内容包括:
第二阶段,保稳定期.头号敌人是容量问题. (编辑:上饶站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |