DevOps指南
每个公司都是科技公司,无论他们认为自己处在那个行业。银行也只是拥有银行执照的IT公司而已。绝大多数投资项目都在某种程度上依赖于信息技术。想要做出一个不会带来任何IT变更的商业决策几乎不可能。
DevOps介绍
敏捷、持续交付和三步法
在DevOps中,我们通常将技术价值流定义为:把业务构想转化为向客户交付价值的、由技术驱动的服务所需要的流程。流程的输入时既定的业务目标、概念、创意和假设,并将其添加到待完成工作列表中。应用程序或服务只有在生产环境中按预期正常的运行,并为客户提供服务,所有的工作才产生价值。所以,我们不但要快速的交付,同时还要保证部署工作不会产生混乱和破坏。
价值流始于工程师向版本控制系统中提交了一个变更,止于变更成功地在生产环境中运行,为客户提供价值,并生成有效的反馈和监控信息。
聚焦于部署前置时间
- 定义前置时间和处理时间
- 常见的场景:为期数月的部署前置时间
- 我们的目标:分钟级别的部署前置时间
关注返工指标
三步工作法
- 实现开发到运维的工作快速从左向右流动
- 在从右到左的每个阶段中,应用持续、快速的工作反馈机制
- 建立具有创意和高可信度的企业文化
第一步:流动原则
停止开始,开始结束
- 使工作可见
- 限制在制品数
- 减小批量大小
- 减少交接次数
- 持续识别和改善约束点
- 识别系统的约束点
- 决定如何利用这个系统的约束点
- 考虑全局工作
- 改善系统的约束点
- 如果约束点已经突破,则重新开始循环
- 消除价值流中的困境和浪费
- 浪费和困境的类型:
- 库存
- 过量生产
- 过度加工
- 运输
- 等待
- 移动
- 缺陷
- 浪费和困境的类型:
第二步:反馈原则
- 及时发现问题
- 对系统设计和假设进行验证
- 所有工作执行的过程中,建立快速的反馈和前馈贿赂
- 建立全方位的监控系统
- 群策群力,战胜问题获取新知
- 防止把问题带入下游处理环节
- 防止工作中心启动新的工作,避免引入新的错误
- 如果问题没有解决,下次操作之后可能还会遇到相同的问题
- PDCA循环
- 安灯绳的使用
- 在源头保障质量
- 为下游工作中心而优化
第三步:持续学习与实验原则
技术价值流的核心时建立高度信任的问题,整个组织都愿意尝试和实践新技术。
- 建立学习型组织和安全文化
- 使用事故回顾记录工具Morgue
- 消除指责
- 将日常工作的改进制度化
- 把局部发现转化为全局化
- 在日常工作中注入弹性模式(抗脆弱性)
- 改善日常运营,持续引入张力提高生产效率,注入更大弹性
- 通过演习的方式来预演大规模故障,来验证可靠性
- 领导层强化学习文化
从何处开始
选择合适的价值流作为切入点
- 绿地项目于棕地项目
- 兼顾记录型系统和交互系统
- 从最乐于创新的团队开始
- 扩大DevOps的范围
- 发现创新者和早期采用者
- 赢得沉默的大多数
- 识别钉子户
理解、可视化和运用价值流
- 确定创造客户价值所需的团队
- 针对团队工作绘制价值流图
- 使用价值流图记录工作方式
- 了解向客户交付价值需要完成多少工作
- 重点分析和优化工作
- 需要等待数周甚至数月的工作
- 引发或处理重大返工的工作
- 组建专门的转型团队
- 拥有共同的目标
- 保持小跨度的改进计划
- 为非功能性需求预留20%的开发时间,减少技术债务
- 提高工作的可视化程度
- 使用工具强化预期行为
参考康威定律设计组织结构
- 康威定律:系统设计受限于组织自身的沟通结构
- 过度职能导向的危害
- 组织以市场为导向的团队
- 使职能导向有效
- 将测试、运维和信息安全融入日常工作
- 使团队成员都成为通才
- 投资于服务和产品,而非项目
- 创建松耦合架构,提高生产力和安全性
将运维融入日常开发工作
通用原则:
- 构建自服务能力,帮助开发人员提高生产力
- 创建集中式的平台和工具集服务
- 创建共享服务促进标准化
- 发掘内部广泛应用的工具链
- 将运维工程师融入服务团队
- 为每个服务团队分派运维联络人
- 邀请工程师参加开发团队的会议
- 邀请运维工程师参加每日站会
- 邀请运维工程师参加回顾会议
- 使用看板展示运维工作
流动的技术实践
准备部署流水线
部署流水线的目标就是能够基于版本控制系统中的信息重复搭建整套生产环境
- 按需搭建开发环境、测试环境和生产环境
- 应用统一的代码仓库
- 使基础设施的重建更容易
- 出现问题应当快速重建,而不是耗时修复
- 确保环境的一致性
- 可以禁止远程登录生产服务器,杜绝不受控制的配置差异
- 运行在类生产环境里才算“完成”
实现快速可靠的自动化测试
恐惧是心灵杀手。它使新手不敢变更,因为他们不了解系统。它也是老手不敢变更,因为他们太了解系统。
- 对代码和环境做持续构建、测试和集成
- 构建快速可靠的自动化测试套件
- 自动化测试的类型
- 单元测试
- 验收测试
- 集成测试
- 自动化测试中尽早发现错误
- 尽可能并行的快速执行测试
- 先编写自动化测试
- 尽量将手动测试自动化
- 集成性能测试
- 集成非功能性需求测试
- 自动化测试的类型
- 部署流水线失败时拉下安灯绳
应用和实践持续集成
- 小批量开发与大批量合并
- 应用基于主干的开发实践
自动化和低风险发布
- 简化和自动化手动步骤
- 用相同的方式处理所有环境的部署
- 对部署执行冒烟测试
- 维持环境的一致性
- 应用自动化的自助式部署
- 构建:部署流水线必须基于版本控制系统构建可部署到任何环境的软件包
- 测试:任何人都应该能够在他们的系统中运行任何一个自动化测试套件
- 部署:任何人都应该能够将这些软件包部署到具有访问权限的环境
- 在部署流水线中集成代码部署
- 将部署与发布解耦
- 基于环境的发布模式
- 蓝绿部署
- 生产环境和预生产环境的版本切换
- 处理数据库变更
- 创建两个数据库
- 将数据库变更与应用变更解耦
- 金丝雀发布
- 内部生产环境
- 小规模客户生产环境
- 标准生产环境
- 集群免疫系统
- 将生产环境的监控系统与发布流程向联系
- 面向用户的生产环境超出预定范围,自动回滚
- 蓝绿部署
- 基于应用的发布模式
- 实现特性开关
- 实现黑启动
- 基于环境的发布模式
降低发布风险的架构
- 能提高生产力、可测试性和安全性的架构
- 单体架构与微服务
- 绞杀者应用模式
反馈的技术实践
运维团队面对的是复杂系统,没有哪个人能了解整个系统,能说清楚系统的每个部分是如何配合的
建立能发现并解决问题的遥测系统
- 建设集中式监控机构
- 在业务逻辑、应用程序和环境层收集数据
- 负责存储和转发事件和指标的事件路由器
- 建立生产环境的应用程序日志遥测
- 使用遥测指导问题的解决
- 将生产遥测融入日常工作
- 建立自助访问的遥测和信息辐射器
- 发现和填补遥测的盲区
- 应用程序和业务度量指标
- 基础架构度量指标
- 显示叠加的指标组合
分析遥测数据以更好地预测故障和实现目标
- 用均值和标准差识别潜在问题
- 异常状态的处理和告警
- 非高斯分布遥测数据的问题
- 应用异常检测技术
应用反馈实现安全部署
将假设驱动的开发和A/B测试融入日常工作
建立评审和协作流程以提升当前的工作的质量
持续学习与实验的技术实践
将学习融入日常工作
- 建立公正和学习的文化
- 举行不指责的事后分析会议
- 尽可能广泛地公开事后分析会议的结果
- 降低事故容忍度,寻找更弱的故障信号
- 重新定义失败,鼓励评估风险
- 在生产环境注入故障来恢复和学习
- 创建故障演练日
将局部经验转化为全局改进
- 使用聊天室和聊天机器人自动积累组织知识
- 每个人都能够看到发生的一切
- 新来的工程师也可以看到团队的日常工作及其执行方式
- 看到其他人的互相帮助,激发其他人寻求帮助和施予援手的热情
- 建立组织学习,知识得到快速积累
- 固定方式记录并公开所有的沟通信息
- 软件中便于重用的自动化、标准化流程
- 创建全组织共享的单一源代码库
- 程序库、基础设施和环境的配置标准
- 部署工具
- 测试标准和工具,包括安全方面
- 部署流水线工具
- 监测和分析工具
- 教程和标准
- 运用自动化测试记录和交流实践来传播知识
- 通过确定非功能性需求来设计运维
- 把可终用的运维用户故事纳入开发
- 确保技术选型有助于实现组织目标
预留组织学习和改进的时间
- 偿还技术债务的制度化惯例
- 让所有人教学相长
- 在DevOps会议中分享经验
- 传播实践的内部顾问和教练
集成信息安全、变更管理和合规性的技术实践
将信息安全融入每个人的日常工作
保护部署流水线
All articles on this blog are licensed under CC BY-NC-SA 4.0 unless otherwise stated.