自從我學習和通過了精益(Lean IT leadership)、敏捷(Scrum Master)、DevOps(DevOps Master)相關認證后,對運維管理和運維工作本身有了新的思考和啟發。本文我們將圍繞保障業務連續性、敏捷交付業務價值和提升員工滿意度3個階段進行探討,同時分享不同階段的實現思路供各位參考。
01. 運維管理的終極目標——BVSSH
運維管理的最重要的職責之一是保障業務連續性——負責系統的運行維護,保障業務安全穩定地運行。時過境遷,在VUCA的數字化時代,運維管理僅關注業務連續性保障是遠遠不夠的。新的時代提出了新的要求——BVSSH,更快(Sooner)更安全(Safer)地交付更好(Better)的價值(Value)給到客戶,同時讓客戶和員工滿意(Happier)。

▲ 源自書籍《Sooner Safer Happier:Antipatterns and Patterns for Business Agility》如有侵權請聯系刪除
Better(更好): 代表的是質量,比如:更少的生產事故、更短的災難恢復時間、更少的產品缺陷和返工工作;
Value(價值): 代表的是業務價值,如:增加營業額、增加利潤、增加客戶數量;
Safer(更安全): 意味者持續合規(GRC)——治理(Governance), 風險(Risk)和合規(Compliance);
Sooner(更快): 端到端的交付效率,也是精益和敏捷的核心。常用的度量指標有前置時間(Lead Time)、流動效率(Flow Efficiency)、吞吐量(Throughput)等;
Happier(更快樂): 關于員工和客戶的滿意。這是一種更人性化、更吸引人的工作方式。
在本文中,我們將運維管理發展分為3個階段:
第一階段:保障業務連續性(Safer),保障業務安全穩定的運行;
第二階段:敏捷交付業務價值(Sooner),快速響應市場變化交付業務價值;
第三階段:提升員工滿意度(Happier),提升員工和客戶滿意度。
02. 第一階段:保障業務連續性(Safer)
指通過事前預防、事中管控、事后處理的全過程管理,保障業務安全穩定的運行。
1)如何度量業務連續性?
業務連續性比較常用的衡量指標有MTTR/MTBF、SLA/OLA和RTO/RPO,介紹如下:
① MTTR/MTBF:
平均恢復時間(MTTR,Mean Time To Repair):指系統從發生故障到恢復結束之間的時間段的平均值;
平均故障間隔時間(MTBF ,Mean Time Between Failure):指系統兩次故障發生時間之間的時間段的平均值。
② SLA/OLA:
服務水平協議(SLA, Service level Agreement):是服務提供商與其客戶之間關于提供滿足客戶期望的服務的協議或合同。SLA都是關于滿足業務級別要求和管理業務期望的,例如,如果發生中斷,業務可以期望服務中斷多長時間;
操作級別協議(OLA, Operation Level Agreement):是服務提供商為其內部客戶建立的遵守SLA的承諾或協議。OLA用于監視內部服務協議,例如事件的響應時間、分配給IT組的問題、支持多個應用程序的服務器的可用性等。
③ RTO/RPO:
恢復時間目標(RTO,Recovery Time Objective):當業務發生中斷后,從業務發生中斷時開始,到將業務恢復到正常所需要的時間,此兩點之間的時間段稱為RTO。
恢復點目標(RPO,Recovery Point Objective):是指可接受的數據丟失的最大數據量,也就是容忍丟失的最大數據量。RPO表示為從丟失事件到最近一次備份的時間度量。
2)如何保障業務連續性?
關于業務連續性管理和保障方面業界都有成熟的標準體系和實踐了,這里不做詳細的闡述,僅列舉國際標準ISO 22301業務連續性管理體系和Google SRE 服務可靠度層級模型。ISO 22301業務連續性管理體系,能夠幫助企業制定一套一體化的管理流程計劃,使企業對潛在的災難加以辨別分析,幫助其確定可能發生的沖擊對企業運作造成的威脅,并提供一個有效的管理機制來阻止或抵消這些威脅,減少災難事件給企業帶來的損失。
書籍《SRE:Google運維解密》提出了Google SRE 服務可靠度的7層模型,包括:

03. 第二階段:敏捷交付業務價值(Sooner)
指通過優化快速高效的價值流動,快速響應市場變化,快速迭代、反饋和學習,并將價值交付給客戶。
1)如何度量業務交付效率?
關于對業務端到端交付效率(Sooner),本文采用了精益的3個關鍵度量指標:
① 前置時間(Lead Time):從用戶提出需求到最終將價值交付給客戶的端到端的時間。減少前置時間可以促進快速的反饋和學習;
② 流動效率(Flow Efficiency):工作時間(如:軟件開發、測試、部署)除以前置時間得到的百分比,與工作時間(Working)相反的就是等待(Waiting)時間(如:流程審批)。需要特別注意的是,流動效率關注的是“事”,而資源利用率關注的是“人”;提升流動效率需要通過識別減輕流程的障礙,限制正在進行的并發工作,而不是增加人的工作。

▲ 源自書籍《Sooner Safer Happier:Antipatterns and Patterns for Business Agility》如有侵權請聯系刪除
③ 吞吐量(Throughput):吞吐量是給定時間內交付到客戶手中的有價值的項目的計數。
2)如何提高業務交付效率?
精益價值流映射方法可以幫助企業識別以客戶為視角的整個交付過程,同時有助于建立整體思維,避免局部優化,提高端到端的交付效率。具體操作可以通過以下三個步驟:
① 通過價值流映射,確定優化的價值流類型
主要價值流:從用戶提出需求到交付給客戶的全過程。如:從“需求-設計-開發-測試-部署-運營”的全過程。
價值流片段:是相對于主要價值流而言的,如:軟件設計、代碼編寫、功能測試、和應用投產等都是價值流片段。
支持價值流:為價值交付提供支持的,典型的例子有:招聘、員工培訓、預算處理等。
② 識別并消除不必要非增值活動
增值活動:直接為顧客創造價值的活動,如:功能開發;
必要非增值活動:不直接創造客戶價值但又是必要的,如:計劃變更、流程審批、人員培訓;
不必要非增值活動:即是浪費,應當優先消除。最為明顯的浪費就是等待——比如醫院的排隊掛號、排隊看病、排隊繳費和排隊取藥。IT常見的就是等待流程審批和等待資源采購。
③ 識別并消除瓶頸
價值流思想是以客戶為中心的,識別瓶頸需要具備整體思維。只有當這個階段或步驟成為整個價值流瓶頸時,再優化它才有價值,否則這只是一種局部優化。這里我們以“應用發布“為例進行說明:

如上圖所示,我們在企業看到的做應用發布自動化項目,大體上可以分為三類:
① 發布執行自動化(上圖綠色部分):將發布步驟的人工操作交給工具執行,實現發布操作的自動化;毋庸置疑這有利于提高發布過程的標準化和規范化。請思考:將發布執行自動化能否明顯縮短端到端的交付效率呢?答案是不一定,有可能你的發布方案制定、發布排期和發布審批就花費了2個月的時間,那對于“發布執行“手工操作從1小時提升到自動化執行的5分鐘價值是不大的。如同醫院的例子,讓醫生看病的時間從3分鐘/每人縮短到2分鐘/每人,這省下來的1分鐘對于用戶半天的等待時間來說只是冰山一角。
② 發布過程自動化(上圖藍色部分):實現從發布請求開始到發布方案關閉的過程自動化,能夠明顯提升應用發布過程效率,這個提升至少是在運維團隊能夠明顯感知到的。請思考:發布過程自動化是否會極大提升業務價值端到端的交付效率嗎?答案仍然是不一定。除非你的發布過程是整個全過程的瓶頸。
③ 全過程自動化(上圖灰色部分):實現從需求到客戶的全過程自動化,可以顯著地提升交付效率,縮短產品上市周期,快速反饋和迭代。很顯然,全過程的優化需要從傳統的部門思維和筒倉思維轉變為整體思維和全局思維。
04. 第三階段:提升員工滿意度(Happier)
越來越多的企業開始關注客戶成功,然而客戶的成功來源于客戶的滿意,而客戶滿意的前提是內部員工的滿意。
1)如何度量員工滿意度?
凈推薦值:NPS(Net Promoter Score),凈推薦值,亦可稱口碑,是一種計量某個客戶將會向其他人推薦某個企業或服務可能性的指數。NPS既可以用于度量產品服務,也可以用于度量員工的忠誠度。通過密切跟蹤凈推薦值,企業可以讓自己更加成功。

凈推薦值使用方式也比較簡單,可以向員工提問并在0-10之間打分,例如你是否愿意向朋友及同事推薦該公司,根據得分情況分為3個范疇:
推薦者(得分在9-10之間):是具有狂熱忠誠度的人,他們會繼續將公司或產品引薦給其他人;
被動者(得分在7-8之間):總體滿意但并不狂熱,一般不會向其他人引薦公司或產品;
貶損者(得分在0-6之間):對公司不滿意或者沒有忠誠度,不會向其他人引薦公司或產品,甚至還進行貶低。
最終凈推薦值(NPS)=(推薦者數/總樣本數)×100%-(貶損者數/總樣本數)×100%
2)如何提升員工滿意度?
關于提升員工滿意度,當然方式有很多,本文中列舉3個思路:企業服務管理(ESM)、為運維人員賦能和應用精益持續交付實踐。
思路1:企業服務管理(ESM)
企業服務管理(Enterprise Service Management)是將IT服務管理應用到企業或組織的其他領域的實踐,包括但不局限于:HR、財務、法務、行政、市場、采購和安全等團隊,目的是提高效率、服務交付和用戶體驗。簡而言之,它將在IT服務管理(ITSM)中工作良好的東西應用到整個企業中。

▲ 來源于BMC官網,如有侵權請聯系刪除
正如BMC官網所展示的,應用ESM的六大好處之一——提升用戶滿意度(Increase user satisfaction)。隨著流程幫助定義角色和職責,內部用戶將對請求期望更加滿意。(滿意的內部用戶會影響到你的外部客戶,他們也會看到這種改進)
企業服務管理(ESM)平臺至少具備4個核心能力:
① 自服務門戶:提供多終端(手機、平板和PC)的用戶自助入口,讓用戶自助按需申請所需要的服務,顯然服務門戶的用戶體驗設計至關重要;
② 知識庫:用戶可以自助查找并解決一般性問題,同時對知識庫的知識沉淀和標準化提出了新的要求;
③ 自動化交付:用戶提交服務申請后,自動調度后臺系統完成服務的快速交付;
④ 服務編排能力:通過拖拽式免代碼或低代碼的服務流程編排引擎,快速組裝編排滿足各種不同場景的服務流程。

思路2:為運維人員能力賦能,減輕運維人員危機感
在2022年“時間的朋友“跨年演講中,羅胖提到《全球人力資本趨勢報告》中有一句話——“企業要為員工的生存能力負責“。在云原生時代,基礎設施都云化了,資源交付都自動化了,運維操作也都工具了,敢問運維人員未來的路在何方?作為運維團隊和IT部門需要為員工提供一個職業升級的平臺和賦能培訓。作為運維人員我認為至少有3個方向可以走:

運維開發:開發統一化、規范化和自動化的運維工具,將重復性手工操作和經驗沉淀到工具平臺,提供運維效率;
運維經理:統籌協調,并帶領運維團隊左移,提前參與項目團隊,與項目組討論非功能性需求和可運維性;
運維專家:運維技術棧的“定海神針“(如:DBA)
當然,運維開發的工具除了解決運維本身的需求,還可以間接賦能測試人員(如:測試環境資源開通)和開發人員(如:日志查詢),與此同時制定運維規范。

思路3:應用精益管理和持續交付實踐
書籍《Accelerate》根據多年研究發現,應用精益管理實踐、軟件開發實踐、持續交付和文化變革都會影響到員工的滿意度,具體細節可以閱讀原書。

▲ 源于書籍《Accelerate:Building and Scaling High Performance Technology Organizations》如有侵權請聯系刪除
本文結合個人多年工作經驗和自身思考總結了運維工作的3個階段,其中第一、二階段更多還是聚焦在“事”本身,而到達第三階段需要回歸到“以人為本”,同時借助精益、敏捷和DevOps思想,讓員工滿意,讓客戶成功。
嘉為藍鯨CPack制品管理平臺:聯邦倉庫——助力跨團隊、跨地域、跨組織的制品資產協作
2025-08-29
查看詳細
嘉為藍鯨CMeas研發效能洞察平臺:一鍵保存你的專屬查詢儀表板
2025-08-29
查看詳細
嘉為藍鯨WeOps數據庫監控新范式:以專業監控視圖,賦能高效運維管理
2025-08-29
查看詳細
Jira國產化替代:從合規到價值,嘉為藍鯨DevOps敏捷協同平臺的破局之道
2025-08-29
查看詳細
嘉為藍鯨CCI持續集成平臺:掌控CI/CD全流程,流水線Stage準入讓部署更可靠
2025-08-22
查看詳細
嘉為藍鯨CMeas研發效能洞察平臺:研發效能周報,自動推送領導郵箱
2025-08-22
查看詳細
申請演示