監控系統的本質是通過發現故障、解決故障、預防故障來為了保障業務的穩定。而要想在企業內實現監控系統的體系化建設落地,需要從以下三個方面著手建設,分別是監控技術體系、監控指標體系、監控管理體系。
01. 監控技術體系
一般來說,一個完整的監控系統,可以抽象為采集+數據+算子+告警四個基本模塊,缺一不可。
1)采集
① 采集方式
數據采集方式一般分為Agent模式(Agent-based)和非Agent模式(Agentless);
Agent模式包括各種插件采集、各種格式的腳本采集、主機日志采集、主機進程采集、APM探針和SDK等;
非Agent模式包括SNMP、IPMI/Redfish、SSH、JMX、ODBC/JDBC、Syslog、ICMP、HTTP(s)、TCP/UDP、SMTP等各種通用協議的數據采集。
② 采集頻率
采集頻率一般有分秒級、分鐘級之分,常用的采集頻率為分鐘級;同時也有基于條件觸發式的隨機采集或上報。
關于分鐘級與秒級也有不少爭論,常有人認為越快越好,認為越快就能更快發現問題。但是秒級的采集頻率的增加,這對目標機器性能的影響也會增加,若因為數據采集導致業務性能本身出現問題,這就本末倒置了。而且,隨著數據量加倍,存儲成倍增加,計算量級指數型增長,帶來的成本損耗可能遠超秒級監控帶來的好處。
在實際的應用場景中,需要思考使用秒級頻率是否真的值得,是否能帶來對應的業務價值。秒級監控是監控系統的一種必備的能力,但并不是所有的指標都需要秒級監控,需要挖掘真正的價值場景,而不是為了秒級而秒級,白白浪費資源,徒增維護成本。
③ 采集傳輸
采集傳輸按傳輸發起模式分類有主動采集Pull(拉)、被動接收Push(推);按傳輸鏈路分類有直連模式、Proxy傳輸。其中Proxy傳輸不僅能解決監控數據跨網傳輸的問題,還可以緩解監控節點數量過多導致出現的數據傳輸的瓶頸,用Proxy機制實現數據傳輸負載分流。
2)數據
① 數據類型
監控的數據類型有指標(Metrics)、日志(Logs)、調用鏈(Traces)三種類型。指標數據是數值型的監控項,主要是通過維度來做標識;日志數據是字符型的數據,主要是從中找一些關鍵字信息來做監控;調用鏈數據反饋的是跟蹤鏈路一個數據流轉的過程,觀察過程中的耗時性能是否正常。
由于數據類型不同,也衍生出了三類不同的監控系統。指標類型的監控,典型代表比如Zabbix、普羅米修斯。日志類常見的監控系統有ELK、Splunk等,主要關注日志類數據的分析和監控。調用鏈是通過TraceID來追蹤請求的過程來進行監控,即APM(應用性能監控),例如Dynatrace、Skywalking等。
② 數據存儲
對于監控系統來說,主要有以下三種存儲供選擇:
③ 數據視圖
數據視圖主要是將監控的數據以一種人類便于理解的方式呈現出來,面向不同的角色會有不同的呈現方式,例如領導、管理員、值班員等關注的點都不一樣。常見的數據視圖模式有以下幾種:
3)算子
① 數據加工
數據加工一般分為:數據清洗、數據計算、數據豐富、指標派生。
② 數據檢測
有固定規則和AI算法。固定算法是較為常見的算法,靜態閾值、同比環比、自定義規則,而機器學習主要有動態基線、毛刺檢測、指標預測、多指標關聯檢測等算法。無論是固定規則還是機器學習,都會有相應的判斷規則,即常見的< > >=和and/or的組合判斷等。
4)告警
① 告警收斂
告警收斂有三種思路:抑制、屏蔽和聚合。
② 告警通知
對于一個成熟的監控,還需要支持自定義通知渠道擴展(比如企業里有自己的IM系統,可以自行接入)
關于上述4個方面便是一個站在技術的角度對監控系統的一個抽象,但是要落地監控系統,僅僅依靠一個技術強大的工具是遠遠不夠的;接下來介紹的將是監控系統的核心數據管理—監控指標體系。
02. 監控指標體系
為什么要搭建指標體系?通過指標體系監測應用運行的狀況,最大的價值就是高效利用時間,把時間花在解決問題上,而不是尋找問題上,從而提高整體的人效。指標體系的輸出結果應當是一份指標字典,需要至少滿足以下要求:
1)核心理念
2)體系設計
從企業業務應用的視角出發,一般將企業監控的對象分為6層:基礎設施層、硬件設備層、操作系統層、組件服務層、應用性能層、業務運營層;也可以根據企業自己的情況進行調整。

① 基礎設施層
② 硬件設備層
③ 操作系統層
④ 組件服務層
⑤ 應用性能層
⑥ 業務運營層
⑦ 指標分級管理
根據上述梳理的指標清單,對于指標本身也建議能夠做一個分級管理。一般分三級,按重要程度區分:核心指標、關鍵指標和常規指標。
核心指標一定要配置告警基線,關鍵指標建議配置,而常規指標可以按業務場景考慮是否配置。后續通過不同指標的分級、權重,便可以很容易地建設起企業內地應用健康評估模型,衡量整個應用的健康情況。
通過上述分層分類的指標體系設計,可以對企業內的指標進行一個清晰的歸納和管理,再結合一套優秀的監控工具,便可實現企業IT資源應用的無死角監控,但要想監控系統在企業內實現長治久安,甚至不斷進化,還得搭配下面即將介紹的監控管理體系。
03. 監控管理體系
監控的管理最重要的便是告警閉環管理,很多企業建設了很多套監控系統,都能產生告警,但是告警之后呢?沒有然后了。對于監控體系的落地,運營管理比系統建設更加重要。只有將監控系統產生的告警治理起來,監控系統才能發揮其應有的價值,監控體系化建設過程才能出現正向的進化,而不是用著用著就沒用了。
1)告警閉環管理
告警事件的閉環管理可以分為三個大的階段,事前、事中、事后。事前核心關注發現問題的發現和預防,提示告警處理的效率;事中核心關注快速發現和解決問題,快速恢復業務,保障業務連續性,降低損失;事后核心關注問題的根因復盤,優化告警預防的方案和下次告警處理的效率。

① 告警預防管理(事前)
告警預防階段,主要是針對可能出現的問題進行規避,核心是評估、調優、監測和預案。
② 告警處理管理(事中)
告警處理階段流程最為復雜,又可以分為告警感知、告警響應、告警定位、告警恢復4個過程。
在具體談告警處理之前,先說說告警分級,只有對告警提前進行分級,才能在告警發生時有條不紊,采取不同的應對策略。告警一般分為三級,致命、警告、提醒。致命告警一般代表服務已經異常,需要馬上進行處理;警告告警一般代表如果不進行及時處理,服務即將異常;提醒告警一般代表一些潛在問題,需要開始關注或提前采取行動,避免異常產生。另外,告警分級的設定的影響因子也有很多,一般來說對象等級、指標等級、所屬環境(生產/測試/準生產等)、業務重要性等為核心考慮因子。
③ 復盤改進機制(事后)
告警復盤改進也可以分3個部分,分別是問題復盤、經驗積累、改進優化。
為了更好的落地監控體系,還得有建設成果的衡量指標,主要可以從監控覆蓋廣度和告警處理效率兩方面來看。
2)運營管理指標
① 監控覆蓋率
主要是監控對象采集覆蓋率、監控指標覆蓋率兩個指標,主要衡量監控的推廣使用情況。監控對象采集覆蓋率一般通過監控任務覆蓋的對象實例數和CMDB中該對象的實例總數進行對比得出;監控指標覆蓋率,一般是某個實例的規劃指標總數和該實例的采集指標數進行對比得出。
② 告警處理指標

從告警生命周期的過程來看,會有告警發生時間、發現時間、響應時間、診斷時間、告警處理開始時間到告警恢復時間等關鍵時間節點,衡量告警管理會有如下幾個關鍵指標。
告警管理的根本目標便是降低MTTA,縮短MTTR,提升MTBF。即:快速發現并響應故障;快速定位并解決故障;減少故障發生,提升業務連續性。
其中的MTTA、MTTR便是運維團隊工作的告警處理的最好衡量指標,直接反饋了團隊的告警處理效率和告警處理能力。
嘉為藍鯨CPack制品管理平臺:聯邦倉庫——助力跨團隊、跨地域、跨組織的制品資產協作
2025-08-29
查看詳細
嘉為藍鯨CMeas研發效能洞察平臺:一鍵保存你的專屬查詢儀表板
2025-08-29
查看詳細
嘉為藍鯨WeOps數據庫監控新范式:以專業監控視圖,賦能高效運維管理
2025-08-29
查看詳細
Jira國產化替代:從合規到價值,嘉為藍鯨DevOps敏捷協同平臺的破局之道
2025-08-29
查看詳細
嘉為藍鯨CCI持續集成平臺:掌控CI/CD全流程,流水線Stage準入讓部署更可靠
2025-08-22
查看詳細
嘉為藍鯨CMeas研發效能洞察平臺:研發效能周報,自動推送領導郵箱
2025-08-22
查看詳細
申請演示