高清欧美性猛交xxxx黑人猛交_国产激情视频一区二区三区_影音先锋人妻啪啪av资源网站_国模无码一区二区三区_成人麻豆亚洲综合无码精品

使用機器學習(ML)和相關技術的根本原因分析解決方案

使用機器學習(ML)和相關技術的根本原因分析解決方案

IT 工程師經常提到術語“MTTR”(平均修復時間)。這是一個關鍵指標,表明 IT 團隊可以多快地解決懸而未決的問題。盡管我們今天擁有更復雜的監(jiān)控工具,并且可能能夠比以前更早地收到警報,但仍然需要不斷努力尋找根本原因分析解決方案并確定適當?shù)难a救措施。這通常是 MTTR 花費的時間比預期長得多的原因。

使用機器學習(ML)和相關技術的根本原因分析解決方案-美聯(lián)科技

在這種情況下,根本原因分析可以通過結合過去的人類經驗和機器驅動的數(shù)據處理能力來提供幫助,從而更快地提供可見性并建議最佳解決方案候選者。?在我們“馴服 IT 混亂”博客系列的第四篇文章中,我們將介紹使用機器學習 (ML) 和相關技術的根本原因分析解決方案。

情境化警報

當警報發(fā)生時,可能有許多導致它的故障。更好地理解警報的第一步是將其上下文化。通常,可以應用四種情境化:

  1. 垂直堆疊
  2. 水平交通路徑
  3. 交易流程
  4. 時間序列事件關聯(lián)

1.垂直堆疊

現(xiàn)代IT 基礎架構由多個層組成:從物理網絡到主機、服務和應用程序。每一層都有不同的監(jiān)控機制,比如網絡層的流量監(jiān)控,服務層和應用層的服務檢查。將警報與每一層的監(jiān)控指標相關聯(lián)是使警報上下文化的第一步,如下圖所示:

使用機器學習(ML)和相關技術的根本原因分析解決方案-美聯(lián)科技

2. 橫向交通路徑

流量路徑是將警報上下文化的另一個維度。它嘗試將警報與監(jiān)控指標以及流量連接起來。例如,網站問題的根本原因可以追溯到其相關的網關、Web 服務器、功能服務或搜索服務,如下圖所示:

使用機器學習(ML)和相關技術的根本原因分析解決方案-美聯(lián)科技

3. 交易流程

事務是隨后執(zhí)行的一系列動作,共同完成一項任務。交易可以是由搜索、購物車操作和支付組成的高級電子商務流程?;蛘咚梢允堑图墧?shù)據庫 SQL 執(zhí)行,包括多個內存計算步驟和最終提交。建立警報與其事務流的關系將使 IT 操作員能夠將業(yè)務目的與其底層操作聯(lián)系起來,并快速勾勒出警報的影響范圍,從而快速確定關鍵路徑。

4.時間序列事件關聯(lián)

所有 IT 事件都可以應用到時間序列分析中,可以識別事件之間的順序關系,并對相關事件進行分組和排序。順序關系不一定表示因果關系,然而,頻繁的、重復的順序關系可以被視為一種模式,當與其他信息結合時,可能會導致進一步的發(fā)現(xiàn)。

過去事故的監(jiān)督培訓

過去的經驗是解決當今問題的寶貴財富。過去的警報數(shù)據,以及所有上下文數(shù)據和解決方案信息,是機器學習的完美訓練集。它通常是一個有監(jiān)督的學習過程,可以應用多種學習模型,例如回歸、決策樹或神經網絡。通常,沒有適合所有場景的單一模型或一個問題的完美解決方案。機器學習的美妙之處在于它可以結合多個模型的結果,并提供一系列按置信度分數(shù)排序的解決方案。人類可以檢查機器學習模型建議的解決方案,進一步研究或嘗試它們。

超越根本原因分析解決方案

借助與機器學習建議的每個解決方案相關的置信度分數(shù),人類操作員甚至可以建立自我修復機制。對于負面影響也很低的高度自信的解決方案,如果應用它們,人工操作員可以讓機器自動執(zhí)行它們并監(jiān)控結果。當機器智能學習和建模越來越多的經驗時,需要的人工干預越來越少——即使是災難性事件也是如此。這可能是邁向完全自動化的第一步,這是 IT 運營的終極夢想。

客戶經理