什么是AIOps?
自Gartner于2016年創(chuàng)造AIOps一詞以來,人工智能已成為先進技術世界的流行語。AIOps的目標是自動化復雜的IT系統(tǒng)解決方案,同時簡化其操作。
簡單地說,AIOps是一種轉型方法,它使用機器學習和AI技術來運行諸如事件關聯(lián)、監(jiān)控、服務管理、可觀察性和自動化等操作。
借助AIOps,您可以收集和匯總從可觀察性和監(jiān)控系統(tǒng)、不同應用程序或基礎架構生成的不斷增加的數(shù)據(jù),過濾噪音以識別系統(tǒng)性能和可用性問題的事件和模式,并確定根本原因并經(jīng)常自動解決它們或將警報發(fā)送給IT團隊。
如果您不使用AIOps來完成該過程,那么將很難與快速發(fā)生的技術創(chuàng)新一起運行。此外,如果您依賴傳統(tǒng)知識和舊系統(tǒng),您的IT運營更有可能變得不可預測和不可擴展。
正如Gartner預測的那樣,到2023年,40%的DevOps團隊可能會在其應用程序和基礎設施監(jiān)控工具中實施AIOps,以實現(xiàn)更好的平臺性能和功能。
AIOps架構
AIOps架構提供了有助于無縫集成企業(yè)監(jiān)控、服務管理和自動化的方法和技術,以提供完整的AIOps解決方案。
AIOps架構支持跨操作監(jiān)控的洞察力。
如上圖所示,AIOps在IT運營方面具有三個關鍵領域,即Monitor(Observe)、Engage和Act。
與傳統(tǒng)的事件管理和監(jiān)控工具不同,在可觀察性方面,基于機器學習的功能用于確保在滿足組織的監(jiān)控需求的同時,無論其架構如何,都不會留下空白或盲點。
在可觀察性階段,發(fā)生的主要過程包括數(shù)據(jù)攝取、數(shù)據(jù)集成、事件抑制、事件去重、基于規(guī)則的關聯(lián)、機器學習關聯(lián)(包括異常檢測、事件關聯(lián)、根本原因分析和預測分析)、可視化、協(xié)作和反饋。
AIOps架構的參與部分與IT服務管理(ITSM)及其通過不同指標和功能處理流程及其執(zhí)行的功能有關。
由于Engage部分處理服務管理的數(shù)據(jù),它充當ITSM中發(fā)生的所有活動或操作的存儲庫,包括問題管理、配置管理、事件管理、變更管理、容量管理、可用性和服務級別協(xié)議.
在可觀察性事件中,指標、跟蹤和日志充當主要數(shù)據(jù);在Engage中,主要數(shù)據(jù)仍然圍繞在不同流程中的操作執(zhí)行情況,其中數(shù)據(jù)是按需和實時分析的混合。
Engage的主要階段包括事件創(chuàng)建、任務分配、任務分析、代理分析、變更分析、流程分析、可視化、協(xié)作和反饋。
最后,在Act階段,實際的技術任務執(zhí)行發(fā)生。該行為是執(zhí)行所有技術任務的最后階段,例如變更執(zhí)行、事件解決、服務請求執(zhí)行等。在這里發(fā)現(xiàn)的所有事件都得到解決,系統(tǒng)恢復正常狀態(tài)。
AIOps是如何工作的?
您可以通過查看支持其流程的技術組件(機器學習、大數(shù)據(jù)和自動化)來簡單地了解AIOps的工作原理。AIOps在獨立部署時效果最佳,并提供一個集中式系統(tǒng)來協(xié)作收集和分析來自多個監(jiān)控源的數(shù)據(jù)。
注意:數(shù)據(jù)可以包括流式實時事件、網(wǎng)絡數(shù)據(jù)、歷史性能事件、系統(tǒng)日志和指標、事件相關或票務。
收集數(shù)據(jù)后,AIOps實施機器學習和分析功能,以:
- 從大量數(shù)據(jù)中識別和分離重要的異常事件警報。
- 發(fā)現(xiàn)異常事件的根本原因并提出解決方案。
- 自動向運營分析師發(fā)出警報以及建議的解決方案。
- 根據(jù)問題的性質為異常事件創(chuàng)建補救措施并實時解決問題。
最后,基于分析結果,AIOps的機器學習有助于調整算法,甚至創(chuàng)建新算法來確定早期階段的問題并提出極具影響力的解決方案。簡而言之,鑒于之前的結果,AIOps模型繼續(xù)改進。
AIOps的核心要素
說到這里,你一定知道,AIOps背后的核心要素是大數(shù)據(jù)和機器學習。
為了理解這兩個術語,我們將在這里更好地了解它們。
1.大數(shù)據(jù)
由于AIOps從眾多資源中獲取數(shù)據(jù),因此基于大數(shù)據(jù)技術構建AIOps平臺至關重要。大數(shù)據(jù)是指使用傳統(tǒng)軟件進行數(shù)據(jù)處理無法處理的復雜、龐大的數(shù)據(jù)集。它包含的數(shù)據(jù)種類更多、數(shù)量增加且速度快,也被稱為大數(shù)據(jù)的三個V。
由于AIOps將來自不同來源的大型、復雜、多變的數(shù)據(jù)集集成到數(shù)據(jù)倉庫中,因此如果不使用大數(shù)據(jù)平臺,處理如此大量數(shù)據(jù)的速度可能會變得難以管理。
2.機器學習
AIOps的第二個也是最重要的部分是機器學習,這是人工智能的一個關鍵方面。機器學習的核心是研究人類行為,以使用算法和數(shù)據(jù)來復制它們。當ML在獲取信息以解決任務后實施時,它可以提供比人類本身更好的結果準確性。
同樣,ML幫助AIOps平臺利用其能力來分析數(shù)據(jù)并檢測模式和異常,同時監(jiān)控事件和實體。然后使用分析的數(shù)據(jù)來提供見解并找到根本原因警報。
AIOps的好處和挑戰(zhàn)
AIOps的主要優(yōu)勢如下:
- 更高的系統(tǒng)可用性:由于AIOps確?,F(xiàn)代混合基礎設施的最大應用程序可用性,它已成為潛在的游戲規(guī)則改變者。
- 在修復的同時更好地遵守SLA:與IT服務管理功能集成,AIOps可以找到事件模式,識別有用的見解,并允許自動化解決方案。所有這些都減少了平均修復時間,同時超出了SLA合規(guī)性。
- 最小的人為錯誤:由于AIOps自動化了IT團隊處理的大多數(shù)日常和迭代的操作任務,它同時減少了人為錯誤。
- 更好的自動化事件檢測:AIOps節(jié)省了大量時間,因為它通過引導事件分析來驗證事件,從而減少了由于偽事件而產(chǎn)生的噪音。
- 預測和憤怒預防:AIOps使用基本KPI來衡量運營績效,創(chuàng)建智能建議以幫助IT運營完成其目標。
- 成本優(yōu)化:成熟的AIOps系統(tǒng)可以通過將任務從人類轉移到算法來有效地降低運營成本,從而引導人力資源將時間花在其他重要任務上。
- 更好的環(huán)境可見性:使用AIOps,企業(yè)可以識別機會、制定戰(zhàn)略決策并識別IT運營中的低效率。
AIOps面臨的一些挑戰(zhàn)是:
- 困難的組織變革管理。
- 不匹配的期望。
- 剛性過程。
- 數(shù)據(jù)可用性和監(jiān)控困難。
- 缺乏領域輸入。
- 不準確的預測分析。
- 由于數(shù)據(jù)漂移,歷史數(shù)據(jù)的最低準確度。
- 難以理解機器學習。
AIOps的用例
眾所周知,AIOps旨在收集和分析IT運營數(shù)據(jù)。AIOps的一些流行用例包括:
異常檢測
AIOps不斷分析數(shù)據(jù)并將其與有助于檢測潛在問題的歷史事件進行比較。
事件事件關聯(lián)
您可以將AIOps用于事件事件關聯(lián),因為它可以快速處理和分析事件數(shù)據(jù),同時在問題失控之前提供解決方案。
預測分析
除了早期錯誤檢測外,具有數(shù)據(jù)收集和分析功能的AIOps還可以幫助機器學習算法了解當前和歷史數(shù)據(jù)趨勢,同時提供對未來結果的可行見解。
數(shù)字化轉型
隨著AIOps從ITOps中消除新技術的復雜性,創(chuàng)造了一個不受限制的轉換的新空間。它可以幫助組織利用靈活性來實現(xiàn)新的進步來處理他們的戰(zhàn)略目標。
根本原因分析
人們還可以使用AIOps通過關聯(lián)大量數(shù)據(jù)點、跟蹤事件模式等來分析根本原因。AIOps的根本原因分析可幫助企業(yè)及其用戶更有效地識別和解決問題,從而改善客戶體驗。
云采用/遷移
借助AIOps,可以清楚地了解云采用和遷移正在轉變的相互依賴關系,從而最大限度地降低與這種轉變相關的風險。
AIOps的未來
鑒于技術的進步,大多數(shù)組織正在從傳統(tǒng)基礎架構轉變?yōu)樵谔摂M化環(huán)境中運行的動態(tài)基礎架構,可以根據(jù)需要進行重新配置和擴展。
但是,正如我們所知,這些系統(tǒng)往往會無休止地生成大量數(shù)據(jù)。甚至Gartner也表示,IT基礎設施更有可能每年創(chuàng)建兩到三倍的運營數(shù)據(jù)。
毋庸置疑,傳統(tǒng)解決方案無法跟上這樣的數(shù)據(jù)量,無法對周圍環(huán)境中的事件進行分類或關聯(lián)數(shù)據(jù)以提供對IT運營的實時分析和洞察以滿足客戶需求。
但是,由于AIOps在分析數(shù)據(jù)、提取異常事件或自動向IT團隊發(fā)出警報時提供對整個基礎架構的依賴關系和性能的可見性,它成為現(xiàn)代組織的最佳解決方案。
毫無疑問,AIOps是利用現(xiàn)代機器學習和大數(shù)據(jù)以及其他高級分析技術的平臺,通過找到問題的根本原因并提供推薦的解決方案,通過動態(tài)、主動和個性化的洞察力來改進IT運營。