淺談:云原生可觀測性的未來
近年來,隨著企業(yè)應(yīng)用程序和基礎(chǔ)設(shè)施的不斷發(fā)展,可觀測性已經(jīng)成為管理和維護(hù)復(fù)雜系統(tǒng)的關(guān)鍵能力。隨著系統(tǒng)變得越來越復(fù)雜,可觀測性也必須不斷發(fā)展才能跟上不斷變化的需求。在這個背景下:可觀測性的下一步將會是什么?
一、云原生可觀測性所走過的歷程
近年來,隨著微服務(wù)和分布式系統(tǒng)的廣泛應(yīng)用,企業(yè)越來越依賴可觀測性來管理和維護(hù)復(fù)雜的系統(tǒng)和基礎(chǔ)設(shè)施。然而,這種依賴也帶來了新的挑戰(zhàn),因為理解實時系統(tǒng)行為變得更加困難,而這對于解決問題至關(guān)重要。
為了應(yīng)對這些挑戰(zhàn),越來越多的企業(yè)開始采用自動化監(jiān)控分布式架構(gòu)、深度跟蹤和實時可觀測性等技術(shù)手段來解決問題。然而,隨著系統(tǒng)變得越來越復(fù)雜,可觀測性必須不斷發(fā)展才能跟上不斷變化的需求。
在未來,可觀測性的發(fā)展將繼續(xù)受到關(guān)注。每十年都會帶來可觀測性運作方式的巨大變化。過去三十年見證了一次又一次的轉(zhuǎn)型——從本地云到云,現(xiàn)在是云原生。每一代人都會面臨新的問題需要解決,這為新公司的成立打開了大門。
在本地云時代,催生了 Solarwinds、BMC 和 CA Technology 等幾家公司。隨著云時代的到來(即 AWS 出現(xiàn)),市場的格局發(fā)生了變化,出現(xiàn)了 Datadog、New Relic、Sumologic、Dynatrace、Appdynamic 等新公司。
而隨著云原生時代的到來(從2019-20年開始),市場又迎來了另一次動蕩。因此,可觀測性的下一步將會是什么,仍然是一個值得關(guān)注和探討的問題。
二、云原生可觀測性未來可能面臨的一些挑戰(zhàn)
當(dāng)前的變革主要源于企業(yè)在構(gòu)建軟件方面使用了與 2010 年完全不同的技術(shù)。相較于單一架構(gòu),他們更傾向于使用微服務(wù)、Kubernetes 和分布式架構(gòu)等技術(shù),以期獲得更好的安全性、更容易的擴展性,以及提高分布式團隊的效率。
然而,這種新技術(shù)也帶來了一些挑戰(zhàn)。根據(jù) Gartner 的數(shù)據(jù),到 2025 年,預(yù)計 95% 的系統(tǒng)將采用云原生技術(shù)。由于云原生技術(shù)生成的數(shù)據(jù)量比前幾代技術(shù)要大得多,因此托管和擴展這些數(shù)據(jù)變得更具挑戰(zhàn)性。這也帶來了三個主要問題需要解決:
1、成本問題
第一個問題相對簡單,即成本問題。所有傳統(tǒng)的可觀測性公司都變得如此昂貴,以至于大多數(shù)初創(chuàng)公司和中型企業(yè)難以承擔(dān)這樣的費用。因此,他們被迫使用舊技術(shù)來托管和處理數(shù)據(jù),但這些技術(shù)已經(jīng)無法滿足 2023 年初創(chuàng)企業(yè)的需求。這種情況導(dǎo)致了一個明顯的差距:大型企業(yè)可以輕松承擔(dān)高昂的可觀測性成本,而小型企業(yè)則無法承擔(dān)這樣的費用。這也使得小型企業(yè)在競爭中處于劣勢地位。因此,如何降低可觀測性的成本,是當(dāng)前亟待解決的問題之一。
2、關(guān)注點偏向問題
隨著可觀測性的能力變得更加先進(jìn),開發(fā)和運營團隊跟蹤的重點也發(fā)生了變化。以前,主要關(guān)注點是確保應(yīng)用程序和基礎(chǔ)設(shè)施不會崩潰。但現(xiàn)在,開發(fā)和運營團隊正在更深層次上運作,優(yōu)先考慮如下事項:
(1)請求延遲
(2)飽和
(3)可擴展性
(4)使用情況的交通地圖
(5)優(yōu)化和預(yù)測未來結(jié)果
(6)新代碼如何改變云使用情況
總而言之,開發(fā)和運營團隊變得更加主動而不是被動,需要更高級的技術(shù)來支持他們的工作。這也表明,可觀測性的優(yōu)先事項已經(jīng)從簡單的系統(tǒng)穩(wěn)定性轉(zhuǎn)向了更加深入的業(yè)務(wù)需求,如性能優(yōu)化、擴展性和預(yù)測等方面。因此,開發(fā)和運營團隊需要不斷學(xué)習(xí)和掌握新的技術(shù),以適應(yīng)這種變化和挑戰(zhàn)。
3、價值賦能問題。
最后,微服務(wù)架構(gòu)的興起改變了 IT 團隊觀察應(yīng)用程序變化的方式。相較于單一架構(gòu),微服務(wù)架構(gòu)中的一個服務(wù)可以跨越多個節(jié)點運行,而多個小型服務(wù)也可以在一個節(jié)點上運行。這意味著“一刀切”的方法已經(jīng)不再適用。開發(fā)和運營團隊需要進(jìn)行更深入的分析,以了解其基礎(chǔ)設(shè)施中發(fā)生的情況,并且需要適應(yīng)不斷變化的可觀測性需求。因此,對于可觀測性的期望也在不斷變化。
以前,可觀測性的主要目標(biāo)是確保應(yīng)用程序和基礎(chǔ)設(shè)施不會崩潰,但現(xiàn)在,它已經(jīng)發(fā)展成為一個更加復(fù)雜、更加深入的領(lǐng)域,需要更加高級的技術(shù)和工具來支持各種需求,如性能監(jiān)控、錯誤檢測、安全性和合規(guī)性等方面。因此,開發(fā)和運營團隊需要不斷更新自己的知識和技能,以跟上可觀測性領(lǐng)域的發(fā)展和變化。
因此,隨著技術(shù)的不斷發(fā)展和變革,未來的企業(yè)將需要更好地應(yīng)對這些挑戰(zhàn),以確保其軟件系統(tǒng)的可靠性和穩(wěn)定性。
三、新一代可觀測工具應(yīng)該是什么樣的?
那么,對于新一代可觀測工具,在 2023 年應(yīng)該如何應(yīng)對這些挑戰(zhàn)呢?或許,如下的相關(guān)觀點或建議可幫助大家進(jìn)行應(yīng)對,具體可參考:
1、統(tǒng)一的可觀測性
第一個主要問題是如何實現(xiàn)統(tǒng)一的可觀測性。許多傳統(tǒng)公司聲稱他們有一個統(tǒng)一的可觀測平臺,但實際上,他們只是提供了不同的選項卡,用于訪問指標(biāo)、日志、跟蹤等數(shù)據(jù),這并不能真正解決問題。開發(fā)和運營團隊需要的是一個可在單個時間線上查看所有這些數(shù)據(jù)的地方。只有這樣,他們才能追蹤相關(guān)性,確定問題的根本原因,并快速解決問題。
因此,實現(xiàn)統(tǒng)一的可觀測性需要一個集中的平臺,能夠整合所有不同來源的數(shù)據(jù),并提供一致的視圖和工具,以便開發(fā)和運營團隊更好地進(jìn)行分析和決策。這也是為什么現(xiàn)在許多公司正在采用跨平臺的可觀測性解決方案,以提高他們的可觀測性水平和效率。
2、與供應(yīng)商無關(guān) (OTel)
許多公司正在尋找一種不依賴于單一供應(yīng)商的解決方案,以避免被鎖定在特定技術(shù)棧或供應(yīng)商的生態(tài)系統(tǒng)中。為此,許多科技公司正在為開放遙測做出貢獻(xiàn),并將 OTel 作為數(shù)據(jù)收集代理的首選工具。
OTel 具有許多優(yōu)勢,例如互操作性、靈活性和改進(jìn)的性能監(jiān)控。使用 OTel,公司可以更輕松地集成不同的工具和服務(wù),并在不同的平臺上收集和分析數(shù)據(jù),無需擔(dān)心供應(yīng)商鎖定或技術(shù)限制。因此,OTel 在實現(xiàn)供應(yīng)商無關(guān)的可觀測性方面具有重要的作用,并將繼續(xù)在未來扮演重要的角色。
3、預(yù)測型可觀測性
在人工智能時代,自動化和無人化已經(jīng)成為技術(shù)發(fā)展的趨勢。這使得系統(tǒng)能夠完成人類根本無法完成的任務(wù),例如通過機器學(xué)習(xí)在錯誤發(fā)生之前預(yù)測錯誤。
然而,目前的可觀測性解決方案并沒有充分利用人工智能技術(shù),這也需要更多的創(chuàng)新。通過在可觀測性平臺中添加人工智能層,企業(yè)可以在問題發(fā)生之前預(yù)測問題,并在用戶或客戶知曉問題之前解決問題。這將有助于提高服務(wù)和產(chǎn)品的質(zhì)量,并增強企業(yè)的聲譽和競爭力。
因此,未來的可觀測性解決方案需要更多地集成人工智能技術(shù),以便實現(xiàn)預(yù)測性可觀測性。這將需要更多的數(shù)據(jù)和算法支持,以便建立準(zhǔn)確的模型和預(yù)測系統(tǒng),并為企業(yè)提供更好的決策支持和業(yè)務(wù)洞察。隨著人工智能技術(shù)的不斷發(fā)展和應(yīng)用,預(yù)測性可觀測性將成為未來可觀測性解決方案的重要發(fā)展方向。
4、成本最優(yōu)化模式
成本優(yōu)化是可觀測性領(lǐng)域面臨的一個關(guān)鍵挑戰(zhàn)。盡管云存儲的成本越來越低,但大多數(shù)可觀測性公司并沒有相應(yīng)地降低價格,這導(dǎo)致客戶不得不承擔(dān)高昂的成本,而且沒有其他選擇。
OpenTelemetry 每秒收集超過 200 個數(shù)據(jù)點,但實際上并不是所有這些數(shù)據(jù)點都是必要的。因此,可觀測性公司應(yīng)該避免向用戶收取不必要的存儲費用,并僅收集和存儲有用的數(shù)據(jù),同時刪除其余的數(shù)據(jù)。這將有助于降低存儲和處理數(shù)據(jù)的成本,并提高可觀測性的效率和性能。
為了實現(xiàn)成本優(yōu)化,可觀測性公司還可以采用其他策略,例如使用數(shù)據(jù)壓縮和歸檔技術(shù),以減少存儲和傳輸成本。此外,他們還可以考慮使用開源軟件和云原生技術(shù),以提高效率和降低成本。
因此,成本優(yōu)化是可觀測性領(lǐng)域需要解決的重要問題。通過實現(xiàn)有效的成本優(yōu)化策略,可觀測性公司可以為客戶提供更具競爭力的解決方案,并增強自身的市場影響力和盈利能力。
5、基于 AI 的告警
告警疲勞是可觀測性領(lǐng)域面臨的一個真正挑戰(zhàn)。當(dāng)開發(fā)人員收到大量警報并將電子郵件線程或 Slack 通道靜音時,這可能會掩蓋問題并降低解決問題的效率。
基于人工智能的告警系統(tǒng)可以通過利用人工智能技術(shù)來預(yù)測哪些告警是必要的,哪些不是,來解決這個問題。此外,人工智能還可以提供背景信息,甚至提出可能的解決方案,從而幫助開發(fā)人員更快地解決問題,減少告警的數(shù)量,提高可觀測性的效率和性能。
這種基于人工智能的告警系統(tǒng)不僅可以提供更準(zhǔn)確和有用的警報信息,還可以減少告警的數(shù)量,從而減少告警疲勞對開發(fā)人員的影響。此外,它還可以提高可觀測性的效率和性能,從而提高企業(yè)的生產(chǎn)力和競爭力。
因此,基于人工智能的告警系統(tǒng)是未來可觀測性解決方案的一個重要發(fā)展方向,具有廣闊的應(yīng)用前景和市場潛力。
四、云原生可觀測性未來的一點思考
未來的可觀測性將需要更加智能化和自動化。人工智能和機器學(xué)習(xí)等新技術(shù)將成為可觀測性的重要組成部分,幫助開發(fā)人員和運維人員更好地了解系統(tǒng)和應(yīng)用程序的運行狀態(tài),并自動化地識別和解決問題。同時,隨著云原生技術(shù)的發(fā)展,容器、微服務(wù)和無服務(wù)器架構(gòu)等新技術(shù)也將對可觀測性產(chǎn)生深遠(yuǎn)的影響。
未來的可觀測性還需要更加全面和綜合。除了傳統(tǒng)的日志管理、度量指標(biāo)和分布式跟蹤等技術(shù),還需要考慮事件管理、故障注入和安全監(jiān)控等方面的需求。這些技術(shù)將有助于建立更全面、更可靠的可觀測性系統(tǒng),幫助企業(yè)更好地管理和維護(hù)復(fù)雜的系統(tǒng)和基礎(chǔ)設(shè)施。
總之,未來的可觀測性需要更加智能化、自動化、全面和綜合化。只有不斷探索和創(chuàng)新,才能在不斷變化的環(huán)境中滿足企業(yè)不斷變化的可觀測性需求。
對于可觀測性領(lǐng)域來說,現(xiàn)在是一個令人興奮的時刻。正如我之前所提到的,我們所看到的變革正在為未來的發(fā)展打開無數(shù)機遇之門。然而,現(xiàn)在的問題是:誰主沉浮?
- 上一篇
云計算對現(xiàn)實世界環(huán)境的影響
隨著越來越多的公司加大對云計算的依賴,他們可能會忽視對環(huán)境的影響。這就是為什么這是一個糟糕的主意。
- 下一篇
什么是幾何深度學(xué)習(xí)?
隨著人工智能的進(jìn)步,幾何深度學(xué)習(xí)成為彌合傳統(tǒng)深度學(xué)習(xí)和復(fù)雜數(shù)據(jù)關(guān)系之間差距的關(guān)鍵力量。其處理圖形和空間域的能力為不同領(lǐng)域的許多應(yīng)用打開了大門。隨著不斷進(jìn)行的研究、創(chuàng)新的工具和不斷壯大的社區(qū),幾何深度學(xué)習(xí)具有重塑人工智能領(lǐng)域的潛力,為更準(zhǔn)確的預(yù)測和對復(fù)雜數(shù)據(jù)世界的深刻見解鋪平了道路。