云原生穩(wěn)定性價值被低估?看頭部金融企業(yè)穩(wěn)定性保障法則!
云計算、大數(shù)據(jù)、人工智能、區(qū)塊鏈等技術浪潮賦予金融科技創(chuàng)新源源不斷的生命力,但與此同時,以數(shù)字經(jīng)濟為代表的新型經(jīng)濟形態(tài)也對傳統(tǒng)金融業(yè)態(tài)和既有底層技術帶來深刻變革和巨大挑戰(zhàn)。
在國際形勢復雜化的背景下,國家對安全可靠、自主可控技術提出了更高的要求。金融行業(yè)信息系統(tǒng)具備自主研發(fā)能力,降低對商業(yè)產(chǎn)品的依賴成為當前刻不容緩的工作。
由于金融行業(yè)涉及民生,業(yè)務一旦出現(xiàn)問題,就會對整個社會輿論造成嚴重影響,因此,金融行業(yè)的系統(tǒng)穩(wěn)定性保障尤為重要。然而,走向數(shù)字化的金融企業(yè)在業(yè)務方面存在不可預測、不可控、復雜性高等問題,這就給系統(tǒng)穩(wěn)定性保障帶來不小挑戰(zhàn)。
那么,金融企業(yè)如何規(guī)劃系統(tǒng)穩(wěn)定性治理工作?如何利用云原生架構的特性和優(yōu)勢,來保障業(yè)務系統(tǒng)穩(wěn)定性?近日,51CTO 采訪了網(wǎng)易數(shù)帆云原生解決方案專家朱劍峰,攜國有大行長期實踐經(jīng)驗,為金融行業(yè)的系統(tǒng)穩(wěn)定性建設獻策支招。
金融行業(yè)云原生升級挑戰(zhàn)多
隨著近年來同業(yè)競爭加劇,各大金融機構紛紛追求金融服務個性化、場景化,欲打造開放金融,加之監(jiān)管要求需要實現(xiàn) IT 自主可控目標,金融企業(yè)從大單體總線架構進一步向微服務、云原生架構演進。
在近日舉辦的 WOT 全球技術創(chuàng)新大會上,來自銀行、證券、保險等領域的多位科技部門負責人表示,云原生架構的落地不是一蹴而就的,需要在架構演進過程中,不斷完善相關的能力與規(guī)范,形成企業(yè)的組織文化與技術體系。企業(yè)需要全面梳理、逐步演進,從周邊到核心,先創(chuàng)新再傳統(tǒng)。映射到金融企業(yè),就是先從偏向互聯(lián)網(wǎng)業(yè)務方向的敏態(tài)業(yè)務開始進行微服務拆分和云原生改造,進而再滲透到核心系統(tǒng)的穩(wěn)態(tài)業(yè)務。
隨著諸多企業(yè)開始向云原生架構遷移,云原生穩(wěn)定性保障也逐漸受到重視。企業(yè)在云原生穩(wěn)定性保障方面也遇到了不小挑戰(zhàn)。朱劍峰表示,金融企業(yè)在云原生穩(wěn)定性保障方面主要有兩大挑戰(zhàn)。一類集中在系統(tǒng)韌性方面,在外部環(huán)境下,訪問流量的變化會導致系統(tǒng)過載,應用高可用設計不達標,都會造成系統(tǒng)韌性不足;另一類在系統(tǒng)可觀測性方面,由于系統(tǒng)可觀測性不足,導致運維人員無法第一時間發(fā)現(xiàn)多樣化的云服務風險故障,例如針對生產(chǎn)環(huán)境的操作變更(人為誤操作、變更失?。a編寫的缺陷(代碼質(zhì)量、程序邏輯、應用架構等故障),以及業(yè)務依賴的平臺硬件故障、網(wǎng)絡故障等情況,無法快速發(fā)現(xiàn)并定位問題,最終造成業(yè)務損失。
因此,云原生技術底座成為了金融企業(yè)業(yè)務系統(tǒng)保障的重點演進方向。金融企業(yè)需要將云原?的特性應?在業(yè)務場景方面,增強傳統(tǒng)云服務的觀測性、應?韌性、?可?性、故障?愈等能?,從而消除不確定性,為業(yè)務系統(tǒng)帶來額外保障。
云原生提供的穩(wěn)定性價值被低估,國有大行已嘗鮮
眾所周知,傳統(tǒng)運行環(huán)境偏向手工運維,更多依賴個人經(jīng)驗,一般很難做到標準化。而云原生架構的本質(zhì)區(qū)別在于容器和容器編排調(diào)度的能力,容器化帶來了運行應用的標準化環(huán)境,包括云原生環(huán)境下的監(jiān)控告警、異常事件等數(shù)據(jù)也是以標準化的格式存放,再結合 K8s 技術提供的故障自愈以及實現(xiàn)自動化的運維技術,采用云原生技術建設的風險預測平臺天然就擁有較為智能、自動化、標準的穩(wěn)定性保障能力,也可以為傳統(tǒng)虛擬機環(huán)境上的業(yè)務應用提供更為有效的工具平臺。
然而,業(yè)界對于云原生的期待大多還聚焦于如何將業(yè)務遷移到云原生架構上。但這一遷移過程成本相對比較高,周期也較長,金融行業(yè)創(chuàng)新意愿強烈的頭部客戶固然已經(jīng)在行動,尤其是一些技術實力強勁的國有大行,以基于云原生的穩(wěn)定性保障為后盾,將分布式架構轉(zhuǎn)型和核心業(yè)務小機下移的規(guī)劃相結合推進落地,而更多技術儲備不足的企業(yè),往往處于觀望狀態(tài)。綜合分析,朱劍峰認為,基于云原生架構能夠額外提供的可觀測性、故障自愈能力是被低估的。
朱劍峰表示,像容器、K8s、微服務平臺以及穩(wěn)定性平臺屬于工具類平臺,是 PaaS 的云原生底座,這些技術工具平臺擁有云原生的能力和優(yōu)勢,相比傳統(tǒng)虛擬機和物理機可以進一步實現(xiàn)智能化能力,這也是大家沒有太多感知到的。所以,在業(yè)務云原生化之前,企業(yè)不妨考慮將技術工具類平臺遷移到云原生架構上,通過穩(wěn)定性保障技術來反向為傳統(tǒng)架構下的業(yè)務(包括穩(wěn)態(tài)業(yè)務)進行賦能。事實上,與網(wǎng)易數(shù)帆合作的部分金融客戶,在某些業(yè)務上也謹慎地采用了這樣的策略。
系統(tǒng)穩(wěn)定性保障三部曲事前降發(fā)生和事中降影響并重
墨菲定律指出,“凡是可能出錯的事有很大概率會出錯”,指的是任何一個事件,只要具有大于零的概率,就不能夠假設它不會發(fā)生。整個定律也提示我們,即使一件事發(fā)生的可能性很小,也不能忽視它,應該采取預防措施,防止發(fā)生不良后果。
那么,對于業(yè)務系統(tǒng)的穩(wěn)定性保障,應該如何建設和完善呢?朱劍峰按照事件生命周期,將增強業(yè)務系統(tǒng)的穩(wěn)定性風險保障能力的建設路徑梳理為三部曲:事前提供風險預測,降低故障發(fā)生概率;事中通過故障感知自動根因分析快速止損,降低故障影響;事后完善故障改進追蹤能力,實現(xiàn)穩(wěn)定性建設目標。
事前階段,通過風險預見和中間件巡檢,結合全鏈路壓測、混沌工程、引流回放在測試環(huán)境事先發(fā)現(xiàn)系統(tǒng)存在的可能風險,給出分析報告;同時,在生產(chǎn)環(huán)境定時巡檢,及時發(fā)現(xiàn)生產(chǎn)環(huán)境可能存在的風險問題。事中階段,通過立體化監(jiān)控收集系統(tǒng)的深度指標,標準化數(shù)據(jù)讓根因分析及時發(fā)現(xiàn)故障,并定位根因,給出分析報告,做到1分鐘發(fā)現(xiàn)問題,5分鐘定位問題。事后階段屬于復盤過程,主要在于總結經(jīng)驗,并將事前和事中的一些經(jīng)驗固化為專家規(guī)則庫。
然而,如果企業(yè)的 IT 團隊能力有限,在資金投入也受限的情況下,應該注重事前、事中還是事后呢?朱劍峰表示,每個企業(yè)的情況不一樣,在企業(yè)沒有充足的預算和人力的情況下,應該著重在事前降發(fā)生和事中降影響兩個方面。事前通過持續(xù)巡檢、?險評估、故障演練等將異常?險左移,引?算法實現(xiàn)事前?險預測能?,降低潛在的?險;事中通過?體化監(jiān)控,在故障發(fā)?后能快速定位根因,根據(jù)故障特征模版采取限流兜底或?愈策略,把影響降?最低。
沉淀專家經(jīng)驗降低穩(wěn)定性保障門檻
據(jù)了解,針對企業(yè)云原生穩(wěn)定性保障方面,網(wǎng)易數(shù)帆提供事件生命周期全棧能力,包括故障演練、服務治理、風險預見、立體化監(jiān)控、根因分析、故障自愈、規(guī)則專家?guī)斓炔煌K。
那么,網(wǎng)易數(shù)帆的核心競爭力有哪些呢?朱劍峰告訴 51CTO,網(wǎng)易數(shù)帆云原生穩(wěn)定性保障平臺的核心價值在于專家經(jīng)驗的沉淀,這也是企業(yè)數(shù)字資產(chǎn)的一部分。一方面,網(wǎng)易在集團業(yè)務中涉及大規(guī)模互聯(lián)網(wǎng)業(yè)務,沉淀了非常多的專業(yè)的專家經(jīng)驗,可以覆蓋 70%-80% 的互聯(lián)網(wǎng)場景,并可復用于金融等行業(yè)敏態(tài)業(yè)務支撐。另一方面,網(wǎng)易數(shù)帆還在和包括國有大行在內(nèi)的多家頭部金融企業(yè)合作共建金融行業(yè)專家?guī)欤粩嗤晟平鹑趫鼍跋碌膶<医?jīng)驗,為金融敏態(tài)業(yè)務提供穩(wěn)定性保障。“基于這套專家經(jīng)驗庫,網(wǎng)易數(shù)帆通過將專家經(jīng)驗和故障庫形成代碼,讓機器通過算法降低對系統(tǒng)保障對‘人’的經(jīng)驗的依賴,讓穩(wěn)定性保障的門檻變低。”
專家經(jīng)驗能夠在穩(wěn)定性保障場景里被有效使用,其實是通過決策來實現(xiàn)的。一方面是通過規(guī)則引擎直接運行專家經(jīng)驗,另一方面是通過 AIGC、AIOps 等技術,幫助企業(yè)進行輔助性決策,從而不斷提升診斷建議的科學性和有效性。這也是網(wǎng)易數(shù)帆在穩(wěn)定性保障方面的下一步舉措,并且正在內(nèi)部驗證過程中。
提供轉(zhuǎn)型利器保障金融系統(tǒng)穩(wěn)定性
在服務金融企業(yè)技術架構轉(zhuǎn)型過程中,網(wǎng)易數(shù)帆對自己的定位也相對比較清晰。一是通過與行業(yè)頭部金融企業(yè)合作共建,打造經(jīng)過大規(guī)模實踐優(yōu)化的具備自主可控、穩(wěn)定可靠、技術領先,以及可持續(xù)演進的技術底座產(chǎn)品,為金融企業(yè)提供轉(zhuǎn)型的利器。二是秉持開源、開放、無綁定的原則,提供輕量、解耦的模塊化工具產(chǎn)品,配合企業(yè)已有的 IT 規(guī)劃小步快跑,逐漸落地數(shù)字化轉(zhuǎn)型。
某金融企業(yè)經(jīng)常出現(xiàn)緩存不可用的情況,間接導致業(yè)務不可用。而這家企業(yè)的自動化程度較低、觀測性也較弱,無法發(fā)現(xiàn)問題出現(xiàn)的根本原因。接入網(wǎng)易數(shù)帆云原生穩(wěn)定性保障平臺后,該企業(yè)通過穩(wěn)定性巡檢的方式發(fā)現(xiàn)底層存儲抖動,精確定位到 SSD 寫穿掉盤的故障,從而及時發(fā)現(xiàn)問題,告知存儲團隊排查處理。
此外,底層存儲的抖動,還影響到對應虛擬機和物理機運行的中間件,網(wǎng)易數(shù)帆基于云原生實踐對各中間件品類設計了配套的異地多活及故障自愈能力,如果出現(xiàn)異常抖動的情況,可以通過這項能力及時將流量遷移到穩(wěn)定的集群,從而規(guī)避風險。朱劍峰強調(diào),大型企業(yè)最核心的訴求就是出現(xiàn)問題后能夠快速止損,因此底層存儲出現(xiàn)抖動,如果排查問題并恢復對應的存儲,整個周期是非常長的。但是通過穩(wěn)定性巡檢的方式快速發(fā)現(xiàn)問題,并且自動解決事故,是事中快速止損的一種方法。
結語
金融行業(yè)一直是網(wǎng)易數(shù)帆持續(xù)投入與推動落地實踐的重要領域。融合網(wǎng)易互聯(lián)網(wǎng)技術與金融行業(yè)服務經(jīng)驗,通過提供微服務治理、API 網(wǎng)關、容器平臺、分布式緩存、消息、搜索等云原生 PaaS 中間件及相關云原生分布式產(chǎn)品全棧能力,網(wǎng)易數(shù)帆已經(jīng)幫助兩家國有四大行、十余家中國金融百強企業(yè)客戶向云原生分布式架構轉(zhuǎn)型升級,建設API資產(chǎn)全生命周期管理,打造滿足金融業(yè)務特性的企業(yè)級技術底座,幫助金融企業(yè)應對復雜業(yè)務場景的挑戰(zhàn),加速金融業(yè)務創(chuàng)新。在云原生穩(wěn)定性保障領域,未來,網(wǎng)易數(shù)帆還將與金融企業(yè)持續(xù)合作,不斷完善 DBA、SRE 老專家經(jīng)驗,從而提升診斷建議的科學性及有效性,并結合智能決策,幫助金融企業(yè)滿足業(yè)務穩(wěn)定性增長需求。
- 上一篇
選擇數(shù)字孿生供應商時需要考慮的十件事
既然數(shù)字化轉(zhuǎn)型是行業(yè)的重中之重,那么如何才能確保為你的工業(yè)資產(chǎn)選擇的數(shù)字孿生合作伙伴是最合適的呢?根據(jù)Kongsberg Digital與全球重資產(chǎn)行業(yè)領導者合作的廣泛經(jīng)驗,我們發(fā)現(xiàn)在選擇供應商時需要注意以下十個問題。
- 下一篇
微軟必應聊天將解鎖AI炒股功能:免費提供,可預判股價未來走勢
微軟廣告和網(wǎng)絡服務主管 Mikhail Parakhin 在最新推文中表示,會在未來幾個月內(nèi),邀請 Bing Chat 用戶參與測試 AI 炒股功能。