數(shù)據(jù)科學如何融入云支出方程式
數(shù)據(jù)科學團隊的工作可以與云計算和其他技術資產(chǎn)交織在一起,這可以使它們成為有關云計算支出的預算問題的一部分。這只是數(shù)據(jù)科學家擴展的方式之一,超出了他們所做的工作和他們所利用的資產(chǎn)的一些舊預期。如果不采取措施理清這些資源的使用方式,組織可能會看到數(shù)據(jù)科學對成本的貢獻大于回報。
Kion產(chǎn)品管理總監(jiān)Shane Quinlan與InformationWeek談到了數(shù)據(jù)科學是如何發(fā)展的,以及數(shù)據(jù)科學家可以有效地使用云的方式。
與人們對他們的期望相比,數(shù)據(jù)科學家是否在跳出框框工作?他們采取哪些不同的角度來履行職責?
當我開始從事技術工作時,數(shù)據(jù)科學并不是我真正關注的事情。嗡嗡聲始于2015-2018年,當時數(shù)據(jù)科學成為主流。新職位開始創(chuàng)建,我們開始獲得DataOps和MLOps之類的東西。大數(shù)據(jù)——如果你把它打給任何公司,那就是金礦。
大約在同一時間框架內,我從我工作的工作(主要支持聯(lián)邦和執(zhí)法部門的客戶)跳槽到醫(yī)療保健領域。從Web和端點解決方案切換到分析。那是我第一次涉足數(shù)據(jù)科學。
現(xiàn)在我從不同的角度看待它,因為我們的產(chǎn)品重點更多地放在平臺和基礎設施管理上。我是從云看數(shù)據(jù)科學,而不是從數(shù)據(jù)科學看云。
影響數(shù)據(jù)科學家采用的方法的影響因素和因素有哪些?隨著數(shù)據(jù)科學家利用云,他們需要更加注意什么?
我看到了兩個趨勢。一是圍繞技術和可用性的變化。早期,它有點像狂野的西部。有大量的新服務產(chǎn)品、技術堆棧和技能組合確實存在差異,并且開始變得更容易獲得。
數(shù)據(jù)科學就是這個大世界。您擁有從字面上使用Microsoft Excel的Excel數(shù)據(jù)科學家到您可以編寫能夠執(zhí)行數(shù)據(jù)功能并提供不同輸出的Java應用程序的一切。你有數(shù)學家、統(tǒng)計學家、軟件開發(fā)人員,還有更多擔任商業(yè)智能分析師角色的人,他們都在同一個領域,試圖找到不同的方法來滿足他們的期望。
那時您看到了對更好用戶界面的推動,從而減少了對開發(fā)方面的要求。這就是您引入Jupyter和Zeppelin等筆記本及其衍生產(chǎn)品的地方,以使其更容易一些。您擁有與塑造數(shù)據(jù)的方式類似的人類可解釋代碼和非代碼接口。在幕后,我認為塑造它的方式也出現(xiàn)了巨大的爆炸式增長。您擁有像DBT這樣的技術,它使數(shù)據(jù)轉換變得更加容易。以Apache Hadoop生態(tài)系統(tǒng)為中心的技術現(xiàn)在已經(jīng)轉變、變形并移動到各地,使其更加便攜。Apache Spark現(xiàn)在可以在各種不同的上下文中運行。
人們一直在朝著更加以用戶為中心的數(shù)據(jù)科學模型邁進。更人性化,更多用戶界面,更易于解釋。您可以使用Excel或BI工具或SQL等常用技能集,并充分利用這些技能來發(fā)揮作用。
另一方面是以開發(fā)為中心的方法,作為開發(fā)人員,與要求數(shù)學家學習成為開發(fā)人員相比,它使數(shù)據(jù)科學更加平易近人。
另一部分是圍繞規(guī)模的緊張局勢以及需要多少數(shù)據(jù)才能創(chuàng)建提供業(yè)務價值所需的各種見解。Landing AI的首席執(zhí)行官[Andrew Ng]大力推動“大數(shù)據(jù)集是愚蠢的”。[大數(shù)據(jù)集]在浪費錢,在浪費時間。更干凈、更小的數(shù)據(jù)集實際上更具影響力。[Ng說過你并不總是需要“大數(shù)據(jù)”,而是需要“好數(shù)據(jù)”。]你會看到“獲取所有數(shù)據(jù)并盡可能多地從中學習”的傳統(tǒng)方法與更清潔的方法之間的張力,更小更便宜,更高效的數(shù)據(jù)集提供了這種洞察力。
其中一些又回到了人們試圖用他們所擁有的東西做魔術的人身上。與我交談過的太多人就像,“我們擁有所有這些數(shù)據(jù);我們需要對它做點什么。”
好的。偉大的。什么?
他們會說,“好吧,我們需要運行一些機器學習,這樣我們才能看到我們能找到什么。”
它不是那樣工作的。你必須帶著一種實際的科學思維來理解你正在使用這些模型測試什么假設。它需要一種非常具體的心態(tài)才能擁有如此多的紀律以及通過數(shù)據(jù)科學技術解決問題和創(chuàng)造價值的方式,而不是“我有數(shù)據(jù);請做事。
當IT預算受到使用云的數(shù)據(jù)科學家的審查時,可以做些什么來理清他們組織的需求?
云的偉大之處在于您可以在需要時使用它。顯然,您在需要時為使用它付費,但數(shù)據(jù)科學應用程序,尤其是那些在大型數(shù)據(jù)集上運行的應用程序,通常不會連續(xù)運行,或者不需要以連續(xù)運行的方式進行結構化。因此,您說的是在很短的時間內非常集中的支出。購買硬件來做到這一點意味著您的硬件處于閑置狀態(tài),除非您非常積極地確保隨著時間的推移在利用該資源方面非常有效。
云的最大優(yōu)勢之一是它可以根據(jù)需要運行和擴展。因此,即使是很小的人也可以運行大量計算并在需要時運行它,而不是始終如一地運行。
當然,這增加了挑戰(zhàn)。“我周五把這個東西關掉了,我周一回來,它還在運行,這個周末我不小心花了6000美元。哎呀。”這種情況一直在發(fā)生,其中很大一部分是在弄清楚如何建立護欄。
有時數(shù)據(jù)科學會被視為“你知道,他們會做任何他們需要做的事情”。
在開發(fā)世界中,我們已經(jīng)開始使用語言來應對這種冒險的、實驗性的“不要懲罰失敗,我們從失敗中學習”。我們已經(jīng)能夠引入這種語言,但我們忽略了數(shù)據(jù)科學。
是否有一些最佳實踐來平衡和管理數(shù)據(jù)科學家可能想要利用的創(chuàng)新?
如果您的數(shù)據(jù)科學部門既年輕又小,云優(yōu)先聽起來很可怕,但會讓您在未來取得成功。如果你想在硬件投資上做出這些選擇,那么你可以在適當?shù)臅r候做出它們,而不是認為你需要先購買硬件,然后再去云端,這非常困難。
護欄不一定是火箭科學。它們可以很簡單。簡單可以非常有效。