十大數(shù)據(jù)科學(xué)工具和技術(shù)
大多數(shù)企業(yè)領(lǐng)導(dǎo)者都認(rèn)識到數(shù)據(jù)科學(xué)和相關(guān)學(xué)科對于在現(xiàn)代經(jīng)濟中競爭至關(guān)重要。但許多人一直在努力成熟和擴展他們的數(shù)據(jù)和分析工作。
根據(jù)IDC的數(shù)據(jù),在企業(yè)智能(即出色的數(shù)據(jù)科學(xué)和業(yè)務(wù)分析能力)方面處于前四分之一的組織“在2020年至2022年間經(jīng)歷強勁收入增長的可能性高出2.7倍,加速增長的可能性高出3.6倍新產(chǎn)品、服務(wù)、體驗和其他舉措的上市時間。”
Forrester將這些具有出色數(shù)據(jù)科學(xué)能力的組織稱為“高級洞察驅(qū)動型企業(yè)”。它指出,到2021年只有7%的公司符合該綽號的標(biāo)準(zhǔn)。它預(yù)測,“2023年做出的決定將推動或消除世界的洞察機會。隨著不確定的2023年的臨近,數(shù)據(jù)團隊正處于一個轉(zhuǎn)折點之上,看起來就像過山車在下降前在直道上聚集——只有數(shù)據(jù)團隊及其合作伙伴、實踐和平臺排成一排并做好準(zhǔn)備,才能在轉(zhuǎn)折點上快速高效地前進不確定的一年。”
許多希望達到必要準(zhǔn)備水平的團隊正在評估他們當(dāng)前的數(shù)據(jù)科學(xué)技術(shù)堆棧并考慮進行更改。
如今,許多團隊都在使用各種不同的工具。Gartner指出,“由于云遷移、新的和斷開連接的生態(tài)系統(tǒng)以及新興的自助服務(wù)需求,分析產(chǎn)品組合變得越來越復(fù)雜。”它預(yù)測,“到2023年,遷移的便利性、互操作性和一致性將成為90%的數(shù)據(jù)科學(xué)、機器學(xué)習(xí)和人工智能平臺購買決策的決定性因素。”
那么,數(shù)據(jù)領(lǐng)導(dǎo)者在尋找互操作性和一致性并做出購買決策時將評估哪些工具?
本文重點介紹當(dāng)今可用的10種最流行的數(shù)據(jù)科學(xué)工具。它包括數(shù)據(jù)科學(xué)平臺、編程語言和其他可以幫助企業(yè)變得更加數(shù)據(jù)驅(qū)動的工具。
10.Trifacta/Alteryx
Trifacta是一種流行的數(shù)據(jù)科學(xué)工具,可以加快數(shù)據(jù)整理和準(zhǔn)備過程。Trifacta可快速將原始數(shù)據(jù)轉(zhuǎn)換為數(shù)據(jù)科學(xué)家可用于實際分析的格式,否則該過程將花費很長時間。(有人說數(shù)據(jù)科學(xué)家80%的時間可以花在這些活動上。)Trifacta的工作原理是梳理原始數(shù)據(jù)集,識別潛在的變化,然后自動進行轉(zhuǎn)換。通過使用Trifacta進行數(shù)據(jù)準(zhǔn)備和清理,數(shù)據(jù)科學(xué)家能夠?qū)⒏鄷r間花在與實際數(shù)據(jù)科學(xué)相關(guān)的問題上。Trifacta最近被Alteryx以4億美元收購。
9.Datarobot
數(shù)據(jù)機器人使用人工智能和機器學(xué)習(xí)來協(xié)助數(shù)據(jù)用戶進行數(shù)據(jù)建模。它旨在使數(shù)據(jù)建模過程民主化,它真正為每個人提供了一些東西。該平臺非常易于使用,不需要編程或機器學(xué)習(xí)知識,因此幾乎沒有編程經(jīng)驗的業(yè)務(wù)分析人員也可以構(gòu)建復(fù)雜的預(yù)測模型。同時,它為經(jīng)驗豐富的數(shù)據(jù)科學(xué)家和工程師提供了更深入的工具,以生成更好的預(yù)測模型。Datarobot也非常靈活,支持R、Python、H20、Spark ML、Vowpal Wabbit等。DataRobot的可訪問性和靈活性及其速度和可靠性有助于確保其平臺被全世界的數(shù)據(jù)科學(xué)家和非數(shù)據(jù)科學(xué)家廣泛使用。
8、SQL
盡管非結(jié)構(gòu)化數(shù)據(jù)存儲受到大量關(guān)注,但數(shù)據(jù)科學(xué)家仍然對駐留在傳統(tǒng)數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù)做了大量工作。為了訪問這些數(shù)據(jù),他們經(jīng)常依賴SQL(結(jié)構(gòu)查詢語言)。
在Kaggle進行的2020年數(shù)據(jù)科學(xué)調(diào)查中,44%的受訪者表示他們經(jīng)常使用某種形式的SQL。他們中的許多人從基于SQL的數(shù)據(jù)庫(如MySQL、PostgresSQL、SQL Server和SQLite)中查詢數(shù)據(jù),但您也可以將SQL與大數(shù)據(jù)工具(如Spark和Hadoop)結(jié)合使用。雖然它不是一項新的或性感的技術(shù),但SQL提供了對結(jié)構(gòu)化數(shù)據(jù)的簡單、高效的訪問,并且是數(shù)據(jù)科學(xué)家工具箱的重要組成部分。
7.Excel
另一個最受數(shù)據(jù)科學(xué)家歡迎的工具是另一個最低級和最容易被忽視的工具——Microsoft Excel。
當(dāng)您想到數(shù)據(jù)科學(xué)時,無處不在的電子表格應(yīng)用程序可能不是您想到的第一個工具,但它是數(shù)據(jù)科學(xué)家在數(shù)據(jù)處理、數(shù)據(jù)可視化、數(shù)據(jù)清理和執(zhí)行計算方面使用最廣泛的工具之一。此外,您可以輕松地將其與SQL配對以更有效??地分析數(shù)據(jù)。雖然不適合處理數(shù)據(jù)科學(xué)家經(jīng)常使用的龐大數(shù)據(jù)集,但Excel是執(zhí)行較小規(guī)模數(shù)據(jù)分析的絕佳工具,并且是每個數(shù)據(jù)科學(xué)家都應(yīng)該熟悉的工具。
6.SAS維亞
SAS Viya是市場上最全面的數(shù)據(jù)管理和分析平臺之一,專為數(shù)據(jù)分析而創(chuàng)建。由于其出色的可靠性、安全性和處理大型數(shù)據(jù)集的能力,它是大型公司和組織中最受歡迎的統(tǒng)計分析工具之一。SAS還提供廣泛的庫和工具來幫助數(shù)據(jù)科學(xué)家進行數(shù)據(jù)建模,并與許多流行的工具和編程語言集成。它是基于云的,包括基于AI的自動化功能。然而,由于成本高,它沒有被較小的組織廣泛使用。
5.Tableau
作為數(shù)據(jù)科學(xué)家中使用最廣泛的數(shù)據(jù)可視化工具之一,Salesforce的Tableau可以分析大量結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。然后,它可以將其分析的數(shù)據(jù)轉(zhuǎn)換為各種有用的可視化效果,包括交互式圖形、圖表和地圖。Tableau之所以如此有用,是因為它能夠連接到各種不同的數(shù)據(jù)源。Tableau可以輕松連接到關(guān)系數(shù)據(jù)庫、文件格式以及Azure和Google等大型云服務(wù)。與DataRobot一樣,即使沒有編程背景的人也能輕松學(xué)習(xí)和使用Tableau。
4.R
R編程語言廣泛用于數(shù)據(jù)科學(xué),更具體地說是用于統(tǒng)計建模和分析。除了Python之外,對于任何從事數(shù)據(jù)分析工作的人來說,它可能是最重要的語言。數(shù)據(jù)科學(xué)家將R和Python用于非常相似的目的,但存在一些關(guān)鍵差異。與Python相比,R更專注于數(shù)據(jù)科學(xué)的統(tǒng)計方面。R執(zhí)行速度較慢,更難學(xué)習(xí),擴展性不如Python,但在進行數(shù)據(jù)可視化和分析時通常更好。它是開源的,可以在大多數(shù)操作系統(tǒng)上編譯和運行。
3.阿帕奇Hadoop
Apache Hadoop在“大數(shù)據(jù)”存儲庫中非常受歡迎,它是一個用于處理和存儲大量數(shù)據(jù)的開源框架。Hadoop通過跨計算集群分配大數(shù)據(jù)任務(wù)來工作。這很重要,因為它允許組織的大數(shù)據(jù)系統(tǒng)以可擴展且具有成本效益的方式運行。此外,它有助于防止廣泛的系統(tǒng)故障,因為如果系統(tǒng)中的一個節(jié)點出現(xiàn)故障,Hadoop會自動將任務(wù)重定向到其他節(jié)點。Hadoop是處理大數(shù)據(jù)的企業(yè)的標(biāo)準(zhǔn)配置,因此熟悉它對于任何想找一份處理大數(shù)據(jù)的工作的人來說都是至關(guān)重要。
2.TensorFlow
TensorFlow由Google創(chuàng)建,是一個用于開發(fā)機器學(xué)習(xí)應(yīng)用程序的開源庫。TensorFlow為用戶提供了大量的資源和工具,以支持機器學(xué)習(xí)開發(fā)人員構(gòu)建大型和高度復(fù)雜的神經(jīng)網(wǎng)絡(luò)而聞名。此外,TensorFlow與Python高度兼容,其軟件庫中包含許多預(yù)寫模型以幫助完成某些任務(wù)。例如,TensorFlow可用于識別圖像、處理自然語言以及對手寫數(shù)字和字母進行分類。谷歌云和其他云計算服務(wù)提供基于TensorFlow的服務(wù),這可以使該技術(shù)的入門變得容易。
1.Python
在過去的幾年里,Python一直是數(shù)據(jù)科學(xué)家中最受歡迎的編程工具。在Kaggle調(diào)查中,86.7%的數(shù)據(jù)科學(xué)家表示他們使用Python,這是第二受歡迎的回答的兩倍多。Python相對簡單易學(xué),這使得那些沒有廣泛編程背景的人也可以輕松地學(xué)習(xí)閱讀和編寫Python代碼。許多最流行的數(shù)據(jù)科學(xué)工具要么是用Python編寫的,要么與Python高度兼容。了解Python對于任何從事數(shù)據(jù)科學(xué)工作的人來說都是至關(guān)重要的,因為大多數(shù)數(shù)據(jù)科學(xué)工作至少需要基本的Python背景。