神經(jīng)符號回歸:從數(shù)據(jù)中提取科學(xué)
宇宙嘈雜而混亂,復(fù)雜到讓預(yù)測變得困難。人類的智慧和直覺有助于對我們周圍世界的一些活動(dòng)有基本的了解。他們做得很好,足以在個(gè)人和小團(tuán)體的有限視角的宏觀空間和時(shí)間尺度上對事件有基本的認(rèn)識。
人類史前史和早期歷史的自然哲學(xué)家大多局限于常識合理化和猜測檢驗(yàn)。這些方法的局限性,特別是對于太大或太復(fù)雜的事情,在迷信和神奇思維的流行和影響中顯而易見。
不是貶低猜測和檢查(這是現(xiàn)代科學(xué)方法的基礎(chǔ)),而是要看到人類調(diào)查和理解能力的變化是由將物理現(xiàn)象提煉成數(shù)學(xué)表達(dá)式的愿望和工具所激發(fā)的。
這在牛頓和其他人導(dǎo)致啟蒙運(yùn)動(dòng)之后尤其明顯,盡管古代也有分析還原論的痕跡。從觀察到數(shù)學(xué)方程(以及這些方程做出的預(yù)測)的能力是科學(xué)探索和進(jìn)步的一個(gè)組成部分。
深度學(xué)習(xí)從根本上講也是關(guān)于學(xué)習(xí)與輸入輸出觀察相關(guān)的轉(zhuǎn)換,就像人類科學(xué)家試圖以數(shù)學(xué)表達(dá)式的形式學(xué)習(xí)輸入和輸出之間的函數(shù)關(guān)系一樣。
當(dāng)然,不同之處在于深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的輸入-輸出關(guān)系(通用逼近定理的結(jié)果)由一個(gè)不可解釋的數(shù)值參數(shù)“黑匣子”組成,主要是權(quán)重、偏差和節(jié)點(diǎn)他們連接。
通用逼近定理指出,滿足非常寬松標(biāo)準(zhǔn)的神經(jīng)網(wǎng)絡(luò)應(yīng)該能夠非常接近任何表現(xiàn)良好的函數(shù)。在實(shí)踐中,當(dāng)表示由簡單而精確的基礎(chǔ)方程產(chǎn)生的輸入-輸出關(guān)系時(shí),神經(jīng)網(wǎng)絡(luò)是一種脆弱且易泄漏的抽象。
除非特別注意訓(xùn)練模型(或模型集合)以預(yù)測不確定性,否則神經(jīng)網(wǎng)絡(luò)在對其訓(xùn)練的分布之外進(jìn)行預(yù)測時(shí)往往表現(xiàn)很差。
深度學(xué)習(xí)預(yù)測也不能很好地做出可證偽的預(yù)測,即開箱即用的構(gòu)成科學(xué)方法基礎(chǔ)的假設(shè)。因此,雖然深度學(xué)習(xí)是一種經(jīng)過充分驗(yàn)證的工具,擅長擬合數(shù)據(jù),但它在可以說是人類最追求的追求之一——通過科學(xué)方法探索我們周圍的宇宙——中的效用卻受到了限制。
盡管深度學(xué)習(xí)在人類科學(xué)事業(yè)中存在各種缺點(diǎn),但如果忽視深度學(xué)習(xí)在科學(xué)學(xué)科中的巨大擬合能力和眾多成功,我們將是愚蠢的。
現(xiàn)代科學(xué)產(chǎn)生了大量數(shù)據(jù),個(gè)人(甚至一小群人)無法查看輸出并直觀地從嘈雜的數(shù)據(jù)躍遷到清晰的數(shù)學(xué)方程。
為此,我們求助于符號回歸,這是一種將數(shù)據(jù)簡化為方程的自動(dòng)化或半自動(dòng)化方法。
當(dāng)前的黃金標(biāo)準(zhǔn):進(jìn)化方法
在我們將現(xiàn)代深度學(xué)習(xí)應(yīng)用于符號回歸進(jìn)行一些令人興奮的近期研究之前,我們必須首先了解將數(shù)據(jù)集轉(zhuǎn)化為方程的進(jìn)化方法的當(dāng)前狀態(tài)。最常提到的符號回歸軟件包是基于遺傳算法的Eureqa。
Eureqa最初是作為HodLipson小組的康奈爾大學(xué)的一個(gè)研究項(xiàng)目開發(fā)的,并作為Nutonian的專有軟件提供,后來被DataRobot收購。Eureqa已集成到Datarobot平臺(tái)中,由Eureqa的合著者兼Datarobot Michael Schmidt的首席技術(shù)官負(fù)責(zé)。
Eureqa和類似的符號回歸工具使用遺傳算法同時(shí)優(yōu)化一組方程,以實(shí)現(xiàn)準(zhǔn)確性和簡單性。
TuringBot是基于模擬退火的替代符號回歸包。模擬退火是一種優(yōu)化算法,類似于用于改變金屬物理性質(zhì)的冶金退火。
在模擬退火中,選擇優(yōu)化問題的候選解決方案時(shí)“溫度”會(huì)降低,其中較高的溫度對應(yīng)于接受較差的解決方案,并用于促進(jìn)早期探索,從而能夠搜索全局最優(yōu)值并提供能量以逃避局部最佳。
TuringBot作為免費(fèi)版本提供,但數(shù)據(jù)集大小和復(fù)雜性有很大限制,并且代碼不開放修改。
雖然商業(yè)符號回歸軟件(尤其是Eureqa)在開發(fā)符號回歸的新工具時(shí)提供了重要的比較基準(zhǔn),但閉源程序的效用是有限的。
一種名為PySR的開源替代方案,在Apache2.0許可下發(fā)布,由普林斯頓大學(xué)博士領(lǐng)導(dǎo)。學(xué)生MilesCranmer分享了準(zhǔn)確性和簡約性(簡單性)的優(yōu)化目標(biāo)以及Eureqa和TuringBot使用的組合方法。
除了提供用于執(zhí)行符號回歸的免費(fèi)且可自由修改的軟件庫外,PySR從軟件的角度來看也很有趣:它是用Python編寫的,但使用Julia編程語言作為快速后端。
雖然遺傳算法通常被認(rèn)為是符號回歸的當(dāng)前最先進(jìn)技術(shù),但在過去幾年中,新的符號回歸策略出現(xiàn)了令人興奮的爆炸式增長。
這些新發(fā)展中的許多都利用了現(xiàn)代深度學(xué)習(xí)模型,或者作為多步過程中的函數(shù)逼近組件,或者以基于大型變壓器模型的端到端方式,最初是為自然語言處理而開發(fā)的,以及介于兩者之間的任何東西。
除了基于深度學(xué)習(xí)的新符號回歸工具之外,概率和統(tǒng)計(jì)方法也出現(xiàn)了復(fù)興,尤其是貝葉斯統(tǒng)計(jì)。
結(jié)合現(xiàn)代計(jì)算能力,新的符號回歸軟件不僅本身就是有趣的研究,而且為包含大數(shù)據(jù)集和綜合實(shí)驗(yàn)的科學(xué)學(xué)科提供了真正的實(shí)用性和貢獻(xiàn)。
以深度神經(jīng)網(wǎng)絡(luò)作為函數(shù)逼近器的符號回歸
由于Cybenko和Hornik在1980年代末/1990年代初描述和研究的通用逼近定理,我們可以預(yù)期具有至少一個(gè)非線性激活隱藏層的神經(jīng)網(wǎng)絡(luò)能夠逼近任何表現(xiàn)良好的數(shù)學(xué)函數(shù)。
在實(shí)踐中,我們傾向于在更復(fù)雜或更復(fù)雜的問題上使用更深層次的神經(jīng)網(wǎng)絡(luò)獲得更好的性能。然而,原則上,你只需要一個(gè)隱藏層來逼近各種函數(shù)。
受物理啟發(fā)的AIFeynman算法將通用逼近定理作為一個(gè)更復(fù)雜難題的一部分。
AIFeynman(及其繼任者AIFeynman2.0)由物理學(xué)家Silviu-Marian Udrescu和MaxTegmark(以及一些同事)開發(fā)。AIFeynman反映了作者的背景,利用了許多物理方程中的函數(shù)特性,例如平滑度、對稱性和組合性以及其他一些特性。
神經(jīng)網(wǎng)絡(luò)作為函數(shù)逼近器發(fā)揮作用,學(xué)習(xí)數(shù)據(jù)集中表示的輸入-輸出變換對(或他們所說的“神秘”),并通過在相同的函數(shù)變換下生成合成數(shù)據(jù)來促進(jìn)對這些屬性的研究。
AIFeynman用來解決問題的函數(shù)特性在物理學(xué)方程中很常見,但并未任意應(yīng)用于所有可能的數(shù)學(xué)函數(shù)的空間。但是,它們?nèi)匀皇窃谂c現(xiàn)實(shí)世界相對應(yīng)的各種函數(shù)中尋找的合理假設(shè)。
與前面描述的遺傳算法和模擬退火方法一樣,AIFeynman從頭開始??擬合每個(gè)新數(shù)據(jù)集。不涉及泛化或預(yù)訓(xùn)練,深度神經(jīng)網(wǎng)絡(luò)僅構(gòu)成一個(gè)更大的、物理信息豐富的系統(tǒng)中精心編排的一部分。
AIFeynman符號回歸在破譯The Feynman Lectureson Physics中的一組100個(gè)方程(或奧秘)方面表現(xiàn)出色,但缺乏泛化意味著每個(gè)新數(shù)據(jù)集(對應(yīng)于一個(gè)新方程)都需要大量的計(jì)算預(yù)算。
用于符號回歸的一組新的深度學(xué)習(xí)策略利用了非常成功的Transformer模型系列,最初由Vaswani等人作為自然語言模型引入。這些新方法并不完美,但使用預(yù)訓(xùn)練可以在推理時(shí)節(jié)省大量計(jì)算。
基于自然語言模型的第一代符號回歸
鑒于基于注意力的超大型Transformer模型在計(jì)算機(jī)視覺、音頻、強(qiáng)化學(xué)習(xí)、推薦系統(tǒng)和許多其他領(lǐng)域(除了基于文本的自然語言處理的原始角色)的各種任務(wù)上取得了巨大成功,這并不奇怪變壓器模型最終也將應(yīng)用于符號回歸。
雖然數(shù)字輸入-輸出對到符號序列的領(lǐng)域需要一些仔細(xì)的工程,但數(shù)學(xué)表達(dá)式基于序列的性質(zhì)自然適用于變換器方法。
至關(guān)重要的是,使用轉(zhuǎn)換器生成數(shù)學(xué)表達(dá)式使他們能夠利用對數(shù)百萬個(gè)自動(dòng)生成的方程的結(jié)構(gòu)和數(shù)值含義進(jìn)行預(yù)訓(xùn)練。
這也為通過擴(kuò)大規(guī)模來改進(jìn)模型奠定了基礎(chǔ)??s放是深度學(xué)習(xí)的主要優(yōu)勢之一,其中更大的模型和更多的數(shù)據(jù)繼續(xù)提高模型性能,遠(yuǎn)遠(yuǎn)超出過擬合的經(jīng)典統(tǒng)計(jì)學(xué)習(xí)限制。
縮放是Biggio等人的論文的主要優(yōu)勢。標(biāo)題為“可縮放的神經(jīng)符號回歸”,我們將其稱為NSRTS。NSRTS轉(zhuǎn)換器模型使用專門的編碼器將輸入輸出對的每個(gè)數(shù)據(jù)集轉(zhuǎn)換為潛在空間。編碼的潛在空間具有固定的大小,與編碼器的輸入大小無關(guān)。
NSRTS解碼器然后構(gòu)建一個(gè)令牌序列來表示一個(gè)方程,條件是編碼的潛在空間和到目前為止生成的符號。至關(guān)重要的是,解碼器僅輸出數(shù)字常量的占位符,但在其他方面使用與預(yù)訓(xùn)練方程數(shù)據(jù)集相同的詞匯表。
NSRTS使用PyTorch和PyTorchLightning,可在寬松的開源MIT許可證下使用。
在生成無常數(shù)方程(稱為方程骨架)之后,NSRTS使用梯度下降來優(yōu)化常數(shù)。這種方法在序列生成之上分層了一個(gè)通用優(yōu)化算法,由Valipour等人同時(shí)開發(fā)的所謂的“SymbolicGPT”共享。
Valipour等人沒有像NSRTS方法中那樣使用基于注意力的編碼器。使用了一個(gè)基于斯坦福點(diǎn)云模型PointNet的松散模型,為變壓器解碼器生成一組固定維度的特征,用于生成方程。與NSRT一樣,SymbolicGPT使用BFGS來查找轉(zhuǎn)換器解碼器生成的方程骨架的數(shù)值常數(shù)。
基于自然語言模型的第二代符號回歸
雖然最近的出版物描述了使用NLP轉(zhuǎn)換器來實(shí)現(xiàn)符號回歸的泛化和可擴(kuò)展性,但上述模型并不是真正的端到端,因?yàn)樗鼈儾还烙?jì)數(shù)值常數(shù)。
這可能是一個(gè)嚴(yán)重的缺陷:想象一個(gè)模型可以生成具有1000個(gè)不同頻率的正弦基的方程。使用BFGS優(yōu)化每個(gè)項(xiàng)的系數(shù)可能會(huì)非常適合大多數(shù)輸入數(shù)據(jù)集,但實(shí)際上,它只是執(zhí)行傅里葉分析的一種緩慢而迂回的方式。
就在2022年春季,第二代基于變壓器的符號回歸模型已在ArXiv上由Vastl等人在SymFormer上發(fā)布,而另一個(gè)端到端變壓器由Kamienny及其同事發(fā)表。
這些和以前基于轉(zhuǎn)換器的符號回歸模型之間的重要區(qū)別在于它們預(yù)測數(shù)字常數(shù)以及符號數(shù)學(xué)序列。
SymFormer利用雙頭變壓器解碼器來完成端到端的符號回歸。一個(gè)頭產(chǎn)生數(shù)學(xué)符號,第二個(gè)頭學(xué)習(xí)數(shù)值回歸任務(wù),即估計(jì)出現(xiàn)在方程中的數(shù)值常數(shù)。
Kamienny和Vastl的端到端模型在細(xì)節(jié)上有所不同,例如數(shù)值估計(jì)的精度,但兩組的解決方案仍然依賴于后續(xù)的優(yōu)化步驟進(jìn)行細(xì)化。
即便如此,根據(jù)作者的說法,它們比以前的方法具有更快的推理時(shí)間并產(chǎn)生更準(zhǔn)確的結(jié)果,產(chǎn)生更好的方程骨架,并為細(xì)化優(yōu)化步驟提供了良好的起點(diǎn)和估計(jì)的常數(shù)。
象征性回歸的時(shí)代來臨
在大多數(shù)情況下,符號回歸一直是一種挑剔且計(jì)算密集型的機(jī)器學(xué)習(xí)方法,在過去十年左右的時(shí)間里,它比一般的深度學(xué)習(xí)受到的關(guān)注要少得多。
這在一定程度上是由于遺傳或概率方法的“即用即失”方法,對于每個(gè)新數(shù)據(jù)集,它們必須從頭開始,這一特征與深度學(xué)習(xí)到符號回歸(如AIFeynman)的中間應(yīng)用共享.
在符號回歸中使用轉(zhuǎn)換器作為整體組件,使得最近的模型能夠利用大規(guī)模的預(yù)訓(xùn)練,從而減少推理時(shí)的能量、時(shí)間和計(jì)算硬件需求。
新模型進(jìn)一步擴(kuò)展了這一趨勢,這些模型可以估計(jì)數(shù)值常數(shù)并預(yù)測數(shù)學(xué)符號,從而實(shí)現(xiàn)更快的推理和據(jù)說更高的準(zhǔn)確性。
生成可反過來用于生成可檢驗(yàn)假設(shè)的符號表達(dá)式的任務(wù)是一項(xiàng)非常人性化的任務(wù),并且是科學(xué)的核心。在過去的二十年里,符號回歸的自動(dòng)化方法繼續(xù)取得令人感興趣的技術(shù)進(jìn)步,但真正的考驗(yàn)是它們是否對從事真正科學(xué)研究的研究人員有用。
符號回歸開始在技術(shù)演示之外產(chǎn)生越來越多的可發(fā)表的科學(xué)結(jié)果。符號回歸的貝葉斯方法生成了用于預(yù)測細(xì)胞分裂的新數(shù)學(xué)模型。
另一個(gè)研究小組使用稀疏回歸模型生成了海洋湍流的合理方程,為改進(jìn)多尺度氣候模型鋪平了道路。
一個(gè)將圖神經(jīng)網(wǎng)絡(luò)和符號回歸與Eureqa的遺傳算法相結(jié)合的項(xiàng)目概括了描述多體引力的表達(dá)式,并從傳統(tǒng)模擬器中推導(dǎo)出了一個(gè)描述暗物質(zhì)分布的新方程。
符號回歸算法的未來
符號回歸正在成為科學(xué)家工具箱中的強(qiáng)大工具。基于變壓器的方法的泛化、可擴(kuò)展能力仍然是熱門話題,還沒有時(shí)間滲透到一般的科學(xué)實(shí)踐中。然而,隨著越來越多的研究人員適應(yīng)和改進(jìn)模型,它有望進(jìn)一步增強(qiáng)科學(xué)發(fā)現(xiàn)的能力。
其中許多項(xiàng)目是在許可的開源許可下提供的,因此我們可以預(yù)期它們將在幾年內(nèi)產(chǎn)生影響,而不是幾十年,而且它們的采用可能比Eureqa和TuringBot等專有軟件更廣泛。
符號回歸是對深度學(xué)習(xí)模型通常神秘且臭名昭著的難以解釋的輸出的自然補(bǔ)充,而數(shù)學(xué)語言中更易于理解的輸出有助于產(chǎn)生新的可檢驗(yàn)假設(shè)并推動(dòng)直觀的飛躍。
這些特征和最新一代符號回歸算法的直接能力有望為尤里卡時(shí)刻提供相當(dāng)多的機(jī)會(huì)。

- 上一篇
5G會(huì)取代Wi-Fi嗎?
邁向無處不在的5G的征程正在順利進(jìn)行,許多人現(xiàn)在都把最新的蜂窩技術(shù)裝在口袋里。但真正的5G性能仍然不明確,因?yàn)轭l帶的可變性以及與嚴(yán)格性能規(guī)范的偏差。然則,不管你怎樣劃分,5G及其潛力仍然令人印象深刻。早期關(guān)于5G會(huì)以
- 下一篇
為什么數(shù)據(jù)丟失預(yù)防對企業(yè)至關(guān)重要
對于許多企業(yè)來說,數(shù)據(jù)丟失是一個(gè)嚴(yán)重的問題。估計(jì)有94%的人無法幸免于災(zāi)難性的數(shù)據(jù)丟失。數(shù)據(jù)丟失防護(hù)(DLP)致力于保護(hù)您的業(yè)務(wù)數(shù)據(jù)免受內(nèi)部或外部損害。這包括數(shù)據(jù)泄漏、數(shù)
相關(guān)資訊
- 如何確保工業(yè)4.0中的協(xié)作
- 機(jī)器人與人工智能有何不同?
- Ai智能在未來會(huì)不會(huì)讓很多人都失
- 物聯(lián)網(wǎng)、增強(qiáng)現(xiàn)實(shí)和人工智能正在
- Wi-Fi、藍(lán)牙與NFC:技術(shù)優(yōu)勢與應(yīng)用
- 數(shù)據(jù)收集的一切指南
- 醫(yī)療保健行業(yè)如何趕上技術(shù)進(jìn)步
- 如何利用工作負(fù)載自動(dòng)化應(yīng)對數(shù)字
- 教育領(lǐng)域的元宇宙:新的中流砥柱還
- AI與智能農(nóng)業(yè):提升農(nóng)業(yè)生產(chǎn)效率