向量嵌入與知識圖譜:解鎖大型語言模型的新維度
大型語言模型(LLM)在對話、創(chuàng)造性寫作和其他應用中展現出巨大潛力,但其知識僅限于訓練數據,缺乏對世界的真正理解。為了彌補這一缺陷,檢索增強生成(RAG)系統應運而生,通過從外部源檢索知識來提供更明智的響應。然而,現有的RAG系統大多使用向量嵌入進行語義相似度檢索,存在缺乏真正相關性、無法聚合事實和推理鏈等局限性。
知識圖譜作為現實世界實體和關系的結構化表達,通過編碼上下文事實之間的相互聯系,克服了純向量搜索的缺陷。通過圖搜索,可以實現復雜的多級推理。將向量嵌入與知識圖譜相結合,可以開啟更高水平的推理能力,提升LLM的準確性和可解釋性。這種伙伴關系提供了表層語義以及結構化知識和邏輯的完美融合,LLM既需要統計學習也需要符號表示。
盡管向量嵌入在檢索相關上下文方面有其優(yōu)點,如快速搜索和相似度度量,但其對復雜查詢的處理能力有限。由于無法完全捕獲查詢的語義意圖、丟失關鍵細節(jié)、缺乏跨段落的聯合分析以及匹配過程的不透明性,檢索結果往往缺乏真正的理解。
知識圖譜的整合為增強檢索能力提供了新的途徑。與壓縮成向量的文本相比,知識圖譜中的顯式事實保留了關鍵細節(jié),提供了豐富的上下文描述、別名和元數據。網絡結構表達了實體之間的真實連接、關系建模、層次結構和時間線等。多級推理基于關系遍歷和連接來自不同來源的事實,推導出需要跨多個步驟進行推理的答案。此外,聯合推理通過實體解析鏈接到同一個現實世界的對象,允許進行集體分析。圖形拓撲為結果提供了透明度,解釋了為什么某些基于連接的事實是相關的。個性化特性還允許根據用戶屬性和上下文定制結果。
知識圖譜不是孤立的匹配過程,而是通過圖遍歷收集與查詢相關的相互關聯的上下文事實?;趫D的拓撲結構進行可解釋的排名,通過編碼結構化事實、關系和上下文來增強檢索能力,從而實現精確的多步推理。與純向量搜索相比,這提供了更大的相關性和解釋能力。
此外,利用簡單約束改進知識圖譜嵌入也是當前的研究熱點。例如,非負性約束將實體嵌入限制為正值以提高可解釋性;蘊涵約束將邏輯規(guī)則直接編碼為關系嵌入的約束;置信度建模根據證據對邏輯規(guī)則的置信度進行編碼;正則化施加有用的歸納偏差;結構化約束為模型所學習的模式提供透明度;精確性約束通過減少假設空間來提高泛化能力。
總的來說,將向量嵌入與知識圖譜相結合開啟了LLM的新維度,克服了其局限性并提高了準確性和可解釋性。這種伙伴關系為LLM提供了表層語義以及結構化知識和邏輯的完美融合,從而在復雜查詢和多級推理中表現出色。隨著技術的不斷進步和研究的深入,我們有望見證LLM在更多領域中的廣泛應用和巨大潛力。