大語言模型(LLM)能夠理解、解釋和生成人類語言,給各行各業帶來了革命性的變化。然而,它們也面臨著自身的挑戰,包括產生不準確或誤導性信息(幻覺)、隱私問題和安全漏洞等。
本文探討了這些挑戰,并深入研究了 "檢索增強生成(RAG)"這一創新方法,以克服這些挑戰,使大語言模型在關鍵工業應用中變得更加強大和可靠。
大語言模型可以訪問大量文本數據,但它們的訓練數據可能已經過時,而且僅來自公共領域。大型語言模型需要訪問企業的工業數據,才能讓生成式人工智能(AI)為工業服務。通過在經過整理的相關數據上 "訓練" 大語言模型(類似于 ChatGPT 的訓練方式),我們可以提高其在工業應用中響應的可靠性和準確性。
要將生成式 AI 納入數字化戰略,制造企業可以從下面三個基本架構著手:
數據情境化
情境化數據對于確保大語言模型提供相關且有意義的響應至關重要。例如,在尋求有關運營工業資產的信息時,提供與這些資產相關的數據和文檔及其顯式和隱式語義關系變得至關重要。這種情境化使大語言模型能夠理解任務并生成上下文適當的答案。
工業知識圖譜
創建工業知識圖譜對于提高大語言模型的數據質量是必要的。此圖通過規范化、縮放和增強來處理數據,以確保準確和可信的響應。“垃圾輸入→垃圾輸出”的古老格言也適用于生成AI,強調了豐富數據以提高大語言模型性能的重要性。
檢索增強生成
檢索增強生成(Retrieval Augmented Generation,RAG)是一種先進的設計模式,使大語言模型能夠在直接響應提示時利用特定的工業數據。通過結合上下文學習,RAG允許大語言模型基于私有上下文的數據進行推理,從而提供確定性的答案,而不是基于現有公共信息的概率響應。
此外,RAG 使我們能夠在企業中保持工業數據的專有性和安全性。像任何先進技術一樣,大語言模型可能容易受到對抗性攻擊和數據泄漏。在工業環境中,由于專有設計和客戶信息等敏感數據,這些問題更是需要引起足夠的重視。
確保適當的匿名化,保護大語言模型基礎設施,確保數據傳輸安全和實施強大的身份驗證機制,是降低網絡安全風險和保護敏感信息的重要步驟。RAG 允許維護訪問控制,與大型企業建立信任并滿足嚴格的安全和審計要求。
通過在生成式 AI 解決方案中利用數據情境化、工業知識圖譜和 RAG 技術,我們不僅可以解決數據泄漏、信任和訪問控制以及幻覺等挑戰,還可以影響解決方案的整體效率和成本。
大語言模型具有上下文窗口限制,限制了它們在響應提示時可以考慮的令牌范圍。此外,每個令牌都會增加每次查詢的總成本。如果把這些查詢想象成谷歌搜索,就會發現成本增加是多么容易。
為了解決這個問題,將專有工業數據情景化、創建工業知識圖譜以及通過 RAG 優化查詢變得至關重要。這些步驟可確保實驗室管理人員獲得可搜索且具有語義意義的輸入源,從而更有效地利用龐大的工業數據。
總之,雖然大語言模型為各個行業提供了巨大的潛力,但應對諸如不準確性、安全漏洞和隱私風險等挑戰也至關重要。通過整理和情境化數據,構建行業知識圖譜并利用RAG等尖端技術,大語言模型可以成為簡化運營、實現自動化任務和為不同行業的企業提供可操作見解的寶貴資產。