為什麼要用 RAG？不用微調模型就能低成本讓 LLM 理解專業知識的 AI 技術

內容目錄

在使用 ChatGPT、Gemini 等奠基於大型語言模型（Large Language Models，以下簡稱 LLMs）的人工智慧服務時，很常會遇到一個問題就是：請它們提供與特定專業領域相關的資訊，往往只能獲得極為空泛、甚至是充滿幻覺（hallucination）的回覆。¹隨著越來越多的企業和組織期許能夠將 LLMs 應用到生活以及工作的各個領域，如何產生客製化的 LLMs 便成為人們關注的焦點，而名為「檢索增強生成」（Retrieval-Augmented Generation，縮寫為 RAG）就是值得我們重視的其中一項技術。本文將介紹 RAG 的運作方式、哪些使用情境適合導入 RAG？以及為什麼 NVIDIA、Microsoft 等軟硬體科技巨頭都爭相投入這個領域。

（編按：想要進一步知道 RAG 實作與產品化要考量的面向，可以閱讀這篇〈為我的筆記加上 AI：RAG 實作經驗分享與四大產品化挑戰〉。）

什麼是 RAG？跟模型微調有什麼差別？

在我前一篇分享 OpenAI 研究員 Andrej Karpathy 介紹 LLMs 的文章曾介紹到，通常 LLMs 的訓練會經過兩個階段：產出基本模型（base model）、曠日廢時且需要投入大量資源的「預訓練」階段，以及後續頻繁進行的「模型微調（fine-tuning）」階段。在上述的訓練過程中，若希望 LLMs 理解特定領域的知識，就得從模型微調的階段下手，將特定領域的專業知識輸入基本模型進行訓練。但模型的微調不僅得仰賴硬體的運算，且無法很快地將公司或組織的新資料納入模型之中，這都會對客製化 LLMs 的落地應用形成限制。而 RAG 就能夠突破上述的限制。

RAG 概念是由自然語言處理科學家 Patrick Lewis 等學者在 2020 年發表的論文²中所提出。這項技術簡而言之，就是在向 LLMs 提供用戶的提示詞（prompt）之前，會先從外部的資料庫「檢索」相關資料，再將這些相關資料連同原本的提示詞提供給 LLMs 參考並「生成」回覆。IBM 的語言技術總監 Luis Lastras 用開書考試（open-book）跟闔書考試來類比 RAG 跟模型微調的差異：「使用 RAG 系統時，你是要求模型去檢索書的內容（資料庫），而不是光依憑（模型微調）的記憶來回答問題。」³

而 RAG 所使用並非傳統的資料庫，而是所謂的向量資料庫（vector database）。這種資料庫會將文字、圖片、聲音、影片等複雜的非結構化資料，透過索引（index）演算法切分成較小的區塊（chunk），再進一步將區塊運算成可以用數字呈現、電腦可以理解、結構化的向量嵌入（vector embedding）並存放入向量資料庫中（LLMs 的訓練與運作也有使用到這套技術）。

使用向量資料庫的優勢在於可以藉由比對資料間的向量距離，就能判斷其相似程度。因此，使用 RAG 的系統能更有效率地找到與提示詞相關的資料，再傳遞給 LLMs 作為生成回覆的參考。（這邊可以想像在二維的地圖上，「台北-台中」跟「台北-東京」這兩種城市組合，前者的兩座城市的距離比較近，因此也比較「相似」。但向量資料庫中的資料可能有上千個維度。）

▲ RAG 流程示意圖（圖片來源：Gknor, CC BY-SA 4.0, via Wikimedia Commons）

快速掌握 LLM 應用全局觀

何時要使用 RAG？何時要使用模型微調？

既然 RAG 跟模型微調這兩種方式，都可以讓 LLMs 擁有專業領域的知識，而不會只是提供空泛甚至充滿幻覺的回覆，那麽這兩項技術的差異在哪裡？分別適合怎樣的使用情境？針對這個問題，微軟的研究單位進行過一項研究⁴，使用 Llama2-13B、GPT-3.5 和 GPT-4 等 LLMs 為基本模型，再搭配農業的專業領域資料進行 RAG 跟微調的進一步訓練，看看使用 RAG 或經過模型微調（以及使用 RAG 再搭配模型微調）之後，不同 LLMs 的回覆是否更為精準？

微軟的研究結果發現，RAG 和微調模型確實都能讓 LLMs 的回答變得更為精準：與 GPT-4 的基本模型相比，RAG 的精準度增加的 5%、微調的精準度增加 6%，而微調模型搭配 RAG 的精準度則增加 11%。由此可見，RAG 可以用較低的訓練成本達到與微調模型差不多的表現，且還能進一步用來強化微調模型。

這份研究報告也指出兩種強化 LLMs 方式的優缺點：RAG 雖然在提示詞的輸入和結果輸出上，因為需要帶入向量資料庫的資料，必須使用較多的 token，其回答也較為冗長且難以操縱；但因為它無需額外使用硬體來微調訓練模型，只需要將內容嵌入向量資料庫即可，所以初始成本會相對低上許多。而模型微調雖然需要耗費硬體資源訓練，但是後續使用的 token 就比較少，回答也更為簡短。

在各自適合的使用情境上，研究團隊評估 RAG 更適合用於讓 LLMs 檢索和資料庫相同脈絡的議題時，譬如解讀農業數據進行分析。另一個例子則是像 NVIDIA 與電子設計公司益華（Cadence）合作開發可用於工業電子設計的 RAG。⁵。而模型微調則更適合想要讓 LLMs 學會新的行為模式，譬如加強預測農穫量的能力、根據各地氣候調整灌溉時程的能力等等。

此外，因為 RAG 是在 LLMs 生成回覆之前進行檢索，且系統檢索的資料都是由使用的組織提供，不僅具備一定程度的資料透明，也可以確保組織的資料安全，資料也更具可擴展性。

RAG 發展趨勢：科技巨頭爭相投入，相關產品遍地開花

目前 Amazon⁶、Microsoft⁷、Google（包含雲端服務⁸和開源的 LLMs Gemma⁹）、Oracle¹⁰、IBM¹¹、NVIDIA¹² OpenAI（GPTs 可以透過上傳檔案擴充知識庫，就是使用 Knowledge Retrieval 這個 RAG 工具¹³）的等科技公司都已推出 RAG 相關的產品及服務，而不少專家在討論 2024 年人工智慧預測的文章也都有提到 RAG。

譬如 NVIDIA 企業運算副總裁 Manuvir Das 就表示：「客製化（生成式人工智慧應用）正在進入到企業端。公司不會只擁有一、兩個生成式人工智慧應用，許多公司將擁有數百個使用專門資料的客製化應用，以適應其業務的各個面向。一旦開始運作，這些客製化的大型語言模型將具有 RAG 功能，將資料來源連接到生成式人工智慧模型，以獲得更準確、更聰明的回應。」¹⁴

Dell 副總裁暨營運長 Jeff Clarke 表示：「我相信企業端的多元需求，會促使更小、更有彈性、更有效率的語言模型出現⋯⋯我們也會看到，搭配 RAG 等技術，（語言模型）的架構會有更顯著的進展，讓生成式人工智慧的結果更易於使用。」¹⁵《經濟學人》的《2024全球大趨勢》專刊討論到強化 AI 模型的文章中，也用了一整個段落介紹，若想將 LLM 嵌入到更龐大、更強大的系統架構中，RAG 如何作為增強 AI 模型方法的選項之一。¹⁶

關於 RAG 的最新發展之一，就是在 02 月 14 日，NVIDIA 所推出「Chat with RTX」的服務¹⁷：一般用戶可以利用自己電腦中的 NVIDIA 顯示卡，就能擁有可以檢索電腦檔案的客製化聊天機器人。在寫作這篇文章的過程，我也完全感受到這項技術的活躍發展，在 X（前 Twitter）上很常看到網友對於 RAG 無論是新產品或新論文的分享和討論（例如下方兩則貼文），非常推薦讀者朋友們持續關注相關議題。我想在不久的將來，隨著硬體的執行演進以及 RAG 技術的普及，無論是企業還是個人，都能擁有客製化的 LLMs 助理，在不同情境下為我們的專業工作提供協助。

What happens when RAG models are provided with documents that have conflicting information?

In our new paper, we study how LLMs answer subjective, contentious, and conflicting queries in real-world retrieval-augmented situations. pic.twitter.com/3Re50rXEUD
— Alexander Wan (@alexwan55) February 21, 2024

RAG Research Insights

It's challenging to keep track of all the interesting and latest developments in RAG research.

So we have created a new section in the RAG overview to summarize and help you keep track of insights into the latest RAG techniques.

We will be regularly… pic.twitter.com/Irtg56w6ax
— elvis (@omarsar0) February 8, 2024

為什麼要用 RAG？不用微調模型就能低成本讓 LLM 理解專業知識的 AI 技術

什麼是 RAG？跟模型微調有什麼差別？

快速掌握 LLM 應用全局觀

何時要使用 RAG？何時要使用模型微調？

RAG 發展趨勢：科技巨頭爭相投入，相關產品遍地開花

相關

新手友善

活動聚會

時事論壇

豐富多元的活動交流：實現自我加值

・職涯說明會、工作坊
・線下實體活動聚會
・課程進度班、求職小組、時事論壇

程式設計

軟體工程師

JavaScript 入門

程式設計入門：踏入軟體開發的第一堂課

踏入軟體開發領域的第一堂課。四週讓零基礎者上手寫程式。帶你暸解網頁設計、HTML、CSS、程式語言 JavaScript 與基礎運算思維。體驗什麼是「前端」與「後端」開發

資料分析

SQL課程

數據分析師

SQL 課程：14 天從基礎語法到實戰案例

SQL 是和資料溝通的首選工具，在商業情境與資料日益複雜的現今，蹲好馬步打穩 SQL 基礎，是解決實務問題的第一步。上手 SQL 後，就能進一步整合思維、工具、與應用，並實現真正的數據價值

什麼是 RAG？跟模型微調有什麼差別？

快速掌握 LLM 應用全局觀

何時要使用 RAG？何時要使用模型微調？

RAG 發展趨勢：科技巨頭爭相投入，相關產品遍地開花

相關

新手友善

活動聚會

時事論壇

豐富多元的活動交流：實現自我加值

・ 職涯說明會、工作坊 ・ 線下實體活動聚會 ・ 課程進度班、求職小組、時事論壇

程式設計

軟體工程師

JavaScript 入門

程式設計入門： 踏入軟體開發的第一堂課

踏入軟體開發領域的第一堂課。四週讓零基礎者上手寫程式。帶你暸解網頁設計、HTML、CSS、程式語言 JavaScript 與基礎運算思維。體驗什麼是「前端」與「後端」開發

資料分析

SQL課程

數據分析師

SQL 課程：14 天從基礎語法到實戰案例

SQL 是和資料溝通的首選工具，在商業情境與資料日益複雜的現今，蹲好馬步打穩 SQL 基礎，是解決實務問題的第一步。上手 SQL 後，就能進一步整合思維、工具、與應用，並實現真正的數據價值

訂閱最新消息

請勾選您最感興趣的內容 ( 可複選 )

・職涯說明會、工作坊
・線下實體活動聚會
・課程進度班、求職小組、時事論壇

程式設計入門：踏入軟體開發的第一堂課