身為 PM 的你,不論是正準備將 AI 功能加入產品中,或是計畫轉職到 AI 領域,都需要知道目前生成式 AI 的相關知識與發展狀況,好讓自己與工程團隊有共通的語言,那麼先了解產業裡關鍵字也許是不錯的第一步。
本文將由淺入深,快速帶你認識 20 個重要 AI 相關名詞,並簡介部分原理和幾個知名模型。這些詞彙可分為四大類:常見詞彙、大型語言模型、影像以及聲音,希望幫助讀者建立對生成式 AI 的基本概念。
常見詞彙
1. Generative AI(生成式 AI)
當今的 AI 浪潮起始於 2022 年底的「生成式 AI」。生成式 AI 並非特定一種 AI 模型,而是泛稱「可以生成內容」的模型,如生成文字、圖片、影片、聲音等。
大家最熟悉的 ChatGPT,背後技術是一種 LLM(大型語言模型,後面會再解釋);而大型語言模型是其中一種生成式 AI。
過去發展數十年的機器學習,大多應用於識別、分類、推薦等單一工作;「生成式 AI」這個用詞,是為了與這類機器學習區隔——但兩者的底層技術相似,都是「神經網路」與「深度學習」。生成式 AI 並非忽然發生的典範轉移或技術突破,而是既有技術持續演進後,被應用於「生成內容」這個領域。
目前的生成式 AI 並非無中生有,仍需要人類給予輸入,若將字面的「生成」思考為「轉譯」,或許更容易理解。如「生成圖片」是將文字轉譯成圖片,「語音辨識」是將聲音轉譯成文字。
2. Prompt(提示詞)
現行的生成式 AI,大多數是將「文字」轉譯為其他內容形式。所輸入的文字就稱為「prompt」,讓模型根據指示決定生成的內容方向。但也有一些模型被歸類在生成式 AI,但並不需要文字 prompt,例如語音辨識,需要的是一段錄音檔案。
3. Prompt Engineering(提示工程)
因為 prompt 對於生成結果至關重要,「如何下指令」就成為一門學問,稱為「Prompt Engineering」。
常見讓 ChatGPT 輸出品質提升的方式,包含要求角色扮演(如:你現在是一位行銷專家)與提供範例(稱為「Few-Shot Prompting」)。還有一種是「Chain of Thought(CoT)」,要求 AI 模型分步驟思考,藉此獲得更正確的結果。
若對提示詞感興趣,可以參考 Prompt Engineering Guide 這個網站,其中介紹了許多撰寫 prompt 的方式。也可以參考我們過去的文章:〈Prompt Engineering 提示工程是什麼?新手必學指南〉
4. Hallucination(幻覺)
幻覺是指 AI 模型生成出與現實不符的內容。例如給出現實中不存在的知識、畫出與現實不符的圖像等。
我個人更喜歡將幻覺視為 feature 而非 bug,因為——人類也會有幻覺。在想像與推理時,我們可能會得出錯誤的結果;如果要求未經訓練的人類繪畫,我們恐怕也會畫出歪七扭八的手指。
5. Fine-Tune(微調)
Fine-tune 是指在已經訓練好的模型上,用額外的資料再次訓練。比如,若希望將某個語言模型訓練成企業法律顧問,就可以提供許多不同的法律文件,讓輸出更符合該企業法律現狀。
6. Multimodal(多模態)
多模態並非多種模型的意思(英文是 modal 而非 model),而是指單一模型系統,具備處理多種不同輸入形式的能力。例如 ChatGPT 3.5 只能理解文字,但是 ChatGPT 4 就可以理解並生成圖像,因為 ChatGPT 4 使用的是多模態模型(multimodal model)。
目前的多模態模型,通常能夠理解文字、圖像、聲音、影片等不同種形式,但不止於此。Meta 的 ImageBind ,除了上述形式,還整合了深度、熱度、慣性等感知形式。未來的 AI 更可能連結不同的感測器,或是理解如「基因」、「蛋白質」這類的輸入。
7. Agent
現行的 AI 模型,大多仍需要人類輔助(如:給予提示、判斷結果好壞),但 Agent 是能夠理解特定任務、找尋資源、切分步驟並自主完成目標的 AI。
近期由 Cognition Labs 發表的 Devin,就是軟體工程師 Agent,可以自行拆解任務、做出決策、撰寫程式碼並修復錯誤。Devin 已具備初階工程師的能力,甚至可以自己完成接案外包。(2024 年 4 月 15 日更新:近日有一位工程師拍攝一支影片,懷疑 Devin 的 demo 影片是造假的,讀者也可以參考 Hacker News 上的相關討論。)
8. AGI(Artificial general intelligence,通用人工智慧)
通用人工智慧的定義仍有爭議,不過大致上是指足以規劃並執行不特定任務的人工智慧。上述的 Agent 被設計來處理特定任務(如:寫程式),但通用人工智慧則是已經非常近似人類,可以在面對模糊問題時,自行推理並找到解決方法。
9. GPU
如今的 AI 蓬勃發展,很大程度要歸功於硬體的進步。AI 的底層技術「神經網路」理論,在 1940 年代就被提出,但在當時的運算能力不可能實現。
Nvidia 發明的 GPU(Graphics Processing Unit)具備平行運算的能力,1起初是設計於 3D 繪圖運算。但在 2010 年前後,研究人員發現 GPU 的平行運算很適合應用於 AI 模型的訓練。不同於 CPU 需要逐一完成運算,GPU 可以同步處理多項簡單、無依賴性的運算,使訓練變得非常快。Nvidia 也為 GPU 開發了一套平台與程式語言 CUDA,方便開發者撰寫平行運算的程式。
「大型語言模型」相關詞彙
10. LLM(Large Language Model,大型語言模型)
LLM(大型語言模型)是指以極大量文字資料訓練而成的模型。在輸入文字(prompt)後,可以生成文字回覆。目前較為知名的大型語言模型包含:
- GPT:由 OpenAI 訓練。ChatGPT 便是在 GPT 模型上加上了聊天界面。
- Gemini:由 Google 訓練。
- Claude:由新創 Anthropic 訓練。
- LLaMA:由 Meta 訓練並開源。
- Mistral:由法國新創 Mistral 訓練並開源。
另外,在 LLM 後常會看到 7B、20B 等數字,這是指 parameters(參數)的數量,意思是在訓練時,總共有幾個不同的權重。7B 就表示 70 億個、20B 表示 200 億個參數。
一般而言,參數愈多,模型就愈大,訓練跟執行就愈慢,需要的資源也愈多。因此,一些語言模型會追求以最少的參數,來獲得最佳的生成效果。
11. Token
LLM 可以輸入與輸出的內容量,會以 token 數來表示。在訓練模型時,會需要將大篇幅的文字,拆分成最小單元,這個單元就是 token。因為需要保留字詞內的關係,通常不會只以單字拆分。平均而言,每 100 個 token 約等同於 75 個英文字,或 50 個中文字。
Token 的數量有時也會以 context length 或 context window(上下文長度)來指稱。比如 Gemini 1.5 被稱為長上下文,因為支援 100 萬個穩定 token 數;GPT 4 則是 32,000 個 token 數。
12. Embedding
Embedding 是指將文本轉換成向量(就是高中數學的向量)。比如將一個句子,轉換成由 1024 個數字組成的向量。
詳細的原理,可以參考我們過去的文章:〈NLP 跨語言 Word embedding — 什麼是跨語言模型〉
13. RAG(Retrieval-Augmented Generation,檢索增強生成)
RAG 是為了解決 LLM 的幻覺問題而誕生的技術,分為「檢索」與「生成」兩部分。基本原理為:先從資料庫中檢索相關內容,提供 LLM 參考並生成內容,藉此避免生成結果不準確。
若想深入了解 RAG,可參考我們曾寫過的兩篇文章:
14. Prompt Injection
在開發 LLM 相關產品時,Prompt Injection 是需要重視的問題。Prompt Injection 是指惡意的使用者,透過 Prompt Engineering,讓 AI 產品執行預期之外的任務,例如讓語言學習的 AI 寫程式,或洩漏其他使用者隱私。
另一個延伸的詞彙則是 Prompt Leak,指透過 Prompt Injection,問出產品背後所使用的 prompt。例如,若有人成功讓 LLM 成為心理師,其他人可能會好奇是怎麼做到的,因此設法問出背後的指令。
目前並沒有百分之百防範 Prompt Injection 的方法。如果產品高度依賴 prompt,最好考慮從源頭避免,例如從一開始就不讓 LLM 看見機密資料,或是乾脆不要提供輸入 prompt 的介面。
影像生成 AI
15. Text-To-Image(圖像生成)
將文字轉譯成圖片的 Text-To-Image 模型,大多奠基於「Diffusion Model(擴散模型)」。其高度簡化的原理為:
- 先不斷在訓練圖片中加入雜訊。
- 訓練語言模型,令文字與雜訊產生關聯。
- 當使用者輸入 prompt,便根據 prompt 隨機生成雜訊,再逐步將雜訊移除,產生出一張圖片。
因此,擴散模型並非使用訓練圖片「拼貼」或「照著畫」,而是從頭畫出一張全新的圖片。目前較為知名的圖像生成 AI 包括:
- Midjourney
- DALL·E:OpenAI 的圖像生成模型
- Stable Diffusion:Stability AI 的開源模型
- Adobe Firefly
16. LoRA
根據訓練資料,每個圖像生成模型都會有自己的風格,而如果希望生成帶有特定風格的圖像,就需要 Fine-Tune(微調)模型。
LoRA 就是一種快速的 Fine-Tune 技術,其全文是 Low-Rank Adaptation of Large Language Models,為 2021 年微軟提出的一種 Fine-Tune 方法。
我們這裡會略過其技術細節,可以將 LoRA 想像成套用於圖像生成 AI 的「風格濾鏡」。在 Civitai 等網站上,也可以下載他人預先訓練好的開源 LoRA 模型。
17. ControlNet
AI 生成圖像時,由於一開始生成的雜訊圖是隨機的,我們很難透過 prompt 細微控制內容。ControlNet 便是控制用的神經網路,應用於圖像生成時,通常會用來控制角色的姿勢,或是修復手指(AI 惡名昭彰的失控手指圖片!)
18. Sora
Sora 是 OpenAI 在 2024 年二月發表的影片生成模型,不僅能生成出穩定且逼真的影片,更可以混合多個影片或置換影片背景。在此之前的影片生成模型,都會在邊緣有明顯的晃動,或是角色臉部變形扭曲。以下是 Sora 與另一間圖像生成公司 Runway 所生成的影片對比:
此外,Sora 也具備生成高解析度圖片的能力。上面提到的擴散模型,則必須先生成低解析度的影像,再逐步放大。
聲音類 AI
19. Automatic Speech Recognition(ASR,語音辨識)
「生成逐字稿」是許多人的強烈需求。OpenAI 的 Whisper 具有精準的語音辨識能力,是目前最流行的語音辨識模型。知名的逐字稿服務 Good Tape 也是使用 Whisper。
20. Text-to-Speech(TTS,語音生成)
語音生成是輸入一段文字後,讓 AI 朗讀出來。相關的服務有:
Google Cloud、OpenAI 皆提供 Text-To-Speech AI
ElevenLabs:可以模仿音色、翻譯成不同語言
Retell AI:YC W24 團隊 ,提供低延遲且自然的對話語音生成服務,知道何時該說話、何時該聆聽、如何處理被打斷等。目前他們並沒有自行訓練模型,而是串接 ElevenLabs、OpenAI 等服務
補充:音樂與聲音生成
Google 曾經發表過 MusicLM、Meta 則發表過 AudioCraft,但都只是 demo 與論文,並未產品化。不過新創公司 Suno AI 的產品,可以生成歌詞配唱與指定風格的編曲,一推出後就造成轟動。ElevenLabs 則可以生成如海浪、火車等音效。
以上就是我們所選出來的 20 個重要 AI 名詞,希望能讓你一覽 AI 的發展現況。當然,在短短的篇幅裡,要深度介紹是不可能的。如果對特定領域有興趣,可以再搜尋相關文章深入了解。
而如果你正踏入 AI 產品開發,也不妨閱讀我們站上其他文章,了解 AI 產品化過程的思考: