如何打造一個AI Agent ─ AI Agent研發案例分享會

如何打造一個AI Agent _{─ AI Agent研發案例分享會}

六月 1 , 2025

演講者：廖玄同

時間：2025年5月14日 16：00-17：00

地點：DDS THU AI中心

整理：NotebookLM、ChatGPT、張運宗

【編按】AI計畫推動的「建築資訊生成系統開發計畫」獲「價創2.0」^註一後，正進入籌備高峰階段，邱浩修為使團隊了解AI Agent，特邀BotsUP「矽基崛起」創辦人廖玄同 (Vincent)於AI中心分享經驗。　廖玄同，台大物理碩士，2024 AI+新銳選拔賽優勝，曾共同創辦「水滴信用」（2020-2023），出版AI掃描發票自動對獎的「水滴發票」APP，超過百萬用戶，於2011年獲App Store評選為「最佳APP」。　

本刊曾分享什麼是「AI Agent」，本篇則藉案例分享如何打造AI Agent的入門方向。

AI的時代

　　廖玄同的開場引用狄更斯（Charles Dickens）《雙城記》（A Tale of Two Cities）的開頭：「這是最美好的時代，這也是最糟糕的時代」。　

最好的時代：身處 AI 領域，最有機會感受到時代的美好。　例如，

。　一家AI新創公司Windsurf 推出AI 寫程式工具，「他在對的時間點很快速的推出產品、打入市場、累積客戶」，僅僅半年就被OpenAI以 30 億美元收購。　

最糟糕的時代：如果沒有學會運用或打造這些 AI 工具，可能會被這些工具取代。　Windsurf 為什麼有價值？是因為它以讓工程師能夠「以一擋十」。　
分享目標：如何打造一個 AI Agent 或 AI Tool，以及如何在短時間內推出，希望能打造出下一個被高價收購的項目。　
如何打造AI Agent？

結構 (Structure)：了解常用的框架和工具。　
方法 (Methodology)：通常使用什麼樣的方法來做。　
原則 (Principles)：要掌握哪些原則。

結構：從模型到多Agent架構的組合力

　　廖玄同將「AI Agent的誕生」拆解為四個結構模組：Model、Chain of Thought（CoT）、Function Calling、Multi-Agent。　每個模組之間的連結，不只是技術串接，更是一種思維轉向。　

Models (LLM)：AI Agent 的核心是大型語言模型 (LLM)。　自 Google 的 Transformer 模型問世以來，LLM 能力快速提升，尤其在 ChatGPT 3.5 時達到高峰。　LLM 的基礎結構是基於大量數據訓練，基本上，輸入問題，就能預測下一句要說什麼。　這一預測能力若結合任務目標、情境限制，就能轉化為任務執行者。　
CoT (Chain of Thought)：「你不是在問AI一個問題，而是要教它『這種問題應該怎麼想』。　」這不像模型過去的直覺式反應，而是讓模型擁有一個思考框架。　類似於人類在重要場合組織思路，AI 會先思考目標、思考框架（如 SWOT 分析），然後逐步分析並綜合出答案。　不同領域和問題需要不同的思考框架，這使得 Domain Knowledge (領域知識) 變得非常重要，也為新創帶來機會，特別是結合在地化知識（如台灣建築法規）的應用。　CoT 實際上是將複雜任務拆解成多個步驟，每個步驟都通過特定的 Prompt 進行思考和執行，這樣的CoT能大幅提升輸出準確度與邏輯性。　
Function Calling：這是讓 AI Agent 能夠執行外部動作的關鍵。　透過 Function Calling，AI 不僅限於文字處理，還可以調用 API 或函數來執行任務，例如搜尋網路 (Deep Search)、繪圖、圖像辨識 (OCR)、語音生成等。　Deep Search 應用即是透過動態產生思考鏈，包含搜尋、交叉比對、總結等多個步驟，並在特定步驟使用 Function Calling 執行搜尋動作。　這使得 AI Agent 能夠與外部世界互動並獲取即時或特定資訊。　
Multi-Agent：更複雜的 AI 工具可以設計成多個 AI Agent 協同工作。　在爭取 Media Tek 的案例中，不同的 AI 扮演不同的角色，擁有不同的權責，並來回協作完成報告；可以設定一個 AI 擔任「主管」角色，負責根據預設標準審核其他 AI Agent 產生的內容，提升結果的可靠性。　這能讓 AI 系統更接近複雜的工作流程。

方法：從n8n原型到部署應用的實作流程

n8n 快速打造 prototype：n8n (或類似工具如 Make) 是用於快速建構 AI 工具原型 (prototype) 的高效工具。　它採用視覺化節點連接的方式，使用者可以快速串聯不同的服務（如 Gmail、AI模型、Slack 等）和 AI 功能（如分類、標籤），實現自動化流程。　例如，可以構建一個自動分類郵件的 AI 助理。　n8n 的優勢在於開發速度快，能在短時間內（如10天或更短）做出可展示的 Demo，驗證想法的可行性。　然而，n8n 不適合用於需要高度穩定性、可擴展性和速度的正式上線產品。　
用成熟 Framework 開發穩定服務：當原型被驗證可行並需要正式部署時，需要從原型階段過渡到使用更成熟的框架重新建構系統。　這個階段的重點是提升系統的可靠性與安全性。　企業客戶尤其重視這些方面。　開發一個穩定的生產級 AI Agent 需要投入更多時間（例如，Media Tek 案例從原型到產品耗時7個月），因為需要處理邊界情況、錯誤處理、以及確保數據安全和隱私。

原則：讓AI真正「工作」的四大關鍵

明確的垂直場景定位：與大型模型公司競爭的關鍵在於選擇一個特定的垂直領域 (Vertical Field)。　在這個領域中，深度整合 Domain Knowledge (領域知識) 是打造差異化產品的核心。　例如，針對法規要求特定的報告格式或流程，或結合建築設計、景觀心理學等專業知識。　這讓產品不僅是通用的 AI 工具，而是能解決特定行業痛點的專業方案. YC (Y Combinator) 也鼓勵開發結合領域知識的全端 AI 應用。　
高度整合的用戶體驗：AI Agent 應被整合到使用者現有的工作流程中，提供無縫的使用體驗。　好的 AI Agent 應該讓使用者無需經常手動複製貼上或在不同工具間切換。　例如，將 AI 報告生成工具嵌入 Google Docs，或將發票處理自動化整合到 Slack 通知。　理想的狀態是使用者甚至無需感知背後使用了 AI，流程的效率卻大幅提升。　
可靠性與安全考量：對於企業級應用而言，AI Agent 的可靠性和安全性至關重要。　儘管原型可以快速搭建，但確保輸出的正確性（尤其是在涉及法律條文、會計審核等嚴謹領域）和數據的安全處理需要嚴格的測試和迭代。　可以透過設計 Chain of Thought 包含審核步驟，甚至利用多個 AI Agent 進行交叉驗證來提升可靠性。　例如，模擬多位律師攻擊生成的法律文件以找出漏洞。　
快！ (Speed!) 敏捷開發快速迭代：在快速變化的 AI 時代，「快」是生存與成功的關鍵；「不要想，先做再說」，快速測試想法、快速打造原型，基於用戶反饋進行快速迭代。　應優先實現產品最核心、最不可或缺的功能 (做減法)，而非一開始就追求大而全，從而加速進入市場並驗證價值。　即使最初的產品不完美，快速迭代可以不斷提升其穩定度和功能。

Q＆A

Q1：您的公司在與其他行業合作時，如何將領域專家的想法轉換為 AI Agent 的建構要素（如 Chain of Thought）？是他們提供想法，還是您協助發掘？領域專家可能不一定知道如何分解這些想法。　

A1：有些簡單的報告生成類應用（如 go-to-market strategy）相對容易，因為 Chain of Thought 比較好調整和迭代。　然而，像建築或碳盤查這類更複雜的領域，需要投入更多心力去理解使用情境 (Scenario)。　在碳盤查案例中，最大的痛點不是寫報告，而是數據的收集、催繳與整理。　因此，服務的核心變成如何自動化這些收集和整理的流程。　

與領域專家合作時，需要坐下來一起探索使用情境，釐清哪些流程可以用 AI 自動化，哪些還需要人工介入。　目前矽基崛起做得比較多的是工作流程中的環節自動化。　例如，為台新金控開發的法遵機器人。　金融業的審核流程（風控、法遵等）非常繁瑣且耗時。　過去，行銷或產品團隊的文案需要送交法遵部門審核，回覆可能需要一兩週。　雖然 AI 在圖像辨識（如 APP 按鈕設計審核）方面效果還不完美，因此結合人工審核是必要的。　這個法遵機器人讓使用者（員工）的使用情境沒有改變，仍是將文件寄到一個法遵信箱。　但後端已經大幅自動化，AI 會初步審核並標記，最後再由人進行最終確認。　這大幅提升了效率，且不需進行員工教育訓練。　

Q2：針對建築領域，AI 在處理集合與空間關係邏輯方面表現如何？目前的應用多基於 2D 圖像，無法真正理解這種關係。　李飛飛團隊也在研究空間智能，目前是否有比較好的工具或方法讓語言模型處理空間關係？

A2： AI 在這方面確實相對較弱。　目前採用的解法是嘗試將 3D 模型轉換為一串文字描述供語言模型處理。　這就像物理學中用傅立葉轉換將波形在不同基底下展開一樣，需要找到一個合適的「基底」或「座標系」來描述空間關係。　定義這種轉換方式是Domain Knowledge的範疇。　一旦能將 3D 模型轉換為文字描述，就可以大量運用現有的 LLM 架構進行處理。　這時候可以使用 Fine-tuning 或 RAG 的方法。　如果有足夠的數據，可以訓練一個專門處理這種描述的 RAG 模型。　轉換後，再將 LLM 輸出的結果轉回圖形表示，這種方法是比較快速可行的。　

分享一個類似的例子：一個修圖軟體項目中，先用本地模型（如 iPhone 內建的）進行圖像辨識，將圖片中的物件、位置、顏色等轉換為一段文字描述。　再將這段文字描述丟給 LLM 進行解讀和後續處理。　

3D 模型文件本身也是向量數據，理論上也可以直接處理，但可能不是 LLM 最適合的「基底」。　或者可以將建築設計軟體所需的參數提取出來，讓 AI 處理參數後再重新輸入軟體繪製。　這部分不容。　這是一個困難但可能蘊藏機會的大題目。　

Q3：如何建立對 AI 產出的信任並進行驗證，特別是律師等高度重視真實性的行業？AI 可能會產生幻覺（Hallucination）。　

A3：這是過程中一定會遇到的問題。　首先要心態調整，將 AI 視為一個剛畢業的大學生或實習生。　初期需要人工 review。　雖然不完美，但其提供的效果相較於成本已經很好。　逐步提升 AI 產出的品質和可信度，包括，

▪ 設計詳細的 Chain of Thought。　

▪ 引入一個「AI Manager」角色，它的職責是評分或審核另一個 AI Agent 的產出。　可以給它設定評分標準，確保產出符合特定規範（如 ISO、法規）。　設定分數閾值（例如 95分以上）來決定是否通過。　

▪ 使用不同的模型進行交叉驗證。　例如，讓 ChatGPT 生成初稿，用 Claude 進行審核。　

▪ 引用參考資料。　這對於需要真實性的行業（如律師）非常重要。　可以在 AI 產出中引用相關法條、判決、主管機關解釋函等，證明內容有來源依據。　這也是 OpenAI 解決 ChatGPT 幻覺問題的方法之一，在生成內容後附上參考連結。　

▪ 模擬攻擊或對抗。　類似於生成式對抗網絡 (GAN) 的概念。　設計一個 AI 角色來專門尋找 AI 產出（如合約草稿）中的漏洞。　通過不斷的模擬攻擊和修正，提升產出的穩健性。　因為 Token 成本很便宜，可以進行大量迭代的暴力解法，模擬成千上萬次的攻擊來找出並修正問題。

Q4：如何與非技術背景的領域專家有效溝通 AI 專案？他們的想像與實際技術實現可能存在差異？

A4：與需求者或領域專家溝通最好的方式不是談技術，而是聚焦於使用情境 (Scenario) 或故事 (Story)。　請他們詳細描述期望的使用流程、場景或故事。　例如，「你是誰，在什麼情境下，AI 幫你做到什麼事」。　技術實現（System Prompt 設計、Prompt Engineering 等）由開發團隊負責。　

快速打造原型 (Mockup, Demo) 是非常有幫助的方法。　先做出一個可視化的東西，讓大家看著原型討論和修改，這樣比純粹用語言描述更容易聚焦。　

團隊組成通常會採用敏捷式開發 (Scrum) 的 SQ 團隊模式，至少包含工程師、設計師、PM 三種角色。　通過頻繁溝通和原型驗證來協調不同人的想法。　

將大的 Idea 拆解成小而可執行的專案，關鍵在於快速測試效果。　採用「減法思維」，不要一開始就想做得很強、很完整。　找出最核心、非你不可的痛點優先解決。　

有時甚至可以先用人工來模擬 AI 的流程（例如躲在後台人工處理）來快速驗證想法的可行性。　確認可行後再考慮重構和擴展。　

Q5：在景觀領域，如何利用 AI 評估環境的舒適度或心理恢復性？

A5：這是一個很有潛力的領域，目前較少人做。　可以利用 AI 的能力，特別是圖像辨識和 LLM。　將人類用於評估環境舒適度或恢復性的問卷或評分標準，轉化為 AI 的 System Prompt 或訓練一個評分模型。　

Q回應：將景觀領域的恢復性理論量表轉換為 Prompt 的方式，嘗試讓 AI 的辨識結果更接近人類問卷的評分。　掌握評分標準（即「什麼叫最好」）是成功的關鍵。　如果能夠建立精準的評分模型，甚至可以倒過來利用這個評分模型來引導 AI 進行景觀設計。　

Q6：如何利用 AI 處理登山步道損壞的回報並推薦修復工法？

A6：這是一個非常實用的應用。　可以利用圖像辨識模型分析登山者回報的照片，判斷損壞類型。　結合數據庫（或 RAG），根據辨識出的損壞類型，推薦可能的修復工法。　

Q回應：正與步道協會進行合作，利用過往山友回報的帶有照片和損壞標註的數據。　準備利用分割模型或其他模型對圖像進行更細緻的標註，然後再進行分析和應用。　

註一，參見「『產業+』再創新猶　智慧建築獲價創計畫補助」。

● 讀後留言使用指南