Interviews 訪談記錄

如何打造一個AI Agent ─ AI Agent研發案例分享會

六月 1 , 2025  

演講者:廖玄同

時間:2025年5月14日 16:00-17:00

地點:DDS THU AI中心

整理:NotebookLM、ChatGPT、張運宗

 

【編按】AI計畫推動的「建築資訊生成系統開發計畫」獲「價創2.0」註一後,正進入籌備高峰階段,邱浩修為使團隊了解AI Agent,特邀BotsUP「矽基崛起」創辦人廖玄同 (Vincent)於AI中心分享經驗。 廖玄同,台大物理碩士,2024 AI+新銳選拔賽優勝,曾共同創辦「水滴信用」(2020-2023),出版AI掃描發票自動對獎的「水滴發票」APP,超過百萬用戶,於2011年獲App Store評選為「最佳APP」。 

本刊曾分享什麼是「AI Agent」,本篇則藉案例分享如何打造AI Agent的入門方向。

 

AI的時代

 

  廖玄同的開場引用狄更斯(Charles Dickens)《雙城記》(A Tale of Two Cities)的開頭:「這是最美好的時代,這也是最糟糕的時代」。 

 

  • 最好的時代:身處 AI 領域,最有機會感受到時代的美好。 例如,

。   一家AI新創公司Windsurf 推出AI 寫程式工具,「他在對的時間點很快速的推出產品、打入市場、累積客戶」,僅僅半年就被OpenAI以 30 億美元收購。 

  • 最糟糕的時代:如果沒有學會運用或打造這些 AI 工具,可能會被這些工具取代。 Windsurf 為什麼有價值?是因為它以讓工程師能夠「以一擋十」。 
  • 分享目標:如何打造一個 AI Agent 或 AI Tool,以及如何在短時間內推出,希望能打造出下一個被高價收購的項目。 
  • 如何打造AI Agent?

 

  1. 結構 (Structure):了解常用的框架和工具。 
  2. 方法 (Methodology):通常使用什麼樣的方法來做。 
  3. 原則 (Principles):要掌握哪些原則。 

 

 

結構:從模型到多Agent架構的組合力

 

  廖玄同將「AI Agent的誕生」拆解為四個結構模組:Model、Chain of Thought(CoT)、Function Calling、Multi-Agent。 每個模組之間的連結,不只是技術串接,更是一種思維轉向。 

 

  1. Models (LLM):AI Agent 的核心是大型語言模型 (LLM)。 自 Google 的 Transformer 模型問世以來,LLM 能力快速提升,尤其在 ChatGPT 3.5 時達到高峰。 LLM 的基礎結構是基於大量數據訓練,基本上,輸入問題,就能預測下一句要說什麼。 這一預測能力若結合任務目標、情境限制,就能轉化為任務執行者。 
  2. CoT (Chain of Thought):「你不是在問AI一個問題,而是要教它『這種問題應該怎麼想』。 」這不像模型過去的直覺式反應,而是讓模型擁有一個思考框架。 類似於人類在重要場合組織思路,AI 會先思考目標、思考框架(如 SWOT 分析),然後逐步分析並綜合出答案。 不同領域和問題需要不同的思考框架,這使得 Domain Knowledge (領域知識) 變得非常重要,也為新創帶來機會,特別是結合在地化知識(如台灣建築法規)的應用。 CoT 實際上是將複雜任務拆解成多個步驟,每個步驟都通過特定的 Prompt 進行思考和執行,這樣的CoT能大幅提升輸出準確度與邏輯性。 
  3. Function Calling:這是讓 AI Agent 能夠執行外部動作的關鍵。 透過 Function Calling,AI 不僅限於文字處理,還可以調用 API 或函數來執行任務,例如搜尋網路 (Deep Search)、繪圖、圖像辨識 (OCR)、語音生成等。 Deep Search 應用即是透過動態產生思考鏈,包含搜尋、交叉比對、總結等多個步驟,並在特定步驟使用 Function Calling 執行搜尋動作。 這使得 AI Agent 能夠與外部世界互動並獲取即時或特定資訊。 
  4. Multi-Agent:更複雜的 AI 工具可以設計成多個 AI Agent 協同工作。 在爭取 Media Tek 的案例中,不同的 AI 扮演不同的角色,擁有不同的權責,並來回協作完成報告;可以設定一個 AI 擔任「主管」角色,負責根據預設標準審核其他 AI Agent 產生的內容,提升結果的可靠性。 這能讓 AI 系統更接近複雜的工作流程。 

 

方法:從n8n原型到部署應用的實作流程

 

  1. n8n 快速打造 prototype:n8n (或類似工具如 Make) 是用於快速建構 AI 工具原型 (prototype) 的高效工具。 它採用視覺化節點連接的方式,使用者可以快速串聯不同的服務(如 Gmail、AI模型、Slack 等)和 AI 功能(如分類、標籤),實現自動化流程。 例如,可以構建一個自動分類郵件的 AI 助理。 n8n 的優勢在於開發速度快,能在短時間內(如10天或更短)做出可展示的 Demo,驗證想法的可行性。 然而,n8n 不適合用於需要高度穩定性、可擴展性和速度的正式上線產品。 
  2. 用成熟 Framework 開發穩定服務:當原型被驗證可行並需要正式部署時,需要從原型階段過渡到使用更成熟的框架重新建構系統。 這個階段的重點是提升系統的可靠性與安全性。 企業客戶尤其重視這些方面。 開發一個穩定的生產級 AI Agent 需要投入更多時間(例如,Media Tek 案例從原型到產品耗時7個月),因為需要處理邊界情況、錯誤處理、以及確保數據安全和隱私。 

 

 

原則:讓AI真正「工作」的四大關鍵

 

  1. 明確的垂直場景定位:與大型模型公司競爭的關鍵在於選擇一個特定的垂直領域 (Vertical Field)。 在這個領域中,深度整合 Domain Knowledge (領域知識) 是打造差異化產品的核心。 例如,針對法規要求特定的報告格式或流程,或結合建築設計、景觀心理學等專業知識。 這讓產品不僅是通用的 AI 工具,而是能解決特定行業痛點的專業方案. YC (Y Combinator) 也鼓勵開發結合領域知識的全端 AI 應用。 
  2. 高度整合的用戶體驗:AI Agent 應被整合到使用者現有的工作流程中,提供無縫的使用體驗。 好的 AI Agent 應該讓使用者無需經常手動複製貼上或在不同工具間切換。 例如,將 AI 報告生成工具嵌入 Google Docs,或將發票處理自動化整合到 Slack 通知。 理想的狀態是使用者甚至無需感知背後使用了 AI,流程的效率卻大幅提升。 
  3. 可靠性與安全考量:對於企業級應用而言,AI Agent 的可靠性和安全性至關重要。 儘管原型可以快速搭建,但確保輸出的正確性(尤其是在涉及法律條文、會計審核等嚴謹領域)和數據的安全處理需要嚴格的測試和迭代。 可以透過設計 Chain of Thought 包含審核步驟,甚至利用多個 AI Agent 進行交叉驗證來提升可靠性。 例如,模擬多位律師攻擊生成的法律文件以找出漏洞。 
  4. 快! (Speed!) 敏捷開發快速迭代:在快速變化的 AI 時代,「快」是生存與成功的關鍵;「不要想,先做再說」,快速測試想法、快速打造原型,基於用戶反饋進行快速迭代。 應優先實現產品最核心、最不可或缺的功能 (做減法),而非一開始就追求大而全,從而加速進入市場並驗證價值。 即使最初的產品不完美,快速迭代可以不斷提升其穩定度和功能。 

 

 

Q&A

 

Q1:您的公司在與其他行業合作時,如何將領域專家的想法轉換為 AI Agent 的建構要素(如 Chain of Thought)?是他們提供想法,還是您協助發掘?領域專家可能不一定知道如何分解這些想法。 

A1: 有些簡單的報告生成類應用(如 go-to-market strategy)相對容易,因為 Chain of Thought 比較好調整和迭代。 然而,像建築或碳盤查這類更複雜的領域,需要投入更多心力去理解使用情境 (Scenario)。 在碳盤查案例中,最大的痛點不是寫報告,而是數據的收集、催繳與整理。 因此,服務的核心變成如何自動化這些收集和整理的流程。 

與領域專家合作時,需要坐下來一起探索使用情境,釐清哪些流程可以用 AI 自動化,哪些還需要人工介入。 目前矽基崛起做得比較多的是工作流程中的環節自動化。 例如,為台新金控開發的法遵機器人。 金融業的審核流程(風控、法遵等)非常繁瑣且耗時。 過去,行銷或產品團隊的文案需要送交法遵部門審核,回覆可能需要一兩週。 雖然 AI 在圖像辨識(如 APP 按鈕設計審核)方面效果還不完美,因此結合人工審核是必要的。 這個法遵機器人讓使用者(員工)的使用情境沒有改變,仍是將文件寄到一個法遵信箱。 但後端已經大幅自動化,AI 會初步審核並標記,最後再由人進行最終確認。 這大幅提升了效率,且不需進行員工教育訓練。 

 

Q2: 針對建築領域,AI 在處理集合與空間關係邏輯方面表現如何?目前的應用多基於 2D 圖像,無法真正理解這種關係。 李飛飛團隊也在研究空間智能,目前是否有比較好的工具或方法讓語言模型處理空間關係?

A2: AI 在這方面確實相對較弱。 目前採用的解法是嘗試將 3D 模型轉換為一串文字描述供語言模型處理。 這就像物理學中用傅立葉轉換將波形在不同基底下展開一樣,需要找到一個合適的「基底」或「座標系」來描述空間關係。 定義這種轉換方式是Domain Knowledge的範疇。 一旦能將 3D 模型轉換為文字描述,就可以大量運用現有的 LLM 架構進行處理。 這時候可以使用 Fine-tuning 或 RAG 的方法。 如果有足夠的數據,可以訓練一個專門處理這種描述的 RAG 模型。 轉換後,再將 LLM 輸出的結果轉回圖形表示,這種方法是比較快速可行的。 

分享一個類似的例子:一個修圖軟體項目中,先用本地模型(如 iPhone 內建的)進行圖像辨識,將圖片中的物件、位置、顏色等轉換為一段文字描述。 再將這段文字描述丟給 LLM 進行解讀和後續處理。 

3D 模型文件本身也是向量數據,理論上也可以直接處理,但可能不是 LLM 最適合的「基底」。 或者可以將建築設計軟體所需的參數提取出來,讓 AI 處理參數後再重新輸入軟體繪製。 這部分不容。 這是一個困難但可能蘊藏機會的大題目。 

 

Q3: 如何建立對 AI 產出的信任並進行驗證,特別是律師等高度重視真實性的行業?AI 可能會產生幻覺(Hallucination)。 

A3: 這是過程中一定會遇到的問題。 首先要心態調整,將 AI 視為一個剛畢業的大學生或實習生。 初期需要人工 review。 雖然不完美,但其提供的效果相較於成本已經很好。 逐步提升 AI 產出的品質和可信度,包括,

▪ 設計詳細的 Chain of Thought。 

▪ 引入一個「AI Manager」角色,它的職責是評分或審核另一個 AI Agent 的產出。 可以給它設定評分標準,確保產出符合特定規範(如 ISO、法規)。 設定分數閾值(例如 95分以上)來決定是否通過。 

▪ 使用不同的模型進行交叉驗證。 例如,讓 ChatGPT 生成初稿,用 Claude 進行審核。 

▪ 引用參考資料。 這對於需要真實性的行業(如律師)非常重要。 可以在 AI 產出中引用相關法條、判決、主管機關解釋函等,證明內容有來源依據。 這也是 OpenAI 解決 ChatGPT 幻覺問題的方法之一,在生成內容後附上參考連結。 

▪ 模擬攻擊或對抗。 類似於生成式對抗網絡 (GAN) 的概念。 設計一個 AI 角色來專門尋找 AI 產出(如合約草稿)中的漏洞。 通過不斷的模擬攻擊和修正,提升產出的穩健性。 因為 Token 成本很便宜,可以進行大量迭代的暴力解法,模擬成千上萬次的攻擊來找出並修正問題。

 

Q4:如何與非技術背景的領域專家有效溝通 AI 專案?他們的想像與實際技術實現可能存在差異?

A4:與需求者或領域專家溝通最好的方式不是談技術,而是聚焦於使用情境 (Scenario) 或故事 (Story)。 請他們詳細描述期望的使用流程、場景或故事。 例如,「你是誰,在什麼情境下,AI 幫你做到什麼事」。 技術實現(System Prompt 設計、Prompt Engineering 等)由開發團隊負責。 

快速打造原型 (Mockup, Demo) 是非常有幫助的方法。 先做出一個可視化的東西,讓大家看著原型討論和修改,這樣比純粹用語言描述更容易聚焦。 

團隊組成通常會採用敏捷式開發 (Scrum) 的 SQ 團隊模式,至少包含工程師、設計師、PM 三種角色。 通過頻繁溝通和原型驗證來協調不同人的想法。 

將大的 Idea 拆解成小而可執行的專案,關鍵在於快速測試效果。 採用「減法思維」,不要一開始就想做得很強、很完整。 找出最核心、非你不可的痛點優先解決。 

有時甚至可以先用人工來模擬 AI 的流程(例如躲在後台人工處理)來快速驗證想法的可行性。 確認可行後再考慮重構和擴展。 

 

Q5: 在景觀領域,如何利用 AI 評估環境的舒適度或心理恢復性?

A5: 這是一個很有潛力的領域,目前較少人做。 可以利用 AI 的能力,特別是圖像辨識和 LLM。 將人類用於評估環境舒適度或恢復性的問卷或評分標準,轉化為 AI 的 System Prompt 或訓練一個評分模型。 

 

Q回應:將景觀領域的恢復性理論量表轉換為 Prompt 的方式,嘗試讓 AI 的辨識結果更接近人類問卷的評分。 掌握評分標準(即「什麼叫最好」)是成功的關鍵。 如果能夠建立精準的評分模型,甚至可以倒過來利用這個評分模型來引導 AI 進行景觀設計。 

 

Q6: 如何利用 AI 處理登山步道損壞的回報並推薦修復工法?

A6: 這是一個非常實用的應用。 可以利用圖像辨識模型分析登山者回報的照片,判斷損壞類型。 結合數據庫(或 RAG),根據辨識出的損壞類型,推薦可能的修復工法。 

 

Q回應:正與步道協會進行合作,利用過往山友回報的帶有照片和損壞標註的數據。 準備利用分割模型或其他模型對圖像進行更細緻的標註,然後再進行分析和應用。 

 

 

註一,參見「『產業+』再創新猶 智慧建築獲價創計畫補助」。