演講者:廖玄同
時間:2025年5月14日 16:00-17:00
地點:DDS THU AI中心
整理:NotebookLM、ChatGPT、張運宗
【編按】AI計畫推動的「建築資訊生成系統開發計畫」獲「價創2.0」註一後,正進入籌備高峰階段,邱浩修為使團隊了解AI Agent,特邀BotsUP「矽基崛起」創辦人廖玄同 (Vincent)於AI中心分享經驗。 廖玄同,台大物理碩士,2024 AI+新銳選拔賽優勝,曾共同創辦「水滴信用」(2020-2023),出版AI掃描發票自動對獎的「水滴發票」APP,超過百萬用戶,於2011年獲App Store評選為「最佳APP」。
本刊曾分享什麼是「AI Agent」,本篇則藉案例分享如何打造AI Agent的入門方向。
廖玄同的開場引用狄更斯(Charles Dickens)《雙城記》(A Tale of Two Cities)的開頭:「這是最美好的時代,這也是最糟糕的時代」。
。 一家AI新創公司Windsurf 推出AI 寫程式工具,「他在對的時間點很快速的推出產品、打入市場、累積客戶」,僅僅半年就被OpenAI以 30 億美元收購。
廖玄同將「AI Agent的誕生」拆解為四個結構模組:Model、Chain of Thought(CoT)、Function Calling、Multi-Agent。 每個模組之間的連結,不只是技術串接,更是一種思維轉向。
Q1:您的公司在與其他行業合作時,如何將領域專家的想法轉換為 AI Agent 的建構要素(如 Chain of Thought)?是他們提供想法,還是您協助發掘?領域專家可能不一定知道如何分解這些想法。
A1: 有些簡單的報告生成類應用(如 go-to-market strategy)相對容易,因為 Chain of Thought 比較好調整和迭代。 然而,像建築或碳盤查這類更複雜的領域,需要投入更多心力去理解使用情境 (Scenario)。 在碳盤查案例中,最大的痛點不是寫報告,而是數據的收集、催繳與整理。 因此,服務的核心變成如何自動化這些收集和整理的流程。
與領域專家合作時,需要坐下來一起探索使用情境,釐清哪些流程可以用 AI 自動化,哪些還需要人工介入。 目前矽基崛起做得比較多的是工作流程中的環節自動化。 例如,為台新金控開發的法遵機器人。 金融業的審核流程(風控、法遵等)非常繁瑣且耗時。 過去,行銷或產品團隊的文案需要送交法遵部門審核,回覆可能需要一兩週。 雖然 AI 在圖像辨識(如 APP 按鈕設計審核)方面效果還不完美,因此結合人工審核是必要的。 這個法遵機器人讓使用者(員工)的使用情境沒有改變,仍是將文件寄到一個法遵信箱。 但後端已經大幅自動化,AI 會初步審核並標記,最後再由人進行最終確認。 這大幅提升了效率,且不需進行員工教育訓練。
Q2: 針對建築領域,AI 在處理集合與空間關係邏輯方面表現如何?目前的應用多基於 2D 圖像,無法真正理解這種關係。 李飛飛團隊也在研究空間智能,目前是否有比較好的工具或方法讓語言模型處理空間關係?
A2: AI 在這方面確實相對較弱。 目前採用的解法是嘗試將 3D 模型轉換為一串文字描述供語言模型處理。 這就像物理學中用傅立葉轉換將波形在不同基底下展開一樣,需要找到一個合適的「基底」或「座標系」來描述空間關係。 定義這種轉換方式是Domain Knowledge的範疇。 一旦能將 3D 模型轉換為文字描述,就可以大量運用現有的 LLM 架構進行處理。 這時候可以使用 Fine-tuning 或 RAG 的方法。 如果有足夠的數據,可以訓練一個專門處理這種描述的 RAG 模型。 轉換後,再將 LLM 輸出的結果轉回圖形表示,這種方法是比較快速可行的。
分享一個類似的例子:一個修圖軟體項目中,先用本地模型(如 iPhone 內建的)進行圖像辨識,將圖片中的物件、位置、顏色等轉換為一段文字描述。 再將這段文字描述丟給 LLM 進行解讀和後續處理。
3D 模型文件本身也是向量數據,理論上也可以直接處理,但可能不是 LLM 最適合的「基底」。 或者可以將建築設計軟體所需的參數提取出來,讓 AI 處理參數後再重新輸入軟體繪製。 這部分不容。 這是一個困難但可能蘊藏機會的大題目。
Q3: 如何建立對 AI 產出的信任並進行驗證,特別是律師等高度重視真實性的行業?AI 可能會產生幻覺(Hallucination)。
A3: 這是過程中一定會遇到的問題。 首先要心態調整,將 AI 視為一個剛畢業的大學生或實習生。 初期需要人工 review。 雖然不完美,但其提供的效果相較於成本已經很好。 逐步提升 AI 產出的品質和可信度,包括,
▪ 設計詳細的 Chain of Thought。
▪ 引入一個「AI Manager」角色,它的職責是評分或審核另一個 AI Agent 的產出。 可以給它設定評分標準,確保產出符合特定規範(如 ISO、法規)。 設定分數閾值(例如 95分以上)來決定是否通過。
▪ 使用不同的模型進行交叉驗證。 例如,讓 ChatGPT 生成初稿,用 Claude 進行審核。
▪ 引用參考資料。 這對於需要真實性的行業(如律師)非常重要。 可以在 AI 產出中引用相關法條、判決、主管機關解釋函等,證明內容有來源依據。 這也是 OpenAI 解決 ChatGPT 幻覺問題的方法之一,在生成內容後附上參考連結。
▪ 模擬攻擊或對抗。 類似於生成式對抗網絡 (GAN) 的概念。 設計一個 AI 角色來專門尋找 AI 產出(如合約草稿)中的漏洞。 通過不斷的模擬攻擊和修正,提升產出的穩健性。 因為 Token 成本很便宜,可以進行大量迭代的暴力解法,模擬成千上萬次的攻擊來找出並修正問題。
Q4:如何與非技術背景的領域專家有效溝通 AI 專案?他們的想像與實際技術實現可能存在差異?
A4:與需求者或領域專家溝通最好的方式不是談技術,而是聚焦於使用情境 (Scenario) 或故事 (Story)。 請他們詳細描述期望的使用流程、場景或故事。 例如,「你是誰,在什麼情境下,AI 幫你做到什麼事」。 技術實現(System Prompt 設計、Prompt Engineering 等)由開發團隊負責。
快速打造原型 (Mockup, Demo) 是非常有幫助的方法。 先做出一個可視化的東西,讓大家看著原型討論和修改,這樣比純粹用語言描述更容易聚焦。
團隊組成通常會採用敏捷式開發 (Scrum) 的 SQ 團隊模式,至少包含工程師、設計師、PM 三種角色。 通過頻繁溝通和原型驗證來協調不同人的想法。
將大的 Idea 拆解成小而可執行的專案,關鍵在於快速測試效果。 採用「減法思維」,不要一開始就想做得很強、很完整。 找出最核心、非你不可的痛點優先解決。
有時甚至可以先用人工來模擬 AI 的流程(例如躲在後台人工處理)來快速驗證想法的可行性。 確認可行後再考慮重構和擴展。
Q5: 在景觀領域,如何利用 AI 評估環境的舒適度或心理恢復性?
A5: 這是一個很有潛力的領域,目前較少人做。 可以利用 AI 的能力,特別是圖像辨識和 LLM。 將人類用於評估環境舒適度或恢復性的問卷或評分標準,轉化為 AI 的 System Prompt 或訓練一個評分模型。
Q回應:將景觀領域的恢復性理論量表轉換為 Prompt 的方式,嘗試讓 AI 的辨識結果更接近人類問卷的評分。 掌握評分標準(即「什麼叫最好」)是成功的關鍵。 如果能夠建立精準的評分模型,甚至可以倒過來利用這個評分模型來引導 AI 進行景觀設計。
Q6: 如何利用 AI 處理登山步道損壞的回報並推薦修復工法?
A6: 這是一個非常實用的應用。 可以利用圖像辨識模型分析登山者回報的照片,判斷損壞類型。 結合數據庫(或 RAG),根據辨識出的損壞類型,推薦可能的修復工法。
Q回應:正與步道協會進行合作,利用過往山友回報的帶有照片和損壞標註的數據。 準備利用分割模型或其他模型對圖像進行更細緻的標註,然後再進行分析和應用。
註一,參見「『產業+』再創新猶 智慧建築獲價創計畫補助」。
● 讀後留言使用指南
近期迴響