AI lab 的
內部一覽

我們的 AI 基礎設施內部一覽。專案、實驗、每天都在跑的系統。

受眾：工程師、研究者、好奇的玩家 — 任何想知道真實 AI lab 如何運作的人。

● 6 個 Agent Profile ● 本地 LLM + API ● 12 個容器 ● 全在 production 運行

混合基礎設施 — 本地 LLM + API

我們運行兩層模型架構。簡單重複的任務交給本地 Ollama 實例（qwen3:8b）。複雜推理、程式生成和設計工作則交給 API 模型（Claude、DeepSeek）。每個 agent 為任務選擇最適合的模型。

為什麼混合？本地推理對大量低複雜度工作來說成本接近零。API 呼叫則在需要時提供進階能力。Coder profile 透過 API 與 Claude Code 對話來處理開發工作。例行分類、摘要和資料擷取則在本地運行 — 兼顧 token 效率與品質。

核心想法： 為任務配對適合的模型，而不是反過來。

雙層架構：本地 Ollama ↔ Router ↔ API 雲端

範例： 我們的 Financer agent 每天用本地推理掃描市場，只有在需要深入分析報告時才呼叫 API。

Hermes 多 Agent 系統

基於 Hermes Agent，我們的系統有 6 個 profile — 每個都有自己的身份、技能組合和決策權。Manager Agent 將收到的請求路由給對應的專家：開發交給 Coder、視覺交給 Designer、文件交給 Writer、市場資料交給 Financer、知識管理交給 Wiki。

每個 profile 帶有一份 SOUL.md — 它的個性檔案 — 定義了語言規則、可用技能、限制條件和時區。Agent 根據任務自行決定要載入哪些技能。Manager 不微管理。它只拆任務、分配、合併結果。

6 profile 環繞 Manager — 放射狀任務路由

範例： 一個「寫一份 EAP-TLS 認證技術比較」的請求，Manager 拆解後 → Writer 研究並撰寫草稿 → Designer 繪製圖表 → Coder 組裝最終產出。看結果：EAP-TLS 影片簡報

本地 LLM Wiki（Karpathy 模式）

我們維護一個三層知識庫，靈感來自 Andrej Karpathy 的 LLM Wiki 概念。

raw/     ← 不可變的原始資料（對話紀錄、匯入內容、筆記）
wiki/    ← 經過編譯、互相連結的知識頁面（可查詢、可交叉引用）
schemas/ ← 規則與操作指南

專屬的 Wiki Agent 監控變更、將新內容編譯進 wiki，並維護頁面之間的 [[wikilinks]]。與傳統 RAG（查詢時才檢索扁平區塊）不同，我們的 wiki 在攝入階段就預先編譯知識。這帶來更快的檢索速度、更好的交叉引用，以及每次查詢時大幅降低的 token 用量。

結果：跨 session 的持久記憶。數週前的對話內容能為今天的回應提供上下文，無需重新攝入同樣的資料。

三層金字塔 — ingest → compile → query

延伸閱讀： Agent Skills vs MCP vs RAG — 我們的比較

通訊渠道 — WhatsApp、Telegram、Slack、語音

我們認為 AI 應該在人們已經在用的地方出現。系統支援：

WhatsApp Bridge — Node.js（Baileys 函式庫），基於 session，自動重連
Telegram Bot — 輕量、快速、可靠
Slack — 透過 MCP server 整合
語音 — F5-TTS 輸出語音、Whisper.cpp 語音轉文字

這不是要打造另一個聊天 UI。而是為了讓人們在每天使用的工具中就能與 AI 協作。在路上傳一段語音備忘錄，收到一份文字報告。在 Slack 問一個問題，得到附引用來源的回答。

四個渠道 → 中央 agent hub

延伸閱讀： WhatsApp 語音影片 — 語音渠道的完整運作方式

自訂技能 — 每個 Agent 有自己的工具箱

每個 profile 都配有精選的技能組合。不是一個龐大的單體系統，而是模組化、可互換的能力：

Profile	技能範例
Coder	Python/JS/TS 工具鏈、Playwright、Docker、git
Designer	GPT Image 2 生成、網頁設計、影片簡報
Writer	技術文件、部落格寫作、文案編輯
Financer	股票分析、Alpha Vantage API、市場報告
Wiki	知識編譯、連結管理、健康檢查
Manager	任務拆解、委派、結果合併

針對重複性任務，我們寫 script — 而不是 agent prompt。Script 以極少的 token 開銷執行。不佔用 LLM 記憶體，不汙染 KV cache。純粹執行。這是我們 token 效率的核心方法：不需要推理的事情，就不要浪費 context。

profile ← 環繞的可互換技能模組

範例： 一個自訂投資報告技能，不需載入完整 agent 就能每日產生投資摘要。

Claude Code 整合 + 自動化堆疊

我們透過 CLI 整合 Claude Code，並共用一份 CLAUDE.md — 它在所有工具間強制執行我們的語言規則、安全協議和技能定義。這表示 Coder 可以在 Hermes agent 模式和 Claude Code CLI 模式之間自由切換 — 同樣的規則、同樣的限制。

我們的自動化層運行在：

n8n — 10 個 active workflows，負責監控、警示和資料管線
Docker — 7 組 compose stacks 管理 12 個容器
Cloudflare Tunnel — 將 wwailab.com 暴露給外部 webhook
Cron — 6 個排程處理例行任務

Claude Code ↔ n8n ↔ Docker ↔ Cloudflare Tunnel

實例： 我們的市場監控管線會掃描 OzBargain 和 Stereonet 上的特定優惠模式，透過 n8n 觸發警示，再推送到 Telegram — 完全不需要人為介入。

自動化 Agent 團隊工作流程

這是多 agent 系統真正展現價值的地方。一個高階請求就能觸發跨越多個 profile 的協同工作流程。

真實案例：產生一份技術白皮書。

循序工作流程 — 產出物逐步傳遞

Manager 接收請求 → 拆解為研究、寫作、繪圖、發布
Writer 研究主題（例如 EAP-TLS 認證）→ 產出結構化 markdown
Designer 建立架構圖和流程圖
Coder 組裝最終產出 — 網站、PDF 或影片簡報
Wiki Agent 歸檔此 session，並在知識庫中建立交叉連結

Manager 在每個階段追蹤依賴關係並合併結果。初始請求送出後，不需要人在流程中介入。

實際展示： EAP-TLS 影片簡報 · Agent Skills vs MCP vs RAG 比較 · WhatsApp 語音影片

BAU — 日常運維

一個 24/7 運作的 lab 需要自己照顧自己。我們的運維層負責：

健康檢查 — 每 15 分鐘：Docker daemon 狀態、WhatsApp bridge 連線、磁碟空間、cron job 活性
備份 — 每日自動：核心設定（3 版滾動）、大型檔案（2 版滾動）、同步至 Google Drive（總計約 2.4 GB）
災難復原 — 每個元件都有詳盡的復原程序文件（見 system-migration-guide）
監控 — docker-watchdog cron job 自動重啟失敗的容器

運維儀表板 — 綠/紅狀態 + 健康檢查時間軸

自我修復不是一個功能。當你運行這麼多移動元件時，這是必要條件。系統不會等到有人發現它掛了才動作。

參考資料： 系統遷移指南 — 完整的災難復原手冊。