🤖 【客座文】 MCP 的發展將取代 AI 工作流平台

🤖 【客座文】 MCP 的發展將取代 AI 工作流平台
Model Context Protocol from Anthropic

作者 : 洪大倫 光明頂創育智庫創辦人,原文發表於臉書

過去幾年,AI自動化的需求暴增,帶動了一波工作流平台的風潮。Make、n8n、Dify 這類工具紅遍半邊天,許多人都靠它們來讓繁瑣的流程變得自動化,但如果你以為工作流平台已經是終極解法,那你可能要準備迎接下一場變革了。MCP(Model Context Protocol)正在悄悄崛起,未來這類架構的發展,很可能讓傳統的工作流平台變成「老時代」的產物。

我不是在唱衰工作流平台,雖然它們的確改變了許多AI的操作方式,讓原本需要人工處理的一大堆步驟變成自動化流程。問題是,這種「線性」的方式終究有它的極限——就像堆積木一樣,每個動作都要按順序來,稍微有一點變化或邏輯不對,整個流程就可能崩掉。

簡單說對許多人而言,串接這些工具與流程,還是非常麻煩的事。你得自己理解邏輯,拉線去串,去個別平台申請帳號,還要設定各種參數,種種區塊的串接並不那麼直覺,總是令人困惑。試想,你如果要解決100種問題,你就得組裝出100個線性的流程,真有可能這會是人類使用AI自動化的未來嗎?我一直都保持高度的質疑。

MCP的架構就完全不同,它以圍繞在一個特定的客戶端軟體為核心,由於它是 Anthropic 開源的協定,所以我就以 Claude 為例。你只要自己串接好各式的服務MCP,Claude 就會自己判斷要啟動哪個伺服器來獲得它需要的資料。

我們很自然可以預期到,這個中心點的 Claude 倘若能自主代理你的目的,自主調用各種伺服器來達成它要的目的,那麼你根本不需要像現在的AI工作流平台那樣,還要自己去建一個又一個的「生產線」,Claude自己就能完成這些任務。

這週最大的AI新聞就是Manus,當我看到這產品出現的時候,就感覺它背後應該是以 Claude 大模型為基礎,這兩天果然被證實是如此。我認為未來 MCP 的發展就應類似這樣,使用者只需要熟悉一個UI介面(ex:除了Claude,也可以是ChatGPT/Gemini/Grok),你從此不再需要學其他SaaS平台怎麼使用,都只需要在同一個介面裡對AI打字講話,剩下的就是交給AI去幫你實現。

MCP就像是軍火,你把各式各樣的軍火武裝在 Claude 上,接著你只需要跟它說:「拿下10公里外的碉堡」,他就會自主判斷手邊有哪些軍火可以達成目標,接著自動幫你完成任務。

MCP現階段的缺點與發展空間

不過,上面文章中並沒有提及 MCP 現階段的缺點,就在於它的穩定性相對低,且自動化程度確實沒有 AI工作流這麼高,這確實是缺點。所謂的穩定性低,James Yang 明確指出「LLM 主導工作流與工具調度,在個人應用場景或許帶來便捷,但在企業決策自動化或產線機台操作中,卻難以確保穩定、一致的結果」。甚至說,即便已經串接好的 MCP,我在使用的過程中還是經常會看到 Claude 客戶端右上角出現報錯,雖然實際上是可以連接,但可見得穩定性的確有些狀況。

就在於它的穩定性相對低,且自動化程度確實沒有 AI工作流這麼高,這確實是缺點。所謂的穩定性低,James Yang 明確指出「LLM 主導工作流與工具調度,在個人應用場景或許帶來便捷,但在企業決策自動化或產線機台操作中,卻難以確保穩定、一致的結果」。甚至說,即便已經串接好的 MCP,我在使用的過程中還是經常會看到 Claude 客戶端右上角出現報錯,雖然實際上是可以連接,但可見得穩定性的確有些狀況。

不過話說回來,MCP 開源還不到半年,整體生態鏈的支撐遠不如 Apple AppStore 有200萬種應用工具,我看幾個 MCP 整合性的平台了不起有個 1000種就很好。所以,無論是基於 LLM 本身的先天技術限制,又或者是 MCP 的發展狀況,我想這都還有很大的優化空間。

現階段AI工作流平台只有在初始的輸入端自動化有優勢,例如你設定的工作流是收到 Email,就會有 LLM 幫你解讀後回信。目前 MCP 邏輯並非如此,它還是以使用者主動發出目的,接著才是讓 AI 去運作。然而就像我所說,這並不是技術上做不到的事,未來MCP架構必然也能讓 Claude 這類的中心化介面能被事件啟動觸發,接著自動化完成任務。

賈伯斯的「易用性」哲學與MCP的未來

然而,我之所以認為 MCP 的應用概念是未來式,是因為這樣的應用場景概念,非常符合賈伯斯強調的「易用性」邏輯。為了幫企業客戶授課,今年初我花了一個多月時間鑽研賈伯斯的創新觀點從何而來,其中最重要的邏輯,就是強調高度的「易用性」。

事實上賈伯斯及艾夫(前蘋果首席工業設計師)的說法叫做「掌控度」,他們認為,一個複雜的產品會帶給人不安全感,只要你能賦予使用者高度掌控性,他們就會覺得心安,會有信任感。那如何做到讓使用者感受到「高度掌控」?關鍵就在於透過提高「易用性」,讓產品操作更簡單、直覺,人們就會情不自禁愛上,因為這符合人類所追求的安全感。

這也是為什麼 Apple 的產品給你一種沈穩、信任的感受,因為他們原始的設計概念就是如此。很多人都以為 Apple 產品的「簡約」是一種風格,事實上遠不止如此,而是賈伯斯與艾夫洞悉了人類追求的天性,讓簡單直覺成為產品的明確DNA,才能引發廣大消費者的喜愛。

MCP就像是AI領域的 AppStore,我相信 Apple 認為的 iPhone 未來,大概也會是這樣的,由 Apple Intelligence 扮演那個中心化的AI軟體,你用打字或用講的,它就自主幫你調動手機內各式各樣的 app 幫你完成任務,這我想應該是很自然能想像得到的應用場景。

從「跨越鴻溝」的創新擴散邏輯而言,Apple 不僅讓市場上「2.5%的創新者」、「13.5%的早期採用者」能喜愛,甚至一開始就透過高度易用性說服了「34%早期大眾」,才讓 Apple 的創新屢屢成為主流。

MCP的實際應用

MCP現在分成兩大類:一種是本地端的自建server概念,另一種則是串接第三方server,由他們再幫你把真正的服務器串接起來。無論是哪一種,我目前嘗試下來,都覺得門檻比AI工作流的建置低很多,尤其串接第三方server的方式,簡直不要太方便。甚至也可以想像得到,未來應該中心化的軟體會內建上千種MCP,你只需要勾選,然後再自行填入不同服務平台的API KEY 或 ID認證,就能快速啟用。

回到 MCP 的議題,我經常試著想像 AI 更為普及化的未來。誠如我在前一篇文章所寫道,如果可以透過 MCP 這樣的架構,極端上可以讓人類從此不再需要學習任何複雜的軟體、SaaS介面的操作,只靠聚焦在單一且熟悉的 LLM 介面打字、動嘴,就能使喚 AI,讓 AI 呼叫各種 MCP 驅動工具服務人類,這將是多美好的世界。

不同用戶群體的需求平衡

當然,易用性與穩定性特別針對的目標客群現階段有些不同,對工廠老闆來說,他可以接受複雜操作,但一定要確保極高度的穩定性,就像早年談論產品「六個標準差」管理邏輯一樣,所以完全可理解從企業角度看的需求是如此;而對普通的個人使用者來說,倒是沒這麼極端的穩定性需求,但一定要夠簡單直覺,才能真正擴及到主流市場使用。

簡言之,從賈伯斯的成功創新經驗來看,我認為判斷一個創新科技產品在主流市場是否有廣大的發展空間,是從「易用性」這個觀點切入。再次強調,「易用性」的簡單直覺不是一種風格,而是一種如地心引力般的力量,任何與易用性抵觸的產品通常活不久、活不好,因為主流市場難以學習,自然就不可能走多遠。

題外話,事實上如果你對於 AI 工具熟悉,其實也是可以透過 AI 幫你撰寫工作流的程式碼,然後匯入 n8n、Dify、Make這些工作流平台,直接建立流程。只是說,相較於只需要熟悉一個聊天介面的 ChatGPT、Claude、Gemini等...概念,串接MCP自動去為使用者完成任務的場景來看,我還是覺得後者應當有更高的易用性就是。

中小企業與普通個人使用者的確有不同需求,放在一起對比並不完全合適,但如果 MCP 這種應用架構能更自動化、更穩定,個人認為必然能取代 AI 工作流平台這種「為一個問題就建一個流程」的方式。畢竟,不夠直覺簡單,應當不會是人類未來世界使用 AI 的主流型態。這個黃金交叉還有多遠?就看今年 AI Agent 爆發年能做得多好,應當就可一窺發展趨勢。

Read more

AI 顯微鏡解密語言模型思維:窺探語言模型「大腦」的運作方式

AI 顯微鏡解密語言模型思維:窺探語言模型「大腦」的運作方式

語言模型(如Claude)的運作方式一直以來都像是一個黑盒子,Anthropic 最新發表的兩篇研究論文揭露他們如何嘗試「打開」這個黑盒子,了解AI系統內部的思考過程。這項研究不只具有科學價值,也能幫助人類確保AI系統的可靠性與安全性。 AI的「思考」是如何形成的? 大型語言模型不像傳統程式那樣由人類直接編寫,而是透過大量數據訓練而成。在這個過程中,模型自行發展出解決問題的策略,這些策略隱藏在模型執行的數十億次計算中。因此,即使是開發者也不完全了解模型如何完成各種任務。 研究人員從神經科學獲得靈感,嘗試建立一種「AI顯微鏡」,用於識別AI中的活動模式和資訊流動。透過這種方法,他們發現了一些令人驚訝的結果: 關鍵發現 1. 跨語言的「思維語言」 Claude能說數十種語言,那麼它「腦中」使用的是什麼語言?研究顯示,當處理不同語言時,Claude會使用共享的概念空間。 例如,當用不同語言詢問「small的反義詞是什麼」時,模型啟動相同的核心特徵來表示「小」和「相反」的概念,然後觸發「大」的概念,最後將結果翻譯成問題使用的語言。

By Fox Hsiao
圖靈測試 75 年來首次被AI成功突破,GPT-4.5如何辦到的 ?

圖靈測試 75 年來首次被AI成功突破,GPT-4.5如何辦到的 ?

圖靈測試由計算機科學先驅艾倫·圖靈於1950年提出,被視為判斷機器是否具有智能的重要方法。測試的核心是一場「模仿遊戲」:一位人類審問者同時與兩位受試者(一位人類和一位機器)進行文字對話,雙方都嘗試說服審問者自己是真正的人類。如果審問者無法可靠地辨別出誰是人類,那麼機器就被認為通過了測試。 75年來,許多系統嘗試挑戰圖靈測試,但都未能成功。直到現在,研究人員發現大型語言模型(LLM)終於突破了這道門檻。 研究方法與突破性發現 研究團隊評估了四種系統:ELIZA(一種1960年代的規則型聊天機器人)、GPT-4o、LLaMa-3.1-405B和GPT-4.5,讓它們與真人一起參與標準的三方圖靈測試。測試參與者有5分鐘時間與系統和真人同時對話,最後判斷哪一方是人類。 研究結果令人驚訝: 1. GPT-4.5:當被提示採用特定人物角色時,它被判斷為人類的比率高達73%,顯著超過了真人被識別的機率(27%)。 2. LLaMa-3.1-405B:同樣提示詞下,被判斷為人類的比率達56%,與真人不相上下。 3. 對照組:未經特殊提示詞的GPT-4o和ELIZA則表現平平,僅有21

By Fox Hsiao
Sam Altman 被 OpenAI 解雇事件背後的真實故事

Sam Altman 被 OpenAI 解雇事件背後的真實故事

秘密、誤導與信任破裂。科技界當紅 CEO 被閃電開除又戲劇性回歸的內幕。 (改編自 Keach Hagey 所著新書《The Optimist: Sam Altman, OpenAI, and the Race to Invent the Future》(《樂觀主義者:Sam Altman、OpenAI 與創造未來的競賽》),本書將由 W.W. Norton 出版社於 2025 年 5 月 20 日出版。版權所有歸作者 Keach Hagey。) 2023 年 11 月中旬,一個溫暖的夜晚,億萬富翁創投家彼得·提爾(Peter Thiel)在洛杉磯藝術區一家名為

By Fox Hsiao
GPUs融化中!從「畫素註解」到「魔法繪師」:ChatGPT-4o圖像技術有多猛?

GPUs融化中!從「畫素註解」到「魔法繪師」:ChatGPT-4o圖像技術有多猛?

社群媒體上瘋傳著各種以ChatGPT-4o生成的吉卜力風格圖像,熱潮之猛烈,甚至讓OpenAI創辦人Sam Altman在3月28日發推特表示:"看到人們喜愛ChatGPT中的圖像功能真是太有趣了,但我們的GPU正在融化。我們將暫時引入一些使用限制,同時努力提高效率。希望不會太久!"——短短幾天,這則推文已獲得700萬次瀏覽,足見此功能的爆炸性影響。這些作品不僅令人驚嘆於其畫風以及角色連續性,更令人好奇其背後的技術突破。 與此同時 OpenAI 釋出了《GPT-4o系統卡的增補:原生圖像生成》技術報告,首次揭開了這款引爆網路的圖像生成技術的神秘面紗。 報告中的關鍵揭露令人驚訝:與之前的DALL·E系列截然不同,4o圖像生成並非獨立的擴散模型,而是深度嵌入GPT-4o架構中的自迴歸模型。這種根本性的架構差異,讓我們得以一窺AI視覺技術數十年來的演變歷程。 從早期需要人工標記每個像素的繁瑣工作,到如今能自動理解並創造精美圖像的全能模型,這一路徑不僅顯示技術的進步,更代表我們理解智能本質的深刻轉變。本文將帶您了解 AI 圖像訓練方法的演進過程,揭示從語義分割到弱監督學習,再到今日生成式

By Fox Hsiao