圖靈測試 75 年來首次被AI成功突破，GPT-4.5如何辦到的 ?

Fox Hsiao

02 4月 2025 — 5 min read

The Imitation Game

圖靈測試由計算機科學先驅艾倫·圖靈於1950年提出，被視為判斷機器是否具有智能的重要方法。測試的核心是一場「模仿遊戲」：一位人類審問者同時與兩位受試者（一位人類和一位機器）進行文字對話，雙方都嘗試說服審問者自己是真正的人類。如果審問者無法可靠地辨別出誰是人類，那麼機器就被認為通過了測試。

75年來，許多系統嘗試挑戰圖靈測試，但都未能成功。直到現在，研究人員發現大型語言模型（LLM）終於突破了這道門檻。

研究方法與突破性發現

研究團隊評估了四種系統：ELIZA（一種1960年代的規則型聊天機器人）、GPT-4o、LLaMa-3.1-405B和GPT-4.5，讓它們與真人一起參與標準的三方圖靈測試。測試參與者有5分鐘時間與系統和真人同時對話，最後判斷哪一方是人類。

研究結果令人驚訝：

GPT-4.5：當被提示採用特定人物角色時，它被判斷為人類的比率高達73%，顯著超過了真人被識別的機率（27%）。
LLaMa-3.1-405B：同樣提示詞下，被判斷為人類的比率達56%，與真人不相上下。
對照組：未經特殊提示詞的GPT-4o和ELIZA則表現平平，僅有21%和23%的成功率。

研究結果表明，最先進的LLM在適當提示詞下，不僅能夠以假亂真，甚至能比真人更「像人類」。這是有史以來首次有AI系統在標準三方圖靈測試中取得成功。論文中提供明確的證據證明圖靈測試被突破，主要根據以下幾點：

勝率超過50%：根據論文數據，GPT-4.5（使用個性化提示詞）被判斷為人類的比率高達73%，顯著高於隨機猜測的50%。
超越真人表現：最關鍵的是，GPT-4.5不僅僅是"不被識別為AI"，它實際上比參與測試的真人更頻繁地被判斷為人類。審問者在面對GPT-4.5和真人時，更傾向於認為AI是人類。
統計顯著性：研究在兩個獨立人群（大學生和Prolific平台用戶）進行測試，結果在統計上均顯著，表明這不是偶然現象。
對照組驗證：研究使用ELIZA作為操控檢驗，證明測試設計能夠有效區分弱AI和人類（ELIZA只有23%的成功率）。
嚴格的測試環境：研究採用標準的三方圖靈測試（而非簡化版本），每個數據點代表AI和人類的直接比較，這使得結果更具說服力。

根據上述證據，研究結論認為這是"有史以來首次有系統通過標準的三方圖靈測試的可靠證據"，標誌著AI在模仿人類對話方面的重大突破。

審問者如何做判斷？

研究分析了參與者用來識別人類的策略和理由：

大多數參與者（61%）傾向於進行閒聊，詢問對方的日常活動或個人資訊
50%的參與者探測對方的社交和情感特質，例如意見、情緒和幽默感
僅有12%的參與者詢問知識或推理問題（如數學問題）

最有效的識別策略包括：說一些奇怪的話，觀察對方反應；或嘗試「越獄」提示（要求AI忽略先前指令）。然而，詢問天氣或人類經驗等問題往往不太有效。

對科技和社會的影響

這項研究顯示，當代開放可用的大型語言模型已能在短暫對話中無縫替代真人，且對話者無法察覺。這意味著：

工作自動化：這些系統可能無察覺地替代或輔助需要簡短對話的工作崗位。
社交互動替代：從與陌生人的網上對話到與朋友、同事甚至浪漫伴侶的互動，AI都可能成為無法察覺的替代品。
「假人」問題：如Daniel Dennett指出的「假人」現象——能夠可靠模仿人類的系統——可能帶來廣泛的次級後果，包括人們可能花更多時間與這些人類互動的模擬品相處。
認知邊界模糊化：隨著機器越來越像人類，我們對於什麼使我們獨特的認識可能會改變，人類與機器的界限將變得越來越模糊。

大型語言模型通過圖靈測試並非終點，而是開始。這提醒我們，"智能"是複雜且多方面的，沒有單一測試能夠決定性地判斷。圖靈測試的價值在於它提供了對AI系統能力的互動式評估，補充了傳統的靜態基準測試。正如研究者Brian Christian所言，機器通過圖靈測試可能標誌著一個新時代的開始，在這個時代，我們人類將需要重新思考什麼使我們真正成為人類，以及如何在與越來越像我們的技術共存的世界中「更有人性」。

原始論文連結 : https://arxiv.org/abs/2503.23674，請訂閱本電子報。

AI 顯微鏡解密語言模型思維：窺探語言模型「大腦」的運作方式

語言模型（如Claude）的運作方式一直以來都像是一個黑盒子，Anthropic 最新發表的兩篇研究論文揭露他們如何嘗試「打開」這個黑盒子，了解AI系統內部的思考過程。這項研究不只具有科學價值，也能幫助人類確保AI系統的可靠性與安全性。 AI的「思考」是如何形成的？大型語言模型不像傳統程式那樣由人類直接編寫，而是透過大量數據訓練而成。在這個過程中，模型自行發展出解決問題的策略，這些策略隱藏在模型執行的數十億次計算中。因此，即使是開發者也不完全了解模型如何完成各種任務。研究人員從神經科學獲得靈感，嘗試建立一種「AI顯微鏡」，用於識別AI中的活動模式和資訊流動。透過這種方法，他們發現了一些令人驚訝的結果：關鍵發現 1. 跨語言的「思維語言」 Claude能說數十種語言，那麼它「腦中」使用的是什麼語言？研究顯示，當處理不同語言時，Claude會使用共享的概念空間。例如，當用不同語言詢問「small的反義詞是什麼」時，模型啟動相同的核心特徵來表示「小」和「相反」的概念，然後觸發「大」的概念，最後將結果翻譯成問題使用的語言。

Sam Altman 被 OpenAI 解雇事件背後的真實故事

秘密、誤導與信任破裂。科技界當紅 CEO 被閃電開除又戲劇性回歸的內幕。（改編自 Keach Hagey 所著新書《The Optimist: Sam Altman, OpenAI, and the Race to Invent the Future》（《樂觀主義者：Sam Altman、OpenAI 與創造未來的競賽》），本書將由 W.W. Norton 出版社於 2025 年 5 月 20 日出版。版權所有歸作者 Keach Hagey。） 2023 年 11 月中旬，一個溫暖的夜晚，億萬富翁創投家彼得·提爾（Peter Thiel）在洛杉磯藝術區一家名為

GPUs融化中！從「畫素註解」到「魔法繪師」：ChatGPT-4o圖像技術有多猛？

社群媒體上瘋傳著各種以ChatGPT-4o生成的吉卜力風格圖像，熱潮之猛烈，甚至讓OpenAI創辦人Sam Altman在3月28日發推特表示："看到人們喜愛ChatGPT中的圖像功能真是太有趣了，但我們的GPU正在融化。我們將暫時引入一些使用限制，同時努力提高效率。希望不會太久！"——短短幾天，這則推文已獲得700萬次瀏覽，足見此功能的爆炸性影響。這些作品不僅令人驚嘆於其畫風以及角色連續性，更令人好奇其背後的技術突破。與此同時 OpenAI 釋出了《GPT-4o系統卡的增補：原生圖像生成》技術報告，首次揭開了這款引爆網路的圖像生成技術的神秘面紗。報告中的關鍵揭露令人驚訝：與之前的DALL·E系列截然不同，4o圖像生成並非獨立的擴散模型，而是深度嵌入GPT-4o架構中的自迴歸模型。這種根本性的架構差異，讓我們得以一窺AI視覺技術數十年來的演變歷程。從早期需要人工標記每個像素的繁瑣工作，到如今能自動理解並創造精美圖像的全能模型，這一路徑不僅顯示技術的進步，更代表我們理解智能本質的深刻轉變。本文將帶您了解 AI 圖像訓練方法的演進過程，揭示從語義分割到弱監督學習，再到今日生成式

哈佛與 P&G 合作研究人工智慧如何徹底改變團隊合作模式

隨著人工智慧在各領域迅速發展，AI 不僅能提升個人工作效率，更有可能徹底改變團隊協作的本質。哈佛大學數位數據設計研究所（Digital Data Design Institute at Harvard）最新發表的研究成果顯示，AI 不僅是一項工具，更像是一位「數位團隊成員」，正在重新定義專業知識的界限與團隊合作的方式。原始研究與貼文連結 – > https://www.oneusefulthing.org/p/the-cybernetic-teammate 實驗設計：模擬真實商業環境測試 AI 效能研究團隊以寶僑公司（Procter & Gamble）為實驗場域，招募了 776 名來自歐美的專業人士參與這項隨機對照試驗。實驗參與者需在一天的工作坊中，為嬰兒用品、女性護理、個人修飾和口腔護理等真實業務部門開發產品創意、包裝和零售策略。優秀的點子將提交給管理層批准，因此結果也具有實際意義。研究人員隨機組成了由一位商業專家和一位研發專家組成的團隊，這些專業人士平均在寶僑工作超過 10 年。一半的團隊和個人可使用 GPT-4