Anthropic CEO:DeepSeek 更加證明晶片出口管制重要,我們要避免專制國家取得軍事地位領先

Dario Amodei at TechCrunch Disrupt 2023, TechCrunch - https://www.flickr.com/photos/techcrunch/53202070940/
  • 雖然 Twitter 上的簡體中文使用者對於這篇文章反應大致負面,但持平來說我認為他對於中共的態度與其他大部分的科技巨頭與領導人一致。
  • 他對於 DeepSeek 的進展看法,大約也與 Open AI 陳信翰(Mark Chen)類似,"我認為一個公平的說法是「深度探索以低得多的成本(但遠不及人們所說的比例)製作了一個接近 7-10 個月前的美國模型效能的模型」"
  • AI發展的三個動態:規模定律、曲線偏移和典範轉移,解釋深度探索的進展主要來自工程效率的提升,而非顛覆性創新。更重要的是,中美在AI領域的競爭最終取決於誰能取得關鍵技術的領先地位,而晶片出口管制正是確保美國及其盟友在AI競賽中保持優勢的關鍵手段。
  • 本文來源,全文用 Gemini 1.5 Pro 編譯,請贊助訂閱本站選文

幾週前,我主張美國應加強對中國的晶片出口管制。從那時起,中國的人工智慧公司深度探索(DeepSeek)設法——至少在某些方面——以較低的成本達到了美國前沿人工智慧模型的效能。

在此,我不會聚焦於深度探索是否對 Anthropic 等美國人工智慧公司構成威脅(儘管我確實認為許多關於它們對美國人工智慧領導地位構成威脅的說法被過度誇大了)¹。相反,我將聚焦於深度探索的發佈是否削弱了這些晶片出口管制政策的理由。我認為沒有。事實上,我認為它們使出口管制政策比一週前更加生死攸關²。

出口管制有一個至關重要的目的:讓民主國家保持在人工智慧發展的前沿。需要明確的是,它們不是逃避美中競爭的方式。最終,如果我們想獲勝,美國和其他民主國家的人工智慧公司必須擁有比中國更好的模型。但我們不應該在不必的情況下將技術優勢拱手讓給中國共產黨。

人工智慧發展的三個動態

在我提出我的政策論點之前,我將描述人工智慧系統的三個基本動態 (Dynamics),了解這些動態至關重要:

規模定律 (Scaling Laws)。人工智慧的一個特性——我和我的共同創辦人在 OpenAI 工作時是最早記錄這一特性的人之一——是在其他條件相同的情況下,擴大人工智慧系統的訓練規模會全面帶來一系列認知任務的平穩提升。因此,例如,一個 100 萬美元的模型可能會解決 20% 的重要程式設計任務,一個 1000 萬美元的模型可能會解決 40%,1 億美元的模型可能會解決 60%,依此類推。這些差異在實踐中往往具有巨大的影響——另一個 10 倍的因素可能對應於大學生和博士學位技能水平之間的差異——因此公司正在大力投資於訓練這些模型。

曲線偏移 (Shifting the Curve)。該領域不斷提出大大小小的想法,使事情變得更有效或更高效:可能是對模型架構的改進(對當今所有模型使用的基本 Transformer 架構進行調整),或者只是一種在底層硬體上更有效地運行模型的方法。新一代硬體也具有相同的效果。這通常會導致曲線偏移:如果創新是一個 2 倍的「計算乘數」(CM),那麼它允許你用 500 萬美元而不是 1000 萬美元在程式設計任務上獲得 40% 的成績;或者用 5000 萬美元而不是 1 億美元獲得 60% 的成績,等等。每家人工智慧前沿公司都會定期發現許多這樣的 CM:經常是小型的(~1.2 倍),有時是中型的(~2 倍),偶爾是非常大的(~10 倍)。

由於擁有更智慧的系統的價值如此之高,這種曲線的偏移通常會導致公司花費更多而不是更少的錢來訓練模型:成本效率的提高最終完全用於訓練更智慧的模型,僅受公司財務資源的限制。人們自然而然地會被「先是很貴,然後變得更便宜」的想法所吸引——就好像人工智慧是一個品質恆定的單一事物,當它變得更便宜時,我們會使用更少的晶片來訓練它。但重要的是規模曲線:當它發生偏移時,我們只是更快地沿著它前進,因為曲線末端的價值如此之高。2020 年,我的團隊發表了一篇論文,表明演算法進步導致的曲線偏移約為每年 1.68 倍。此後,這個速度可能顯著加快;它也沒有考慮效率和硬體。我猜測今天的數字可能是每年 ~4 倍。另一個估計是這裡。訓練曲線的偏移也會導致推理曲線的偏移,因此多年來,在模型品質保持不變的情況下,價格大幅下降。例如,比原始 GPT-4 晚 15 個月發佈的 Claude 3.5 Sonnet 在幾乎所有基準測試中都超過了 GPT-4,而 API 價格卻低了約 10 倍。

典範轉移 (Shifting the Paradigm)。每隔一段時間,被擴展的底層事物就會發生一些變化,或者訓練過程中會添加一種新型的擴展。從 2020 年到 2023 年,主要被擴展的是預訓練模型:在越來越多的網際網路文本上訓練的模型,再加上一點點其他的訓練。2024 年,使用強化學習(RL)來訓練模型生成思維鏈的想法成為了一個新的擴展焦點。Anthropic、深度探索和許多其他公司(最引人注目的可能是 9 月份發佈了 o1-preview 模型的 OpenAI)發現,這種訓練大大提高了某些特定、可客觀衡量的任務(如數學、程式開發競賽以及類似於這些任務的推理)的效能。這種新典範涉及從普通的預訓練模型開始,然後作為第二階段使用強化學習來增加推理能力。重要的是,由於這種強化學習是新的,我們仍然處於規模曲線的非常早期階段:所有參與者在第二階段(強化學習階段)的花費都很少。花費 100 萬美元而不是 10 萬美元就足以獲得巨大的收益。公司現在正在非常迅速地將第二階段的規模擴大到數億甚至數十億,但必須了解,我們正處於一個獨特的「交叉點」,在這個交叉點上,有一個強大的新典範,它處於規模曲線的早期階段,因此可以快速取得重大進展。

深度探索的模型

上面的三個動態可以幫助我們理解深度探索最近的發佈。大約一個月前,深度探索發佈了一個名為「深度探索-V3」的模型,這是一個純粹的預訓練模型³——上文第 3 點中描述的第一階段。然後在上週,他們發佈了「R1」,增加了第二階段。從外部不可能完全了解這些模型的所有資訊,但以下是我對這兩個版本的最佳理解。

深度探索-V3 才是真正的創新,一個月前就應該引起人們的注意(我們當然注意到了)。作為一個預訓練模型,它似乎在一些重要任務上接近⁴了最先進的美國模型的效能,而訓練成本大大降低(儘管我們發現 Claude 3.5 Sonnet 在其他一些關鍵任務上仍然要好得多,例如真實世界的程式設計)。深度探索的團隊通過一些真正和令人印象深刻的創新做到了這一點,主要集中在工程效率上。在管理一個稱為「鍵值快取」的方面,以及使一種稱為「專家混合」的方法能夠比以前更進一步方面,都有特別創新的改進。

然而,重要的是更仔細地觀察:

深度探索並沒有「用 600 萬美元⁵ 做到 美國人工智慧公司花費數十億美元才能做到的事情」。我只能代表 Anthropic 發言,但 Claude 3.5 Sonnet 是一個中型模型,訓練成本為幾千萬美元(我不會給出確切的數字)。此外,3.5 Sonnet 的訓練沒有以任何涉及更大或更昂貴模型的方式進行(與一些傳言相反)。Sonnet 的訓練是在 9-12 個月前進行的,而深度探索的模型是在 11 月/12 月訓練的,而 Sonnet 在許多內部和外部評估中仍然明顯領先。因此,我認為一個公平的說法是「深度探索以低得多的成本(但遠不及人們所說的比例)製作了一個接近 7-10 個月前的美國模型效能的模型」。

如果成本曲線下降的歷史趨勢是每年 ~4 倍,這意味著在正常的業務過程中——在像 2023 年和 2024 年那樣發生的歷史成本下降的正常趨勢中——我們預計現在會出現比 3.5 Sonnet/GPT-4o 便宜 3-4 倍的模型。由於深度探索-V3 比那些美國前沿模型差——假設在規模曲線上差 ~2 倍,我認為這對深度探索-V3 來說已經相當慷慨了——這意味著如果深度探索-V3 的訓練成本比一年前開發的當前美國模型低 ~8 倍,那將是完全正常的,完全「符合趨勢」的。

我不打算給出一個數字,但從前面的要點可以清楚地看出,即使你按面值計算深度探索的訓練成本,它們充其量也只是符合趨勢,甚至可能還不到。例如,這不如最初的 GPT-4 到 Claude 3.5 Sonnet 的推理價格差異(10 倍)那麼陡峭,而且 3.5 Sonnet 是比 GPT-4 更好的模型。所有這些都表明,深度探索-V3 並不是一個獨特的突破,也不是從根本上改變大型語言模型經濟性的東西;它是持續成本降低曲線上的一個預期點。這次的不同之處在於,第一個展示預期成本降低的公司是中國公司。這在以前從未發生過,具有地緣政治意義。然而,美國公司很快就會效仿——他們不會通過複製深度探索來做到這一點,而是因為他們也正在實現成本降低的通常趨勢。

深度探索和美國人工智慧公司都擁有比以前訓練其主打模型時多得多的資金和晶片。額外的晶片用於研發以開發模型背後的創意,有時也用於訓練尚未準備好(或需要多次嘗試才能成功)的更大模型。據報導——我們無法確定這是真的——深度探索實際上擁有 50,000 個 Hopper 代晶片⁶,我猜測這與美國主要人工智慧公司擁有的晶片數量相差 ~2-3 倍(例如,它比 xAI 的「Colossus」叢集少 2-3 倍)⁷。這 50,000 個 Hopper 晶片的成本約為 10 億美元。因此,深度探索作為一家公司的總支出(與訓練單個模型的支出不同)與美國人工智慧實驗室的總支出沒有太大區別。

值得注意的是,「規模曲線」分析有點過於簡化,因為模型有所區分,並且具有不同的優缺點;規模曲線數字是一個粗略的平均值,忽略了很多細節。我只能談論 Anthropic 的模型,但正如我上面暗示的那樣,Claude 非常擅長程式設計,並且具有精心設計的與人互動的風格(許多人將其用於個人建議或支援)。在這些任務和其他一些任務上,根本無法與深度探索相提並論。這些因素沒有出現在規模數字中。

R1 是上週發佈的模型,引發了公眾的廣泛關注(包括英偉達股價下跌約 17%),從創新或工程角度來看,它遠不如 V3 有趣。它增加了第二階段的訓練——上文第 3 點中描述的強化學習——並且基本上複製了 OpenAI 用 o1 所做的事情(它們似乎處於相似的規模,具有相似的結果)⁸。然而,由於我們處於規模曲線的早期階段,只要它們是從強大的預訓練模型開始,幾家公司就有可能生產這種類型的模型。在 V3 的基礎上生產 R1 可能非常便宜。因此,我們處於一個有趣的「交叉點」,在這個交叉點上,暫時有幾家公司可以生產良好的推理模型。隨著每個人都在這些模型的規模曲線上進一步發展,這種情況將很快不再存在。

出口管制

所有這些都只是我感興趣的主要話題的序言:對中國的晶片出口管制。根據上述事實,我認為情況如下:

有一個持續的趨勢,即公司在訓練強大的人工智慧模型上花費越來越多的錢,即使曲線週期性地偏移,訓練特定水平的模型智慧的成本迅速下降。只是訓練越來越智慧的模型的經濟價值如此之大,以至於任何成本收益幾乎立即就被超過——它們被重新投入到以我們最初計劃花費的同樣巨大的成本製造更智慧的模型中。如果美國實驗室尚未發現它們,深度探索開發的效率創新將很快被美國和中國的實驗室應用於訓練價值數十億美元的模型。這些模型的效能將優於他們之前計劃訓練的價值數十億美元的模型——但他們仍然會花費數十億美元。這個數字將繼續上升,直到我們達到幾乎在所有事情上都比幾乎所有人類都聰明的人工智慧。

製造幾乎在所有事情上都比幾乎所有人類都聰明的人工智慧將需要數百萬個晶片,數百億美元(至少),並且最有可能在 2026-2027 年發生。深度探索的發佈並沒有改變這一點,因為它們大致處於預期的成本降低曲線上,而這些曲線一直都被納入這些計算中。

這意味著在 2026-2027 年,我們最終可能會進入兩個截然不同的世界之一。在美國,多家公司肯定會擁有所需的數百萬個晶片(以數百億美元的成本)。問題是中國是否也能夠獲得數百萬個晶片⁹。

如果他們可以,我們將生活在一個兩極世界中,美國和中國都擁有強大的人工智慧模型,這些模型將導致科學技術極其快速地發展——我稱之為「資料中心裡的天才國家」。兩極世界不一定會無限期地保持平衡。即使美國和中國在人工智慧系統方面勢均力敵,中國似乎也可能將更多的人才、資本和重點引導到該技術的軍事應用上。結合其龐大的工業基礎和軍事戰略優勢,這可以幫助中國在全球舞臺上取得領先地位,不僅僅是在人工智慧方面,而是在所有方面。

如果中國不能獲得數百萬個晶片,我們將(至少暫時)生活在一個單極世界中,只有美國及其盟國擁有這些模型。目前尚不清楚單極世界是否會持續下去,但至少有可能,因為人工智慧系統最終可以幫助製造更智慧的人工智慧系統,暫時的領先地位可以轉化為持久的優勢¹⁰。因此,在這個世界中,美國及其盟國可能會在全球舞臺上取得統治性和持久的領先地位。

執行良好的出口管制¹¹是唯一能阻止中國獲得數百萬個晶片的東西,因此是決定我們最終是進入單極世界還是兩極世界的最重要因素。

深度探索的效能並不意味著出口管制失敗了。正如我上面所說,深度探索擁有數量適中到較多的晶片,因此他們能夠開發然後訓練一個強大的模型並不奇怪。他們的資源限制並沒有比美國人工智慧公司多得多,出口管制也不是導致他們「創新」的主要因素。他們只是非常有才華的工程師,表明了為什麼中國是美國的強勁競爭對手。

深度探索也沒有表明中國可以總是通過走私獲得所需的晶片,或者管制總是有漏洞。我不認為出口管制的設計初衷是為了阻止中國獲得幾萬個晶片。10 億美元的經濟活動可以隱藏,但很難隱藏 1000 億美元甚至 100 億美元。一百萬個晶片走私起來也可能在物理上很困難。觀察深度探索目前報導擁有的晶片也 很有啟發性。根據 SemiAnalysis 的說法,這是 H100、H800 和 H20 的混合,總計 5 萬個。

自發佈以來,H100 就已被出口管制禁止,因此如果深度探索有任何 H100,它們一定是走私進來的(請注意,英偉達已聲明深度探索的進展「完全符合出口管制」)。H800 在 2022 年第一輪出口管制下是允許的,但在 2023 年 10 月管制更新時被禁止,因此這些晶片可能是在禁令之前發貨的。H20 的訓練效率較低,而取樣效率較高——並且仍然是允許的,儘管我認為它們應該被禁止。所有這些都表明,出口管制實際上正在發揮作用並不斷調整:漏洞正在被堵塞;否則,他們可能會擁有全套頂級的 H100。如果我們能足夠快地堵塞漏洞,我們或許能夠阻止中國獲得數百萬個晶片,增加美國領先的單極世界的可能性。

鑑於我對出口管制和美國國家安全的關注,我想明確一點。我並不認為深度探索本身是敵人,重點也不是特別針對他們。在他們接受的採訪中,他們看起來像是聰明、好奇的研究人員,只是想做出有用的技術。

但他們受制於一個專制政府,這個政府犯下了侵犯人權的罪行,在世界舞臺上表現得咄咄逼人,如果他們能夠在人工智慧方面與美國匹敵,他們在這些行動中將更加肆無忌憚。出口管制是我們防止這種情況發生的最有力的工具之一,而技術變得更強大、更有「效益」是解除我們出口管制的原因,這種想法根本沒有道理。

¹ 我在這篇文章中沒有對西方模型知識蒸餾的相關報導發表任何立場。在這裡,我將只相信深度探索的說法,即他們按照論文中的說法對其進行了訓練。

² 順便說一句,我認為深度探索模型的發佈顯然對英偉達沒有壞處,而其股價因此下跌了兩位數(約 17%)令人費解。這個發佈對英偉達沒有壞處的理由甚至比它對人工智慧公司沒有壞處更明顯。但我這篇文章的主要目標是捍衛出口管制政策。

³ 準確地說,它是一個預訓練模型,帶有推理典範轉變之前模型典型的少量強化學習訓練。

⁴ 它在一些非常狹窄的任務上更強大。

⁵ 這是深度探索論文中引用的數字——我按面值計算,並不懷疑這部分內容,只懷疑與美國公司模型訓練成本的比較,以及訓練特定模型的成本(即 600 萬美元)與研發總成本(要高得多)之間的區別。然而,我們也不能完全確定這 600 萬美元——模型大小是可以驗證的,但其他方面(如訓練資料量)則無法驗證。

⁶ 在一些採訪中,我說他們有「50,000 個 H100」,這對報導的總結略有不準確,我想在這裡糾正一下。目前為止最著名的「Hopper 晶片」是 H100(這是我假設被提到的),但 Hopper 也包括 H800 和 H20,據報導深度探索混合使用了這三種晶片,總計 50,000 個。這並沒有太大地改變情況,但值得糾正。當我談到出口管制時,我會更多地討論 H800 和 H20。

⁷ 注意:由於出口管制,我預計這種差距在下一代叢集上會大大增加。

⁸ 我懷疑 R1 引起如此多關注的主要原因之一是它是第一個向使用者展示模型所展現的思維鏈推理的模型(OpenAI 的 o1 只顯示最終答案)。深度探索表明使用者對此很感興趣。需要明確的是,這是一個使用者介面選擇,與模型本身無關。

⁹ 請注意,中國自己的晶片在短期內無法與美國製造的晶片競爭。正如我在最近與 Matt Pottinger 合作的專欄文章中所寫:「中國最好的人工智慧晶片,即華為 Ascend 系列,其性能遠不如美國英偉達製造的領先晶片。中國也可能沒有足夠的生產能力來滿足不斷增長的需求。如今,中國境外沒有一個值得注意的華為 Ascend 晶片叢集,這表明中國正在努力滿足其國內需求……」。

¹⁰ 需要明確的是,我們的目標不是拒絕中國或任何其他專制國家從非常强大的人工智慧系統中獲得科學、醫學、生活品質等方面的巨大好處。每個人都應該能夠從人工智慧中受益。我們的目標是防止他們獲得軍事主導地位。

Read more

AI 顯微鏡解密語言模型思維:窺探語言模型「大腦」的運作方式

AI 顯微鏡解密語言模型思維:窺探語言模型「大腦」的運作方式

語言模型(如Claude)的運作方式一直以來都像是一個黑盒子,Anthropic 最新發表的兩篇研究論文揭露他們如何嘗試「打開」這個黑盒子,了解AI系統內部的思考過程。這項研究不只具有科學價值,也能幫助人類確保AI系統的可靠性與安全性。 AI的「思考」是如何形成的? 大型語言模型不像傳統程式那樣由人類直接編寫,而是透過大量數據訓練而成。在這個過程中,模型自行發展出解決問題的策略,這些策略隱藏在模型執行的數十億次計算中。因此,即使是開發者也不完全了解模型如何完成各種任務。 研究人員從神經科學獲得靈感,嘗試建立一種「AI顯微鏡」,用於識別AI中的活動模式和資訊流動。透過這種方法,他們發現了一些令人驚訝的結果: 關鍵發現 1. 跨語言的「思維語言」 Claude能說數十種語言,那麼它「腦中」使用的是什麼語言?研究顯示,當處理不同語言時,Claude會使用共享的概念空間。 例如,當用不同語言詢問「small的反義詞是什麼」時,模型啟動相同的核心特徵來表示「小」和「相反」的概念,然後觸發「大」的概念,最後將結果翻譯成問題使用的語言。

By Fox Hsiao
圖靈測試 75 年來首次被AI成功突破,GPT-4.5如何辦到的 ?

圖靈測試 75 年來首次被AI成功突破,GPT-4.5如何辦到的 ?

圖靈測試由計算機科學先驅艾倫·圖靈於1950年提出,被視為判斷機器是否具有智能的重要方法。測試的核心是一場「模仿遊戲」:一位人類審問者同時與兩位受試者(一位人類和一位機器)進行文字對話,雙方都嘗試說服審問者自己是真正的人類。如果審問者無法可靠地辨別出誰是人類,那麼機器就被認為通過了測試。 75年來,許多系統嘗試挑戰圖靈測試,但都未能成功。直到現在,研究人員發現大型語言模型(LLM)終於突破了這道門檻。 研究方法與突破性發現 研究團隊評估了四種系統:ELIZA(一種1960年代的規則型聊天機器人)、GPT-4o、LLaMa-3.1-405B和GPT-4.5,讓它們與真人一起參與標準的三方圖靈測試。測試參與者有5分鐘時間與系統和真人同時對話,最後判斷哪一方是人類。 研究結果令人驚訝: 1. GPT-4.5:當被提示採用特定人物角色時,它被判斷為人類的比率高達73%,顯著超過了真人被識別的機率(27%)。 2. LLaMa-3.1-405B:同樣提示詞下,被判斷為人類的比率達56%,與真人不相上下。 3. 對照組:未經特殊提示詞的GPT-4o和ELIZA則表現平平,僅有21

By Fox Hsiao
Sam Altman 被 OpenAI 解雇事件背後的真實故事

Sam Altman 被 OpenAI 解雇事件背後的真實故事

秘密、誤導與信任破裂。科技界當紅 CEO 被閃電開除又戲劇性回歸的內幕。 (改編自 Keach Hagey 所著新書《The Optimist: Sam Altman, OpenAI, and the Race to Invent the Future》(《樂觀主義者:Sam Altman、OpenAI 與創造未來的競賽》),本書將由 W.W. Norton 出版社於 2025 年 5 月 20 日出版。版權所有歸作者 Keach Hagey。) 2023 年 11 月中旬,一個溫暖的夜晚,億萬富翁創投家彼得·提爾(Peter Thiel)在洛杉磯藝術區一家名為

By Fox Hsiao
GPUs融化中!從「畫素註解」到「魔法繪師」:ChatGPT-4o圖像技術有多猛?

GPUs融化中!從「畫素註解」到「魔法繪師」:ChatGPT-4o圖像技術有多猛?

社群媒體上瘋傳著各種以ChatGPT-4o生成的吉卜力風格圖像,熱潮之猛烈,甚至讓OpenAI創辦人Sam Altman在3月28日發推特表示:"看到人們喜愛ChatGPT中的圖像功能真是太有趣了,但我們的GPU正在融化。我們將暫時引入一些使用限制,同時努力提高效率。希望不會太久!"——短短幾天,這則推文已獲得700萬次瀏覽,足見此功能的爆炸性影響。這些作品不僅令人驚嘆於其畫風以及角色連續性,更令人好奇其背後的技術突破。 與此同時 OpenAI 釋出了《GPT-4o系統卡的增補:原生圖像生成》技術報告,首次揭開了這款引爆網路的圖像生成技術的神秘面紗。 報告中的關鍵揭露令人驚訝:與之前的DALL·E系列截然不同,4o圖像生成並非獨立的擴散模型,而是深度嵌入GPT-4o架構中的自迴歸模型。這種根本性的架構差異,讓我們得以一窺AI視覺技術數十年來的演變歷程。 從早期需要人工標記每個像素的繁瑣工作,到如今能自動理解並創造精美圖像的全能模型,這一路徑不僅顯示技術的進步,更代表我們理解智能本質的深刻轉變。本文將帶您了解 AI 圖像訓練方法的演進過程,揭示從語義分割到弱監督學習,再到今日生成式

By Fox Hsiao