
News
GPUs融化中!從「畫素註解」到「魔法繪師」:ChatGPT-4o圖像技術有多猛?
社群媒體上瘋傳著各種以ChatGPT-4o生成的吉卜力風格圖像,熱潮之猛烈,甚至讓OpenAI創辦人Sam Altman在3月28日發推特表示:"看到人們喜愛ChatGPT中的圖像功能真是太有趣了,但我們的GPU正在融化。我們將暫時引入一些使用限制,同時努力提高效率。希望不會太久!"——短短幾天,這則推文已獲得700萬次瀏覽,足見此功能的爆炸性影響。這些作品不僅令人驚嘆於其畫風以及角色連續性,更令人好奇其背後的技術突破。 與此同時 OpenAI 釋出了《GPT-4o系統卡的增補:原生圖像生成》技術報告,首次揭開了這款引爆網路的圖像生成技術的神秘面紗。 報告中的關鍵揭露令人驚訝:與之前的DALL·E系列截然不同,4o圖像生成並非獨立的擴散模型,而是深度嵌入GPT-4o架構中的自迴歸模型。這種根本性的架構差異,讓我們得以一窺AI視覺技術數十年來的演變歷程。 從早期需要人工標記每個像素的繁瑣工作,到如今能自動理解並創造精美圖像的全能模型,這一路徑不僅顯示技術的進步,更代表我們理解智能本質的深刻轉變。本文將帶您了解 AI 圖像訓練方法的演進過程,揭示從語義分割到弱監督學習,再到今日生成式