訂閱
糾錯
加入自媒體

AI到頂了?OpenAI首席科學家否認,行業(yè)從堆算力轉(zhuǎn)向追求智能密度

人工智能是不是到頂了?“AI進展減速論”在過去一年頻繁出現(xiàn)。

Lukasz Kaiser——Transformer 論文共同作者、OpenAI 首席研究科學家、推理模型核心奠基者之一,近日在《Mad》播客中給出了截然相反的觀點。

他提到,AI發(fā)展不僅沒有放緩,反而仍沿著穩(wěn)定而持續(xù)的指數(shù)級曲線加速前進。外界感受到的“停滯”,其實源于突破形態(tài)的改變。行業(yè)從一味做“大模型”,轉(zhuǎn)向構(gòu)建更聰明、更能思考的模型。

在他看來,預訓練依然關(guān)鍵,但已不再是唯一引擎。推理模型的出現(xiàn)像是給基礎(chǔ)模型加了一層“第二大腦”,讓它們學會推導、驗證與自我糾錯,而不僅是預測下一個詞。這意味著在相同成本下,模型能力躍升更明顯、答案可靠性更高。

但AI的“智能地形圖”仍極不均勻。Lukasz坦言,最強模型能攻克奧數(shù)難題,卻可能在兒童拼圖里數(shù)不清物體;能寫出超越專業(yè)程序員的代碼,卻仍會誤判一張照片的空間關(guān)系。

同時,新范式也帶來了新的商業(yè)現(xiàn)實。面對上億級用戶,成本效率已壓過算力堆疊,模型蒸餾從“可選項”變?yōu)?ldquo;必需品”。能否讓小模型復現(xiàn)大模型的智慧,決定了AI能否真正普及。

在這場訪談中,Lukasz不僅否定了“AI減速論”,也描述了一個更加精細、聰明、多層推進的未來:基礎(chǔ)模型仍在擴展、推理層持續(xù)演化、多模態(tài)等待突破,而產(chǎn)品端的效率戰(zhàn)才剛剛開始。

以下是整理后的訪談全文,enjoy~

/ 01 /

AI沒減速,是你沒看懂

主持人:今年以來,一直有觀點認為AI發(fā)展正在放緩,預訓練已觸及天花板,擴展法則似乎也走到了盡頭。

但就在我們錄制本期節(jié)目時,圈里迎來了一輪密集的重大發(fā)布,GPT-5.1、Codex Max、GPT-5.1 Pro、Gemini Nano Pro以及Grok-4.1等模型幾乎同時亮相,這似乎打破了“AI停滯”的論調(diào)。而你們這些身處前沿AI實驗室的專家,看到了哪些外界無法捕捉的進展信號?

LukaszAI技術(shù)的進步一直是非常平穩(wěn)的指數(shù)級能力提升,這是總體趨勢。新技術(shù)層出不窮,進步來自于新發(fā)現(xiàn)、算力提升和更好的工程實現(xiàn)。

語言模型方面,Transformer的出現(xiàn)與推理模型是兩大轉(zhuǎn)折點,它的發(fā)展呈S型曲線。預訓練處于S曲線上段,只是擴展定律并未失效,損失會隨算力呈對數(shù)線性下降,這一點Google和其他實驗室都已經(jīng)驗證了。問問題在于,你需要投入多少錢,相對于收益是否值得。

新的推理范式處于S曲線下部,同樣成本能獲得更多收益,因為還有大量發(fā)現(xiàn)待釋放。

從ChatGPT 3.5到當下,核心變化在于模型不再僅依賴記憶權(quán)重輸出答案,而是能查網(wǎng)頁、推理分析后給出正確答案。

舉個例子,舊版對“動物園明天幾點開門”這類問題會從記憶里瞎編,可能讀到過動物園網(wǎng)站五年前寫的時間,編造過時信息。新版則能實時訪問動物園網(wǎng)站并交叉驗證。

ChatGPT或Gemini本身就已具備許多未被充分認識的能力。你可以拍損壞的東西問怎么修,它會告訴你;給它大學水平的作業(yè),它也能完成。

主持人:我確實同意這個說法。目前確實存在不少顯而易見的改進空間,就像“低垂的果實”,很容易被看到和解決。比如說,模型有時會在邏輯上出現(xiàn)前言不搭后語,或者調(diào)用工具時出錯,再就是記不住太長的對話內(nèi)容。這些都是行業(yè)已經(jīng)意識到,并且正在著力解決的問題。

Lukasz:是的,有大量極其明顯需要改進的地方。大部分屬于工程層面問題:實驗室基礎(chǔ)設(shè)施和代碼優(yōu)化。Python代碼通常能運行,但效率低下會影響結(jié)果質(zhì)量;訓練方法上,強化學習(RL)比預訓練更棘手、更難做好;此外,數(shù)據(jù)質(zhì)量也是瓶頸。

過去我們使用Common Crawl這類互聯(lián)網(wǎng)原始數(shù)據(jù)倉庫,需要投入大量工作對原始網(wǎng)絡(luò)數(shù)據(jù)進行清洗和提煉。如今大公司都設(shè)有專門團隊來提升數(shù)據(jù)質(zhì)量,但真正提取出優(yōu)質(zhì)數(shù)據(jù)仍然非常耗時費力。合成數(shù)據(jù)正在興起,但如何生成、選用什么模型、以及具體的工程實現(xiàn),每一步的實現(xiàn)細節(jié)都非常重要。

另一方面,多模態(tài)能力的發(fā)展也面臨挑戰(zhàn)。目前模型在處理圖像和聲音方面,遠不如處理文本那樣成熟。雖然改進方向很明確,但要取得實質(zhì)突破,可能需要從頭開始訓練新一代基礎(chǔ)模型,這意味著數(shù)月時間和巨額資源的投入。

我常在想,這些進步究竟能讓模型變得多強大?這或許是個被低估的問題。

/ 02 /

AI學會“自我懷疑”,GPT開始提前糾正自己的錯誤

主持人:我想再聊聊推理模型,因為它確實太新了。很多人其實還沒完全搞明白它和基礎(chǔ)模型到底有什么區(qū)別。你能用最通俗的話講講,它倆到底不一樣在哪嗎?

Lukasz:推理模型在給出最終答案前,會自己先在心里琢磨一番,形成一個“思考鏈條”,并且還能借助像搜索這樣的外部工具來幫自己理清思路。這樣一來,它就能在思考過程中主動查找信息,為你提供更靠譜的答案。這算是它表面上看得到的能力。

它更厲害的地方在于,模型學習的重點就是“如何思考”本身,目標是找到更優(yōu)的推理路徑。以前的模型主要靠預測下一個詞來訓練,但這種方法對“推理”這件事不太奏效,因為推理步驟沒法直接用來計算梯度。

所以,我們現(xiàn)在改用強化學習來訓練它。這就像是設(shè)定一個獎勵目標,讓模型自己反復嘗試,摸索出哪些思考方式更容易得到好結(jié)果。這種訓練方式可比以前那種費勁多了。

傳統(tǒng)的訓練對數(shù)據(jù)質(zhì)量不那么挑剔,大體上都能運行,但強化學習就得格外小心,需要精心調(diào)整參數(shù)和準備數(shù)據(jù)。目前一個基礎(chǔ)的方法是使用那些能明確判斷對錯的數(shù)據(jù),比如解數(shù)學題或?qū)懘a,所以它在這些領(lǐng)域表現(xiàn)特別亮眼。在其他領(lǐng)域雖然也有進步,但還沒達到同樣驚艷的程度。

如何在多模態(tài)上做推理?我認為這剛開始,Gemini能在推理過程中生成圖像,這很令人興奮,但還非常初級。

主持人:當前存在一種普遍看法:預訓練和后訓練是割裂的,后訓練幾乎就等于強化學習。但事實上,強化學習在預訓練階段就已參與,只是我們過去的理解并未認識到這一點。

Lukasz:在ChatGPT出現(xiàn)之前,預訓練模型已經(jīng)存在,但無法實現(xiàn)真正對話。ChatGPT的關(guān)鍵突破在于將RLHF應(yīng)用于預訓練模型。RLHF是一種基于人類偏好的強化學習,通過讓模型比較不同回答并學習人類更傾向的選項來進行訓練。

然而,RLHF若訓練過度,模型可能過度“討好”,導致它的內(nèi)核顯得很脆弱。盡管如此,它仍是實現(xiàn)對話能力的核心。

當前趨勢轉(zhuǎn)向更大規(guī)模的強化學習,雖數(shù)據(jù)規(guī)模仍不及預訓練,但能構(gòu)建具備判斷正確性或偏好的模型。該方法目前適用于可明確評估的領(lǐng)域,并可結(jié)合人類偏好進行更穩(wěn)定的長期訓練,避免評分系統(tǒng)失效。

未來,強化學習有望擴展到更通用數(shù)據(jù)與更廣泛領(lǐng)域。問題是:做某些事真的需要很多思考嗎?也許需要,也許我們需要比現(xiàn)在更多的思考和推理。

主持人:要提升強化學習的泛化能力,是不是關(guān)鍵在于有更好的評估方式?比如你們之前推出的跨經(jīng)濟領(lǐng)域評估,測試它在不同場景的表現(xiàn),這種系統(tǒng)性的衡量是不是真的必要?

Lukasz:人們在寫作前通常會有所思考,雖然不像解數(shù)學題那樣嚴謹,但總會有一個大致的思路。目前模型難以完全模擬這種過程,不過它們已經(jīng)開始嘗試了。推理能力可以遷移,比如學會查閱網(wǎng)頁獲取信息后,這個策略也能用在其他任務(wù)上。但在視覺思考方面,模型的訓練還遠遠不夠充分。

主持人:思維鏈具體是怎么運作的?模型是怎么決定要生成這些思考步驟的?我們在屏幕上看到的那些中間推理,是模型真實的完整思考過程嗎?還是說背后其實隱藏著更復雜、更長的推理鏈條?

Lukasz:在ChatGPT里你看到的思維鏈總結(jié),其實是另一個模型對完整思考過程的提煉。原始的思考鏈條通常比較啰嗦。如果僅僅讓模型在預訓練后嘗試逐步思考,它確實能產(chǎn)生一些推理步驟,但關(guān)鍵不止于此。

我們可以這樣訓練:先讓模型嘗試多種思考方式,有些得到正確結(jié)果,有些會出錯。然后我們選出那些導向正確答案的思考路徑,告訴模型“這才是你應(yīng)該學習的思考方式”。這就是強化學習發(fā)揮的作用。

這種訓練真正改變了模型的思考模式,在數(shù)學和編程領(lǐng)域已經(jīng)看到效果。更大的希望是它能擴展到其他領(lǐng)域。甚至在數(shù)學解題中,模型開始學會提前自我糾正錯誤,這種自我驗證的能力是從強化學習中自然涌現(xiàn)的。本質(zhì)上,模型學會了質(zhì)疑自己的輸出,覺得可能出錯時就會重新思考。

/ 03 /

預訓練仍是耗電巨獸,RL和視頻模型正瘋狂搶GPU資源

主持人:談?wù)剰腉oogle到OpenAI的轉(zhuǎn)變,以及兩種文化的差異。

Lukasz:Ilya Sutskever 以前在 Google Brain 時是我的經(jīng)理,后來他離職創(chuàng)立了 OpenAI。那幾年他問過我好幾次要不要加入。之后 Transformer 發(fā)布了,接著又趕上了疫情。Google 完全關(guān)閉,重啟也非常慢。

Google Brain 作為大公司里的小團隊,工作氛圍和創(chuàng)業(yè)公司很不一樣。

Ilya 跟我說,OpenAI 雖然還在早期階段,但正在做語言模型,可能和我的方向很契合。我當時想:“好吧,那就試試看。”之前除了 Google 和大學,我沒在別的公司工作過。所以加入一個小型創(chuàng)業(yè)公司確實是個很大的轉(zhuǎn)變。

總的來說,我覺得不同科技實驗室之間的相似之處,比人們想象得要多。它們之間當然有差異,但就像從法國大學的視角來看,大學和任何一個科技實驗室的差別,其實遠大于實驗室彼此之間的差別。大公司也好,創(chuàng)業(yè)公司也罷,在“必須交付”這一點上更像彼此。

主持人:OpenAI內(nèi)部研究團隊是怎么組織的?

Lukasz:大多數(shù)實驗室都在做類似的工作,比如改進多模態(tài)模型、提升推理能力、優(yōu)化預訓練或者基礎(chǔ)設(shè)施。通常會有專門團隊負責這些方向,人員有時會流動,新項目也會啟動,比如擴散模型。有些探索項目規(guī)模會擴大,像視頻模型就需要更多人手參與。

GPU的分配主要基于技術(shù)需求。目前預訓練消耗的GPU最多,所以資源會優(yōu)先分配給它。強化學習和視頻模型對GPU的需求也在快速增長。

主持人:未來一兩年預訓練會怎樣?

Lukasz:我認為預訓練在技術(shù)上已經(jīng)進入平穩(wěn)發(fā)展期,投入更多算力仍能提升效果,這很有價值。雖然回報不如推理技術(shù)顯著,但確實能增強模型能力,值得持續(xù)投入。

很多人忽略了一個現(xiàn)實轉(zhuǎn)變:幾年前OpenAI還只是研究實驗室,所有算力都集中在訓練上,可以毫不猶豫地打造GPT-4。但現(xiàn)在情況不同了,ChatGPT擁有十億用戶,每天產(chǎn)生海量對話需求,需要大量GPU資源支撐。用戶不愿意為每次對話支付過高費用,迫使我們開發(fā)更經(jīng)濟的小模型。

這個轉(zhuǎn)變影響了所有實驗室。一旦技術(shù)產(chǎn)品化,就必須考慮成本。現(xiàn)在我們不再只追求最大模型,而是努力用更小更便宜的模型提供同等質(zhì)量。這種降本增效的壓力非,F(xiàn)實

這也讓蒸餾技術(shù)重新受到重視。通過將大模型的知識提煉到小模型中,既能保證質(zhì)量又能控制成本。雖然這個方法很早就有,但直到面臨實際的經(jīng)濟壓力,我們才真正認識到它的價值。

當然,訓練超大模型仍然重要,因為它是蒸餾優(yōu)質(zhì)小模型的基礎(chǔ)。隨著行業(yè)對GPU的持續(xù)投入,預計將迎來新一輪的預訓練發(fā)展。但本質(zhì)上,這些變化都是在同一條技術(shù)演進路徑上的調(diào)整,取決于不同階段的資源與需求。

最重要的是要看到:預訓練始終有效,而且能與強化學習形成互補。在更強大的基礎(chǔ)模型上運行推理,效果自然會更出色。

主持人:現(xiàn)代AI系統(tǒng)的演進,結(jié)合了實驗室、RL和很多技術(shù)。深度學習時代人們常說自己從微觀層面理解AI,比如矩陣乘法,但不完全理解組合在一起后最終發(fā)生什么。過去幾年在可解釋性方面做了很多工作,特別是對復雜系統(tǒng)。模型的行為是越來越清晰了,還是仍有黑盒成分?

Lukasz:我覺得兩方面都有道理。從根本上說,我們對模型的理解確實取得了巨大進步。像ChatGPT這樣的模型,它和無數(shù)人對話,知識來自整個互聯(lián)網(wǎng),顯然,我們無法完全理解它內(nèi)部發(fā)生的一切,就像沒人能了解整個互聯(lián)網(wǎng)。

但我們的確有了新發(fā)現(xiàn)。比如OpenAI最近一篇論文表明,如果讓模型的很多連接變得稀疏、不重要,就能更清晰地追蹤它在處理任務(wù)時的具體活動。

所以,如果聚焦在模型內(nèi)部進行研究,我們確實能獲得不少理解。現(xiàn)在已經(jīng)有很多研究在探索模型內(nèi)部的工作機制,我們對模型高級行為的認知進步很大。不過,這些理解大多來自較小的模型。不是說這些規(guī)律不適用于大模型,但大模型同時處理太多信息,我們的理解能力終究有限。

/ 04 /

為什么GPT-5能解奧賽題,卻敗給5歲孩子的數(shù)學題?

主持人:我想聊聊GPT-5.1。從GPT-4到5到5.1,實際改變了什么?

Lukasz:這個問題很難。從GPT-4到5,最重要的變化是加入了推理能力和合成數(shù)據(jù),同時預訓練讓成本大幅下降。到了GPT-5,它已經(jīng)成為十億人使用的產(chǎn)品,團隊在安全與友好度之間不斷調(diào)整,讓模型在面對各類問題時反應(yīng)更合理,既不過度敏感也不隨意拒絕。幻覺問題雖然還存在,但通過工具驗證和訓練優(yōu)化,已經(jīng)比之前改善很多。

主持人:GPT-5.1主要是后訓練的改進,比如加入了不同語氣風格,從書呆子氣到專業(yè)范兒,這大概是回應(yīng)有些人懷念早期模型那種討好人的特性。加入更多語氣變化屬于后訓練范疇。你們是給模型看示例教它回應(yīng)方式,這更像監(jiān)督學習,還是像強化學習那樣用對錯獎勵來訓練?

Lukasz:我不直接做后訓練,這部分確實有些怪,核心是強化學習。比如你會判斷“這個回答是否帶有諷刺?是否符合要求?”如果用戶要求諷刺,那模型就該那么回應(yīng)。

主持人:我感覺強化學習在模型迭代中占比很大。其他公司發(fā)布模型時通常與預訓練對齊,有時一次預訓練產(chǎn)出多個模型。以前版本命名常與技術(shù)對齊,比如o1對應(yīng)預訓練版本,o3對應(yīng)強化學習版本。大家覺得這種命名很混亂,F(xiàn)在改為按能力命名:GPT-5是基礎(chǔ)能力版,5.1是增強版,也就是更輕量、稍弱但更快更便宜的版本。

Lukasz:推理模型專注于復雜推理。命名與技術(shù)解綁帶來了靈活性。OpenAI發(fā)展壯大后項目很多,強化學習、預訓練,還有網(wǎng)站優(yōu)化等等。模型蒸餾技術(shù)讓我們能整合多個項目成果,不必等所有項目同時完成,可以定期集成更新。這對用戶是好事,不用再苦等耗時數(shù)月的新預訓練模型。

主持人:用戶能控制模型的思考時間。那在默認情況下,模型自己是怎么決定要思考多久的呢?

Lukasz:模型遇到任務(wù)時會自行決定思考多久,但我們可以通過提供額外信息來引導它思考得更深入,F(xiàn)在你確實能對它進行一定控制了。但更根本的變化在于:推理模型通過消耗更多token進行思考,其能力提升的速度遠超預訓練階段。如果讓GPT-5進行長時間思考,它甚至能解決數(shù)學和信息學奧賽的題目,展現(xiàn)出驚人潛力。

不過目前推理訓練主要依賴科學領(lǐng)域數(shù)據(jù),遠不如預訓練的數(shù)據(jù)廣泛。這導致模型能力很不均衡,某些方面極其出色,相鄰領(lǐng)域卻表現(xiàn)不佳。這種矛盾很常見:比如模型能解奧賽題,卻可能做不出一年級的數(shù)學題,而人類只需十秒就能解決。要記住:模型既強大,也存在明顯短板。

我舉個值得深思的例子。用Gemini看兩組點判斷奇偶:第一題兩邊各有若干點,中間共享一個點,正確答案應(yīng)是奇數(shù)。Gemini 3答對了。但緊接著出現(xiàn)結(jié)構(gòu)相似的題目,它卻完全忽略了共享點,直接判斷為偶數(shù),明明剛見過類似情境。

同樣的題目給GPT-5.1,它解出第一題卻誤判為偶數(shù)。如果換成GPT-5 Pro,它會花15分鐘運行Python代碼來數(shù)點,而五歲孩子15秒就能答對。

主持人:所以模型到底被什么卡住了?

Lukasz:多模態(tài)方面確實還處在早期。模型能解出第一個例子說明有進步,但它還沒真正掌握如何在多模態(tài)情境下進行推理。它雖然能進行上下文學習,卻不太會借鑒上下文中的推理思路來推進下一步。這些都是已知的瓶頸,主要還是訓練不足。

但更深層的問題是,即使多模態(tài)能力提升了,模型可能還是做不好像我女兒做的那種數(shù)學題。這類題不純是視覺問題,模型還沒學會在簡單的抽象層面運用推理。它看到點陣圖,容易卡在識別像素模式上,而看不出“兩邊數(shù)量相同但共享一個點,所以總數(shù)是奇數(shù)”這種抽象邏輯。這種從圖像到符號的抽象推理能力還沒建立起來。

所以這類題目其實暴露了推理模型的一個根本局限:它們還沒能把從文本中學到的思維鏈策略,比如“先算總數(shù)再判奇偶”,自動遷移到視覺輸入上。這是多模態(tài)推理要突破的核心難題。

另外還有個細節(jié):這些題目對人來說簡單,但模型得先從像素里識別出“點”和“共享”的概念。如果圖像中點的大小、間距、顏色有變化,模型可能根本認不出關(guān)鍵元素。

相比符號明確的數(shù)學題,視覺任務(wù)的基礎(chǔ)識別還不夠穩(wěn)健。因此當模型在第二個例子失敗時,很可能是因為它沒正確識別出“共享點”這個視覺信息。這說明多模態(tài)推理的瓶頸不僅在于邏輯,還在于跨模態(tài)的語義對齊。

兒童早期數(shù)學題設(shè)計得很妙。這些題目看似簡單,卻融合了抽象、類比、計數(shù)和奇偶判斷等多個認知環(huán)節(jié)。模型可能在某一步,比如識別點數(shù)正確,卻在判斷奇偶時出錯。我們通過跟蹤模型每一步的置信度發(fā)現(xiàn),它在“識別共享點”這一步的把握度在第二個例子中明顯下降,這說明模型對視覺模式的泛化能力還不穩(wěn)定。這也為我們指明了改進方向:需要在訓練中增加更多涉及“共享元素”和“集合運算”的視覺推理示例。預計這個具體問題在半年內(nèi)應(yīng)該能得到改善。

回到宏觀視角,我們討論的問題,包括多模態(tài)推理,都是可解的工程挑戰(zhàn),不是根本性的理論障礙。核心教訓是:推理模型的“鋸齒狀"能力曲線會在不同領(lǐng)域持續(xù)存在,但鋸齒的深度會隨著訓練和蒸餾逐漸減小。

主持人:這次GPT-5.1版本更新,簡直像發(fā)布了一個Pro產(chǎn)品。你覺得最主要的新能力是什么?

Lukasz:最關(guān)鍵的是對話界面變得更自然了。現(xiàn)在系統(tǒng)能根據(jù)你的意圖,自動調(diào)節(jié)回答長短,不用再手動選短中長回復。這靠的是后訓練中的強化學習,獎勵信號不再是簡單對錯,而是看“用戶滿不滿意”。他們用大量真實對話訓練獎勵模型,去捕捉那些微妙的互動指標。這樣模型就學會在復雜問題時多講點,簡單問題時少講點。

這也是RLHF的進化,從學習人類偏好,到學習讓人滿意。模型還能在生成過程中自我評估信心,如果把握夠高,就提前結(jié)束回答,省下不少算力。不過這些都屬于基礎(chǔ)設(shè)施優(yōu)化,不直接提升核心推理能力。真正的進步來自后訓練數(shù)據(jù)質(zhì)量的提升,特別是加入了更多“說不知道”和“反問確認”的邊緣案例,讓模型變得更謹慎。5.1版本其實只是他們整體推理研究中的一個產(chǎn)品化快照。

主持人:o4-mini的推理能力真的更強嗎?還是評估的問題?

Lukasz:很多人問我o4-mini和o3的區(qū)別,其實它們不是簡單的升級關(guān)系,而是不同的設(shè)計選擇。o3展現(xiàn)了我們在強化學習上追求極致推理能力的成果,而o4-mini更像是一次“精煉的壓縮”,用更少的資源實現(xiàn)接近的效果。關(guān)鍵差別在于“推理時用的計算量”:o3在回答時投入大量計算,o4-mini則靠訓練時更充分的優(yōu)化。

在實際應(yīng)用中,o4-mini因為加入了更多通用數(shù)據(jù),比如長對話和工具使用,所以在多數(shù)日常場景下顯得更“好用”。但遇到真正復雜的邏輯或數(shù)學證明,o3依然更強。理想的方式是搭配使用:一般任務(wù)用mini,需要深度推理時切到Pro。

我們還看到一個趨勢:“自主研究”正在模糊訓練和推理的邊界。模型不僅能回答問題,還能主動設(shè)計實驗、寫代碼、分析結(jié)果,甚至生成自己的訓練數(shù)據(jù),這形成了一個自我提升的循環(huán),也是我們面向2026年的核心方向。

我認為,真正的AGI里程碑,是模型能自主發(fā)現(xiàn)新算法,而不只是完成現(xiàn)有任務(wù)。這需要強化學習能支持“探索未知”,而不僅限于可驗證的任務(wù)。我們內(nèi)部已有實驗讓模型在模擬環(huán)境中做“假設(shè)-實驗”循環(huán),目前能發(fā)現(xiàn)一些簡單數(shù)學定理,雖然還非常初級。但也許某個周一早晨,我們會突然發(fā)現(xiàn)它在周末自己證出了新定理,那一刻,可能就是AGI的開始。

/ 05 /

GPT-5.2或?qū)⒐タ薃I最大缺陷:學會說“我不知道”

主持人:未來6到12個月,什么最讓你興奮?

Lukasz:最讓我興奮的是多模態(tài)推理正在成熟。當AI能同時理解圖像和語言,就會真正賦能機器人和科研這些領(lǐng)域,它不再只是猜測文字,而是開始在腦子里模擬真實世界的運作邏輯。另一個好消息是推理成本正在快速下降,未來甚至能跑在手機上,讓每個人都能擁有真正的個人AI助手。

科學領(lǐng)域可能會最先被顛覆,就像AlphaFold 3和新材料研發(fā)那樣。語言模型不再只分析數(shù)據(jù),而是能主動提出猜想、設(shè)計實驗、解讀結(jié)果。我猜想,到2026年底,我們可能會在頂級期刊上看到第一篇由AI提出核心假設(shè)、人類主要做驗證的論文。那會是個歷史性時刻。

當然挑戰(zhàn)還很多,關(guān)鍵是讓AI學會“意識到自己不懂什么”,能主動提問而不是盲目自信地胡說,這也是目前強化學習重點在解決的問題。希望下次我們聊到GPT-5.2版本時,它能在這一點上帶來驚喜。

主持人:你有什么想對聽眾說的嗎?

Lukasz:AI發(fā)展從未停滯,只是方向在變化。如果你感覺跟不上,別擔心,沒人能完全跟上。最驚人的應(yīng)用往往來自非技術(shù)用戶,他們會用我們沒預料到的方式使用它。

這些問題未來都會得到改善。更深層的問題在于,多模態(tài)等領(lǐng)域會進步,我們也在持續(xù)尋找典型案例。雖然技術(shù)前沿會變化、某些環(huán)節(jié)會更順暢,但關(guān)鍵在于是否會出現(xiàn)全新的挑戰(zhàn)。比如,如果工具從三個齒變成四個齒,人們不需要重新學習整個使用方式。

我對泛化能力感到興奮,認為這是機器學習和智能理解的核心議題。預訓練有所不同,因為它主要依靠擴大模型和數(shù)據(jù)規(guī)模來積累知識,而非直接增強泛化。但真正的理解應(yīng)該能提升泛化能力。

關(guān)鍵問題是:理解本身是否足以實現(xiàn)強大泛化?還是需要更簡單的方法?

我認為首要任務(wù)是讓理解過程變得更簡單,這正是我熱衷的工作方向。當前模型仍存在局限:它們?nèi)狈ξ锢硎澜绲捏w驗,多模態(tài)能力不足,理解機制尚不成熟。

當這些瓶頸突破后,我們將面臨更根本的問題:是否需要全新的架構(gòu),使得模型無需通過海量數(shù)據(jù)學習每一個細節(jié),就能自主掌握核心規(guī)律?

這個問題的最佳探索方式,是先解決所有相關(guān)子問題。就像在濃霧中駕車,你無法預知障礙物的距離。我們正在快速前進,在這個過程中學到很多。核心挑戰(zhàn)在于實現(xiàn)小樣本學習,像孩子那樣舉一反三的能力,這是當前最強大的模型也未能達到的。

在推進理論泛化的同時,另一個關(guān)鍵問題是架構(gòu)創(chuàng)新。除了Transformer,還有許多值得探索的方向。雖然某些小模型在特定測試中表現(xiàn)優(yōu)異,但整體突破仍需觀察。不同研究團隊正在推動基礎(chǔ)科學進展,這些工作可能不常出現(xiàn)在新聞中,但都至關(guān)重要。

計算資源的發(fā)展同樣關(guān)鍵:更強大的GPU使得運行實驗更加可行,促進了研究進步。然而,設(shè)計環(huán)節(jié)仍是主要瓶頸。雖然AI編碼助手能幫助實現(xiàn)想法,但讓模型執(zhí)行需要長期反饋的任務(wù),如長達一周的實驗流程,仍面臨挑戰(zhàn)。這涉及到記憶管理問題,通過壓縮關(guān)鍵信息來突破上下文限制,但該能力需要專門訓練。

另一個重要方向是模型與外部工具的連接。當前模型已能使用網(wǎng)絡(luò)搜索和Python解釋器,但安全地開放系統(tǒng)權(quán)限仍是難題。隨著模型能力擴展至數(shù)學、科學乃至金融領(lǐng)域,人們自然思考:是否存在一個通用模型能處理所有任務(wù)?

從產(chǎn)品視角看,我們需要保持技術(shù)的人本價值。當前模型仍需精細調(diào)優(yōu),但進步速度令人鼓舞。以機器翻譯為例:雖然GPT-4在多數(shù)場景已足夠準確,但涉及重要文件時,人們?nèi)詢A向于人工翻譯,這本質(zhì)是信任問題。某些工作將繼續(xù)由人類完成,但這不意味著社會整體效率不會提升。

在前沿研究方向上,我特別關(guān)注統(tǒng)一跨領(lǐng)域?qū)W習的能力。機器人技術(shù)將是多模態(tài)能力的重要試金石。當模型真正理解物理世界時,家庭機器人可能帶來比聊天機器人更顯著的社會影響。

這些突破將深刻改變我們的世界認知。雖然實現(xiàn)路徑充滿挑戰(zhàn),但我相信我們正在朝著這個方向穩(wěn)步前進。

文/林白

       原文標題 : AI到頂了?OpenAI首席科學家否認,行業(yè)從堆算力轉(zhuǎn)向追求智能密度

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號