©有界UnKnown原創(chuàng)

作者丨山茶

編輯｜錢江

回顧2025年，AI行業(yè)最重要的變化不是模型，而是Agent真正進(jìn)入工作流。

11月，Nano Banana一經(jīng)發(fā)布就在創(chuàng)作工具賽道撕出一道缺口。它不是簡(jiǎn)單地幫人做設(shè)計(jì)，而是重構(gòu)了設(shè)計(jì)師的工作方式，讓AI第一次具備可用的、規(guī)�；漠a(chǎn)出能力。

可以說(shuō)，Nano Banana將所有設(shè)計(jì)相關(guān)的工作方式都改了一遍。同樣，國(guó)內(nèi)AI Agent也以迅雷之勢(shì)滲透進(jìn)各行各業(yè)的辦公場(chǎng)景。寫一個(gè)文檔、做一套PPT、剪輯一個(gè)播客節(jié)目、整理數(shù)據(jù)報(bào)表——越來(lái)越多工作被Agent承接。

可以說(shuō)，打工人的工作方式，這一年也被悄然改寫了一遍。

在海外，Microsoft Copilot、Google Gemini、Notion AI等多模態(tài)辦公與創(chuàng)作工具矩陣已成型；國(guó)內(nèi)廠商同樣不甘落后，百度文庫(kù)和網(wǎng)盤聯(lián)合推出的GenFlow3.0、金山的WPS.AI、阿里的千問(wèn)和夸克、字節(jié)的扣子空間等紛紛入局，將寫文檔、做PPT、數(shù)據(jù)處理、圖像生成、自動(dòng)化分發(fā)等整合成一站式多模態(tài)Agent系統(tǒng)。

但問(wèn)題隨之浮現(xiàn)——當(dāng)AI觸手可及、無(wú)處不在時(shí)，用戶真正需要的Agent究竟是什么？是完全替代原有流程？還是在工作中主動(dòng)設(shè)計(jì)方案？是自動(dòng)化能力的疊加？還是創(chuàng)造力的擴(kuò)張？

更關(guān)鍵的是，在所有大廠集體下場(chǎng)之后——誰(shuí)會(huì)成為“中國(guó)的Nano Banana”，改造國(guó)人的工作方式？誰(shuí)會(huì)真正定義下一代創(chuàng)作與辦公場(chǎng)景？

帶著這些問(wèn)題，我們挑選了目前國(guó)內(nèi)5家主流大廠系A(chǔ)gent進(jìn)行實(shí)測(cè)：百度GenFlow3.0、騰訊ima、金山WPS.AI、扣子空間、夸克。而通過(guò)5款產(chǎn)品測(cè)評(píng)后，我們發(fā)現(xiàn)3次代際分層正在出現(xiàn)：

1、有能力生產(chǎn)完整工作流；

2、有能力形成數(shù)據(jù)閉環(huán)；

3、有能力持續(xù)積累認(rèn)知與記憶。

但目前僅兩家跨進(jìn)第三階段，一個(gè)是GenFlow3.0，一個(gè)是扣子空間。

Agent的3個(gè)衡量標(biāo)準(zhǔn)

在回答問(wèn)題之前，我們需要先理解：AI到底如何改變了當(dāng)下的生產(chǎn)和創(chuàng)作方式。

過(guò)去，無(wú)論是早期的Office，還是后來(lái)興起的各類SaaS創(chuàng)作平臺(tái)（如Canva等），其結(jié)構(gòu)本質(zhì)都很簡(jiǎn)單——底層是編輯套件，上層是創(chuàng)作模板、素材和協(xié)同工具。

在這一階段，生產(chǎn)力的核心仍然是“人”，創(chuàng)作平臺(tái)更多只是“工具箱”。

ChatGPT問(wèn)世后，微軟率先將AI能力整合進(jìn)Office，開啟了傳統(tǒng)創(chuàng)作工具的第一次轉(zhuǎn)型。但早期Agent只能做文本處理、潤(rùn)色、擴(kuò)寫，內(nèi)容生成等，直到今年多模態(tài)模型成熟，Agent才開始深度介入創(chuàng)作全流程，并推動(dòng)AI從單一工具，走向一站式“智能流水線”。

在這一背景下，Agent架構(gòu)也變得更復(fù)雜�；谖覀儗�(duì)多款A(yù)gent產(chǎn)品的調(diào)研，目前的一站式Agent大致可以拆分為三個(gè)層級(jí)：

上層：交互與創(chuàng)作層——包括對(duì)話場(chǎng)景、智能體創(chuàng)作、協(xié)同編輯，是用戶直接接觸的界面；中層：知識(shí)與記憶層——包括知識(shí)庫(kù)、素材庫(kù)、用戶記憶，是平臺(tái)保持一致性和上下文理解的核心；底層：模型與工具層——大模型、多模態(tài)能力與工具調(diào)用，是整個(gè)系統(tǒng)的基礎(chǔ)動(dòng)力。

這個(gè)三層結(jié)構(gòu)，正是支撐未來(lái)AI Agent從輔助走向主導(dǎo)的關(guān)鍵框架。

在這個(gè)全新的結(jié)構(gòu)下，有3個(gè)Agent的衡量標(biāo)準(zhǔn)非常重要：

首先是多模態(tài)一站式生成能力。AI應(yīng)用正從“一個(gè)工具解決一個(gè)問(wèn)題”的單點(diǎn)時(shí)代，邁向“一個(gè)產(chǎn)品解決多類任務(wù)”的通用時(shí)代。正如Sam Altman近期訪談提到：“通常情況下，大多數(shù)用戶都希望擁有一款單一且高效的AI服務(wù)，能夠貫穿其整個(gè)生活軌跡并持續(xù)提供價(jià)值，所以ChatGPT需要不斷增加更多功能。”今年初，Manus爆火也加速了這一趨勢(shì)，通用、多功能整合成為行業(yè)共識(shí)。

其次是知識(shí)庫(kù)打通程度。真正讓Agent之間拉開差距、形成壁壘的，不在于大模型，也不在prompt和工具，而在于它能在多大范圍調(diào)動(dòng)數(shù)據(jù)。如果素材、語(yǔ)料、用戶偏好都能系統(tǒng)化沉淀成知識(shí)且跨素材調(diào)用、跨風(fēng)格理解、跨任務(wù)遷移，那每次創(chuàng)作就都能建立在可學(xué)習(xí)、可進(jìn)化的知識(shí)結(jié)構(gòu)上，AI可以像人一樣，越做越好。

最后是人與AI的協(xié)作。這也是Agent與傳統(tǒng)AI工具最大的不同。傳統(tǒng)AI工具由人掌控，創(chuàng)作者意志可以直接貫徹到作品；Agent則是與人共同創(chuàng)作，AI是創(chuàng)作者的搭檔、助手、副駕駛。這也意味著，人類需要以更主動(dòng)、全面的姿態(tài)介入到傳統(tǒng)的“AI黑盒”——人機(jī)協(xié)作編輯更加重要。

因此，我們可以對(duì)一款AI Agent是否具備競(jìng)爭(zhēng)力做出科學(xué)的判斷，主要有以下三個(gè)核心判斷標(biāo)準(zhǔn)：

1、是否有足夠豐富的AI創(chuàng)作工具/Agent，能夠支持全模態(tài)、一站式的內(nèi)容生成；

2、是否有強(qiáng)大的知識(shí)庫(kù)，能夠沉淀知識(shí)和記憶，并將這些數(shù)據(jù)反哺到創(chuàng)作當(dāng)中；

3、是否有良好的人機(jī)協(xié)作框架，讓人與AI充分協(xié)作。

圍繞這些標(biāo)準(zhǔn)，我們對(duì)5家主流Agent進(jìn)行了系統(tǒng)性測(cè)評(píng)，并把測(cè)試結(jié)果收斂整理，形成這張總覽圖：

產(chǎn)品實(shí)測(cè)：誰(shuí)是中國(guó)的“Nano Banana”?

當(dāng)AI真正走進(jìn)創(chuàng)作與辦公場(chǎng)景，決定體驗(yàn)差異的第一道分水嶺，并不在于模型參數(shù)或算法能力，而在于——它到底能不能把一件事完整的做完。

衡量這一點(diǎn)的首要指標(biāo)，正是平臺(tái)功能的完備程度。下表展示了各平臺(tái)在創(chuàng)作深度與任務(wù)跨度上的支持情況：

從功能覆蓋度來(lái)看，GenFlow3.0是目前唯一具備全模態(tài)創(chuàng)作能力的平臺(tái)，基本覆蓋了主流AI創(chuàng)作平臺(tái)的所有核心能力；夸克與WPS位列第二梯隊(duì)，能夠支撐起絕大多數(shù)常見的創(chuàng)作與辦公場(chǎng)景。相比之下，扣子空間與ima在多模態(tài)能力、文檔工具鏈及專業(yè)功能上仍存在不同程度的缺口，整體產(chǎn)品形態(tài)尚處于持續(xù)完善的爬坡期。

然而，隨著各家AI的任務(wù)覆蓋面逐漸趨同，決定用戶體驗(yàn)差異的第二道分水嶺已然出現(xiàn)：核心矛盾不再是AI“能不能生成”，而是人類“能不能隨時(shí)接管和修正”。

在這一維度上，決定協(xié)作深度的關(guān)鍵指標(biāo)，正是對(duì)Office體系的兼容程度：

測(cè)試結(jié)果顯示，各平臺(tái)在這一維度上的表現(xiàn)涇渭分明。除去本身就是辦公軟件的WPS占據(jù)主場(chǎng)優(yōu)勢(shì)外，GenFlow3.0是唯一實(shí)現(xiàn)“原生級(jí)兼容”的AI平臺(tái)：它不僅支持直接輸出Office格式，更打通了跨工具、跨設(shè)備的編輯鏈路，真正實(shí)現(xiàn)了從“AI生成”到“落地執(zhí)行”的閉環(huán)。

在交互設(shè)計(jì)上，GenFlow3.0采用了獨(dú)特的“雙模態(tài)編輯”策略：

輕量微調(diào)：生成文檔或PPT時(shí)，右側(cè)預(yù)覽窗支持對(duì)話式修改，無(wú)論是Excel高亮制定列、生成雷達(dá)圖，還是調(diào)整PPT格式，一句指令即可完成。

深度精修：若需復(fù)雜的排版，一鍵切換至“高級(jí)編輯”模式即可進(jìn)入高度還原Office的專業(yè)界面，操作習(xí)慣與功能體驗(yàn)幾乎無(wú)縫銜接。

相比之下，扣子空間、夸克和ima雖然也配備了預(yù)覽窗口及基礎(chǔ)的圖文編輯功能，但其內(nèi)核仍是“輕量級(jí)編輯器”，缺乏完整的Office工具套件支持，難以應(yīng)對(duì)深度的文檔處理需求。

除生成能力外，人與Agent的協(xié)作順暢度構(gòu)成了產(chǎn)品體驗(yàn)的第三道分水嶺。這其中的核心命題在于：系統(tǒng)是否賦予了人類在執(zhí)行過(guò)程中隨時(shí)介入與調(diào)優(yōu)的權(quán)利。

真實(shí)的創(chuàng)作往往是非線性的——它是一個(gè)邊做邊想、隨著靈感涌現(xiàn)而不斷修正邏輯的動(dòng)態(tài)演進(jìn)過(guò)程。這種“螺旋式上升”的思維模式，才是人類工作的常態(tài)。

遺憾的是，目前大多數(shù)Agent仍沿用機(jī)械的“單向執(zhí)行”邏輯：一旦啟動(dòng)便難以打斷，即便用戶中途發(fā)現(xiàn)方向跑偏，也只能被迫等待其執(zhí)行完畢后再推倒重來(lái)，造成了大量算力與時(shí)間的雙重浪費(fèi)。

為了規(guī)避這種“過(guò)程黑盒”帶來(lái)的偏航風(fēng)險(xiǎn)，主流產(chǎn)品普遍采取了折中的“前置確認(rèn)”策略。例如GenFlow3.0、扣子空間、ima和夸克等，在生成PPT或長(zhǎng)文檔前，都會(huì)強(qiáng)制先生成提綱與視覺(jué)風(fēng)格，待用戶“簽字畫押”后，才敢進(jìn)入正式生成的環(huán)節(jié)。

當(dāng)然，“前置溝通”并非行業(yè)標(biāo)配。以WPS為代表的部分產(chǎn)品仍沿用傳統(tǒng)的指令邏輯：用戶下達(dá)需求后，AI便進(jìn)入“黑盒執(zhí)行”狀態(tài)，直至直接輸出完整結(jié)果。

值得一提的是，GenFlow3.0在這次測(cè)試中展現(xiàn)出了最具差異化的交互形態(tài)。它不僅具備標(biāo)準(zhǔn)的“前置確認(rèn)”流程，更首創(chuàng)了“斷點(diǎn)續(xù)寫”能力——即允許用戶在生成過(guò)程中隨時(shí)按下暫停鍵進(jìn)行干預(yù)。

實(shí)測(cè)中，我們?cè)谧珜懩杲K總結(jié)時(shí)故意遺漏了關(guān)鍵信息，中途暫停并補(bǔ)充指令要求“著重強(qiáng)調(diào)全年業(yè)績(jī)亮點(diǎn)”。GenFlow3.0接收指令后，并未機(jī)械地推倒重來(lái)，而是不僅理解了新需求，還能“接得住”之前的進(jìn)度，在原有邏輯流上無(wú)縫繼續(xù)生成。

這種“動(dòng)態(tài)糾偏”能力，標(biāo)志著AI協(xié)作從“指令式”真正邁向了“交互式”。

至此，人機(jī)關(guān)系已發(fā)生質(zhì)變：AI不再是單純的輸出工具，而是進(jìn)入了被管理、被糾偏、深度協(xié)作的“員工形態(tài)”。

但當(dāng)AI需要持續(xù)參與長(zhǎng)鏈條任務(wù)，甚至面對(duì)用戶的反復(fù)打斷與修正時(shí)，一個(gè)底層技術(shù)命題隨之浮出水面：它憑什么能記得住上下文、接得住新指令、且越干越順手？

這就觸及到了AI的核心記憶中樞——知識(shí)庫(kù)。

如今，知識(shí)庫(kù)雖已成為Agent產(chǎn)品的標(biāo)配，但真正的體驗(yàn)鴻溝在于：它究竟是一個(gè)死板的“倉(cāng)庫(kù)”，還是一套自然流動(dòng)的“知識(shí)引擎”。理想的知識(shí)體系，不應(yīng)成為用戶的額外負(fù)擔(dān)，而應(yīng)在閱讀、思考與創(chuàng)作的過(guò)程中無(wú)感沉淀、自然生長(zhǎng)。

因此，評(píng)測(cè)的焦點(diǎn)不再是“有沒(méi)有”，而在“怎么存（知識(shí)獲�。�”與“怎么用（知識(shí)應(yīng)用）”這兩個(gè)關(guān)鍵閉環(huán)上。對(duì)此，我們對(duì)各家的表現(xiàn)進(jìn)行了全景掃描：

在“知識(shí)獲取”這一環(huán)節(jié)，各家的生態(tài)基因決定了三種截然不同的護(hù)城河：

首先是ima，它的優(yōu)勢(shì)在于對(duì)騰訊生態(tài)內(nèi)容的深度整合。它不僅支持騰訊文檔的一鍵導(dǎo)入，更直接打通了微信公眾號(hào)文章的收藏鏈路。這意味著那些封閉在微信私域內(nèi)的高價(jià)值內(nèi)容，只有ima能將其便捷地轉(zhuǎn)化為可調(diào)用的知識(shí)資產(chǎn)。夸克的優(yōu)勢(shì)則建立在瀏覽器這一高頻入口上，通過(guò)截屏與劃詞，夸克可以將碎片化信息的收集門檻降至最低。

相比之下，GenFlow3.0的優(yōu)勢(shì)不僅僅是全，更在于“專”。依靠百度文庫(kù)和百度學(xué)術(shù)的龐大數(shù)據(jù)庫(kù)，它能獲取到海量別人搜不到的內(nèi)容——比如各行業(yè)專家上傳的專業(yè)文檔、公文模板、考試題庫(kù)以及深度的學(xué)術(shù)論文。這些通常需要付費(fèi)或特定權(quán)限才能看到的獨(dú)家干貨，構(gòu)成了GenFlow3.0最硬核的知識(shí)底座。

此外，GenFlow3.0還構(gòu)建了一套獨(dú)特的“內(nèi)循環(huán)”機(jī)制：所有由AI生成的內(nèi)容，都可以一鍵回流至知識(shí)庫(kù)，在畫布中被自由拖拽、重組，并再次參與創(chuàng)作。知識(shí)不再只是被存放，而是在反復(fù)使用中持續(xù)增值，真正實(shí)現(xiàn)了隨取隨用、越用越強(qiáng)。

當(dāng)然，知識(shí)的獲取不是目的，讓獲取的知識(shí)為創(chuàng)作賦能才是目的。

當(dāng)我們將視角轉(zhuǎn)向“知識(shí)應(yīng)用”時(shí)，體驗(yàn)的分水嶺隨之顯現(xiàn)：

夸克雖然在采集端表現(xiàn)出色，但目前存在明顯的“存儲(chǔ)-應(yīng)用”斷層——其收藏的內(nèi)容多以“書簽”形式存在，無(wú)法在創(chuàng)作中直接調(diào)用，這大大削弱了知識(shí)庫(kù)的實(shí)用價(jià)值。同樣，ima的知識(shí)庫(kù)底座雖然強(qiáng)大，但卻由于工具鏈過(guò)于單薄，能夠調(diào)用知識(shí)庫(kù)的場(chǎng)景寥寥無(wú)幾，導(dǎo)致沉淀的知識(shí)價(jià)值無(wú)法被充分發(fā)揮出來(lái)。

真正的閉環(huán)出現(xiàn)在GenFlow3.0和WPS身上。

WPS依托云盤打通了手機(jī)、電腦、平板及微信等全端文件，支持實(shí)時(shí)上傳與調(diào)用，構(gòu)建了“素材存儲(chǔ)-內(nèi)容創(chuàng)作”的標(biāo)準(zhǔn)閉環(huán)。

GenFlow3.0則構(gòu)建了更立體的“四重資料體系”：對(duì)外連接百度文庫(kù)、百度學(xué)術(shù)的專業(yè)知識(shí)，對(duì)內(nèi)通過(guò)百度網(wǎng)盤同步各端數(shù)據(jù)；同時(shí)還能自動(dòng)備份你的查閱歷史和AI生成內(nèi)容，再加上自定義知識(shí)庫(kù)，同樣打通了“收、存、用”的完整閉環(huán)。相比WPS，GenFlow3.0勝在知識(shí)儲(chǔ)備更廣、應(yīng)用場(chǎng)景更寬。

淘汰賽正式開始！

很多人說(shuō)2025年是AI應(yīng)用的元年，到了年底，AI應(yīng)用卻已經(jīng)邁入了下一階段。

一方面，單一的AI工具正在加速向一站式Agent創(chuàng)作平臺(tái)演進(jìn)。另一方面，行業(yè)格局也在重排——大廠正迅速取代創(chuàng)業(yè)公司，成為這場(chǎng)競(jìng)爭(zhēng)的真正主角。

這兩大變化相互疊加，清晰地勾勒出AI Agent的下一階段走向。

在此之前，Agent靠差異化生存——找到足夠細(xì)小的賽道就能立足；但在這之后，百川匯流，Agent正式進(jìn)入正面戰(zhàn)爭(zhēng)。如果說(shuō)過(guò)去是“晉級(jí)賽”，那現(xiàn)在接下來(lái)算是進(jìn)入“淘汰賽”了。

淘汰賽的競(jìng)爭(zhēng)是全方位的，這種全方位，不僅包含圖片、視頻、音頻、文字在內(nèi)的多模態(tài)模型；也包括流量和入口在內(nèi)的生態(tài)協(xié)同。這也是為什么大廠在這場(chǎng)游戲中逐漸占據(jù)優(yōu)勢(shì)的一個(gè)重要原因。

但問(wèn)題也恰恰出現(xiàn)在這里，當(dāng)牌桌上只剩下大廠，大家同樣資源雄厚時(shí)，真正可以拉開差距的地方，顯然還是產(chǎn)品。

那么，AI時(shí)代Agent的終極形態(tài)應(yīng)該是什么樣？我不知道，但我可以確定的是：Agent的終極目標(biāo)，絕不是在一套固定流程里替用戶完成幾項(xiàng)固定任務(wù)。

它應(yīng)該成為一個(gè)“伙伴”，而不是“工具”；它也不應(yīng)該只服務(wù)于具體的工作場(chǎng)景，而是貫穿你生活與創(chuàng)作始終。

正如李飛飛所說(shuō)，AI的最終使命，是成為人類應(yīng)對(duì)重大挑戰(zhàn)的得力伙伴，讓人類潛能得到更大的釋放，創(chuàng)造一個(gè)更美好的未來(lái)。

然而，這正是當(dāng)下許多產(chǎn)品面臨的最大挑戰(zhàn)——許多產(chǎn)品依然停留在流程化思維中，把創(chuàng)作理解為可預(yù)設(shè)的步驟。但顯然，如果AI只是按照流程行事，那它終究又會(huì)回到傳統(tǒng)SaaS的老路，失去應(yīng)有的創(chuàng)造力與可能性。

因此，未來(lái)Agent的核心賽點(diǎn)不再取決于單次的“生成驚艷度”，而在于它能否真正滲透進(jìn)復(fù)雜的工作現(xiàn)場(chǎng)，并長(zhǎng)期駐扎下來(lái)。

對(duì)絕大多數(shù)人而言，工作的本質(zhì)并非對(duì)話框里的閑聊，而是對(duì)文檔、PPT與表格的反復(fù)打磨。如果AI止步于一次性交付，無(wú)法進(jìn)入這些深度編輯場(chǎng)景，那它終究只能是游離于核心工作流之外。

所以，我們認(rèn)為真正的下一代Agent，必須重構(gòu)三大能力支柱：

全域收斂：能一站式調(diào)度圖文、數(shù)據(jù)與演示，將零散指令收斂為完整的工作流；

記憶復(fù)利：能沉淀你的偏好與歷史成果，讓每一次創(chuàng)作都站在過(guò)去積累的肩膀之上；

深度協(xié)同：必須允許人類隨時(shí)介入、打斷與修正，真正實(shí)現(xiàn)從“起草”到“交付”的閉環(huán)。

當(dāng)Agent具備了這些素質(zhì)，競(jìng)爭(zhēng)便超越了模型接口的參數(shù)之爭(zhēng)，轉(zhuǎn)變?yōu)槿祟悊T工“長(zhǎng)期協(xié)作伙伴”的生態(tài)位之爭(zhēng)。

在辦公和創(chuàng)作場(chǎng)景下，真正的中國(guó)版“Nano Banana”，不會(huì)誕生在某個(gè)炫技式的Demo中，而只會(huì)誕生在——那個(gè)你每天都離不開的，多模態(tài)創(chuàng)作的“超級(jí)員工”身上。

* 文中配圖來(lái)源于網(wǎng)絡(luò)

原文標(biāo)題 : 年終盤點(diǎn)：誰(shuí)會(huì)成為中國(guó)的"Nano Banana"？