訂閱
糾錯(cuò)
加入自媒體

年終盤點(diǎn):誰(shuí)會(huì)成為中國(guó)的"Nano Banana"?

圖片

©有界UnKnown原創(chuàng)

作者丨山茶

編輯|錢江

回顧2025年,AI行業(yè)最重要的變化不是模型,而是Agent真正進(jìn)入工作流。

11月,Nano Banana一經(jīng)發(fā)布就在創(chuàng)作工具賽道撕出一道缺口。它不是簡(jiǎn)單地幫人做設(shè)計(jì),而是重構(gòu)了設(shè)計(jì)師的工作方式,讓AI第一次具備可用的、規(guī);漠a(chǎn)出能力。

可以說(shuō),Nano Banana將所有設(shè)計(jì)相關(guān)的工作方式都改了一遍。同樣,國(guó)內(nèi)AI Agent也以迅雷之勢(shì)滲透進(jìn)各行各業(yè)的辦公場(chǎng)景。寫一個(gè)文檔、做一套PPT、剪輯一個(gè)播客節(jié)目、整理數(shù)據(jù)報(bào)表——越來(lái)越多工作被Agent承接。

可以說(shuō),打工人的工作方式,這一年也被悄然改寫了一遍。

在海外,Microsoft Copilot、Google Gemini、Notion AI等多模態(tài)辦公與創(chuàng)作工具矩陣已成型;國(guó)內(nèi)廠商同樣不甘落后,百度文庫(kù)和網(wǎng)盤聯(lián)合推出的GenFlow3.0、金山的WPS.AI、阿里的千問(wèn)和夸克、字節(jié)的扣子空間等紛紛入局,將寫文檔、做PPT、數(shù)據(jù)處理、圖像生成、自動(dòng)化分發(fā)等整合成一站式多模態(tài)Agent系統(tǒng)。

但問(wèn)題隨之浮現(xiàn)——當(dāng)AI觸手可及、無(wú)處不在時(shí),用戶真正需要的Agent究竟是什么?是完全替代原有流程?還是在工作中主動(dòng)設(shè)計(jì)方案?是自動(dòng)化能力的疊加?還是創(chuàng)造力的擴(kuò)張?

更關(guān)鍵的是,在所有大廠集體下場(chǎng)之后——誰(shuí)會(huì)成為“中國(guó)的Nano Banana”,改造國(guó)人的工作方式?誰(shuí)會(huì)真正定義下一代創(chuàng)作與辦公場(chǎng)景?

帶著這些問(wèn)題,我們挑選了目前國(guó)內(nèi)5家主流大廠系A(chǔ)gent進(jìn)行實(shí)測(cè):百度GenFlow3.0、騰訊ima、金山WPS.AI、扣子空間、夸克。而通過(guò)5款產(chǎn)品測(cè)評(píng)后,我們發(fā)現(xiàn)3次代際分層正在出現(xiàn):

1、有能力生產(chǎn)完整工作流;

2、有能力形成數(shù)據(jù)閉環(huán);

3、有能力持續(xù)積累認(rèn)知與記憶。

但目前僅兩家跨進(jìn)第三階段,一個(gè)是GenFlow3.0,一個(gè)是扣子空間。

Agent的3個(gè)衡量標(biāo)準(zhǔn)

在回答問(wèn)題之前,我們需要先理解:AI到底如何改變了當(dāng)下的生產(chǎn)和創(chuàng)作方式。

過(guò)去,無(wú)論是早期的Office,還是后來(lái)興起的各類SaaS創(chuàng)作平臺(tái)(如Canva等),其結(jié)構(gòu)本質(zhì)都很簡(jiǎn)單——底層是編輯套件,上層是創(chuàng)作模板、素材和協(xié)同工具。

在這一階段,生產(chǎn)力的核心仍然是“人”,創(chuàng)作平臺(tái)更多只是“工具箱”。

ChatGPT問(wèn)世后,微軟率先將AI能力整合進(jìn)Office,開啟了傳統(tǒng)創(chuàng)作工具的第一次轉(zhuǎn)型。但早期Agent只能做文本處理、潤(rùn)色、擴(kuò)寫,內(nèi)容生成等,直到今年多模態(tài)模型成熟,Agent才開始深度介入創(chuàng)作全流程,并推動(dòng)AI從單一工具,走向一站式“智能流水線”。

在這一背景下,Agent架構(gòu)也變得更復(fù)雜;谖覀儗(duì)多款A(yù)gent產(chǎn)品的調(diào)研,目前的一站式Agent大致可以拆分為三個(gè)層級(jí):

上層:交互與創(chuàng)作層——包括對(duì)話場(chǎng)景、智能體創(chuàng)作、協(xié)同編輯,是用戶直接接觸的界面;中層:知識(shí)與記憶層——包括知識(shí)庫(kù)、素材庫(kù)、用戶記憶,是平臺(tái)保持一致性和上下文理解的核心;底層:模型與工具層——大模型、多模態(tài)能力與工具調(diào)用,是整個(gè)系統(tǒng)的基礎(chǔ)動(dòng)力。

這個(gè)三層結(jié)構(gòu),正是支撐未來(lái)AI Agent從輔助走向主導(dǎo)的關(guān)鍵框架。

圖片

在這個(gè)全新的結(jié)構(gòu)下,有3個(gè)Agent的衡量標(biāo)準(zhǔn)非常重要:

首先是多模態(tài)一站式生成能力。AI應(yīng)用正從“一個(gè)工具解決一個(gè)問(wèn)題”的單點(diǎn)時(shí)代,邁向“一個(gè)產(chǎn)品解決多類任務(wù)”的通用時(shí)代。正如Sam Altman近期訪談提到:“通常情況下,大多數(shù)用戶都希望擁有一款單一且高效的AI服務(wù),能夠貫穿其整個(gè)生活軌跡并持續(xù)提供價(jià)值,所以ChatGPT需要不斷增加更多功能。”今年初,Manus爆火也加速了這一趨勢(shì),通用、多功能整合成為行業(yè)共識(shí)。

其次是知識(shí)庫(kù)打通程度。真正讓Agent之間拉開差距、形成壁壘的,不在于大模型,也不在prompt和工具,而在于它能在多大范圍調(diào)動(dòng)數(shù)據(jù)。如果素材、語(yǔ)料、用戶偏好都能系統(tǒng)化沉淀成知識(shí)且跨素材調(diào)用、跨風(fēng)格理解、跨任務(wù)遷移,那每次創(chuàng)作就都能建立在可學(xué)習(xí)、可進(jìn)化的知識(shí)結(jié)構(gòu)上,AI可以像人一樣,越做越好。

最后是人與AI的協(xié)作。這也是Agent與傳統(tǒng)AI工具最大的不同。傳統(tǒng)AI工具由人掌控,創(chuàng)作者意志可以直接貫徹到作品;Agent則是與人共同創(chuàng)作,AI是創(chuàng)作者的搭檔、助手、副駕駛。這也意味著,人類需要以更主動(dòng)、全面的姿態(tài)介入到傳統(tǒng)的“AI黑盒”——人機(jī)協(xié)作編輯更加重要。

因此,我們可以對(duì)一款AI Agent是否具備競(jìng)爭(zhēng)力做出科學(xué)的判斷,主要有以下三個(gè)核心判斷標(biāo)準(zhǔn):

1、是否有足夠豐富的AI創(chuàng)作工具/Agent,能夠支持全模態(tài)、一站式的內(nèi)容生成;

2、是否有強(qiáng)大的知識(shí)庫(kù),能夠沉淀知識(shí)和記憶,并將這些數(shù)據(jù)反哺到創(chuàng)作當(dāng)中;

3、是否有良好的人機(jī)協(xié)作框架,讓人與AI充分協(xié)作。

圍繞這些標(biāo)準(zhǔn),我們對(duì)5家主流Agent進(jìn)行了系統(tǒng)性測(cè)評(píng),并把測(cè)試結(jié)果收斂整理,形成這張總覽圖:

圖片

產(chǎn)品實(shí)測(cè):誰(shuí)是中國(guó)的“Nano Banana”?

當(dāng)AI真正走進(jìn)創(chuàng)作與辦公場(chǎng)景,決定體驗(yàn)差異的第一道分水嶺,并不在于模型參數(shù)或算法能力,而在于——它到底能不能把一件事完整的做完。

衡量這一點(diǎn)的首要指標(biāo),正是平臺(tái)功能的完備程度。下表展示了各平臺(tái)在創(chuàng)作深度與任務(wù)跨度上的支持情況:

圖片

從功能覆蓋度來(lái)看,GenFlow3.0是目前唯一具備全模態(tài)創(chuàng)作能力的平臺(tái),基本覆蓋了主流AI創(chuàng)作平臺(tái)的所有核心能力;夸克WPS位列第二梯隊(duì),能夠支撐起絕大多數(shù)常見的創(chuàng)作與辦公場(chǎng)景。相比之下,扣子空間ima在多模態(tài)能力、文檔工具鏈及專業(yè)功能上仍存在不同程度的缺口,整體產(chǎn)品形態(tài)尚處于持續(xù)完善的爬坡期。

然而,隨著各家AI的任務(wù)覆蓋面逐漸趨同,決定用戶體驗(yàn)差異的第二道分水嶺已然出現(xiàn):核心矛盾不再是AI“能不能生成”,而是人類“能不能隨時(shí)接管和修正”。

在這一維度上,決定協(xié)作深度的關(guān)鍵指標(biāo),正是對(duì)Office體系的兼容程度:

圖片

測(cè)試結(jié)果顯示,各平臺(tái)在這一維度上的表現(xiàn)涇渭分明。除去本身就是辦公軟件的WPS占據(jù)主場(chǎng)優(yōu)勢(shì)外,GenFlow3.0是唯一實(shí)現(xiàn)“原生級(jí)兼容”的AI平臺(tái):它不僅支持直接輸出Office格式,更打通了跨工具、跨設(shè)備的編輯鏈路,真正實(shí)現(xiàn)了從“AI生成”到“落地執(zhí)行”的閉環(huán)。

在交互設(shè)計(jì)上,GenFlow3.0采用了獨(dú)特的“雙模態(tài)編輯”策略:

輕量微調(diào):生成文檔或PPT時(shí),右側(cè)預(yù)覽窗支持對(duì)話式修改,無(wú)論是Excel高亮制定列、生成雷達(dá)圖,還是調(diào)整PPT格式,一句指令即可完成。

深度精修:若需復(fù)雜的排版,一鍵切換至“高級(jí)編輯”模式即可進(jìn)入高度還原Office的專業(yè)界面,操作習(xí)慣與功能體驗(yàn)幾乎無(wú)縫銜接。

相比之下,扣子空間、夸克和ima雖然也配備了預(yù)覽窗口及基礎(chǔ)的圖文編輯功能,但其內(nèi)核仍是“輕量級(jí)編輯器”,缺乏完整的Office工具套件支持,難以應(yīng)對(duì)深度的文檔處理需求。

除生成能力外,人與Agent的協(xié)作順暢度構(gòu)成了產(chǎn)品體驗(yàn)的第三道分水嶺。這其中的核心命題在于:系統(tǒng)是否賦予了人類在執(zhí)行過(guò)程中隨時(shí)介入與調(diào)優(yōu)的權(quán)利。

真實(shí)的創(chuàng)作往往是非線性的——它是一個(gè)邊做邊想、隨著靈感涌現(xiàn)而不斷修正邏輯的動(dòng)態(tài)演進(jìn)過(guò)程。這種“螺旋式上升”的思維模式,才是人類工作的常態(tài)。

遺憾的是,目前大多數(shù)Agent仍沿用機(jī)械的“單向執(zhí)行”邏輯:一旦啟動(dòng)便難以打斷,即便用戶中途發(fā)現(xiàn)方向跑偏,也只能被迫等待其執(zhí)行完畢后再推倒重來(lái),造成了大量算力與時(shí)間的雙重浪費(fèi)。

為了規(guī)避這種“過(guò)程黑盒”帶來(lái)的偏航風(fēng)險(xiǎn),主流產(chǎn)品普遍采取了折中的“前置確認(rèn)”策略。例如GenFlow3.0、扣子空間、ima和夸克等,在生成PPT或長(zhǎng)文檔前,都會(huì)強(qiáng)制先生成提綱與視覺(jué)風(fēng)格,待用戶“簽字畫押”后,才敢進(jìn)入正式生成的環(huán)節(jié)。

當(dāng)然,“前置溝通”并非行業(yè)標(biāo)配。以WPS為代表的部分產(chǎn)品仍沿用傳統(tǒng)的指令邏輯:用戶下達(dá)需求后,AI便進(jìn)入“黑盒執(zhí)行”狀態(tài),直至直接輸出完整結(jié)果。

值得一提的是,GenFlow3.0在這次測(cè)試中展現(xiàn)出了最具差異化的交互形態(tài)。它不僅具備標(biāo)準(zhǔn)的“前置確認(rèn)”流程,更首創(chuàng)了“斷點(diǎn)續(xù)寫”能力——即允許用戶在生成過(guò)程中隨時(shí)按下暫停鍵進(jìn)行干預(yù)。

實(shí)測(cè)中,我們?cè)谧珜懩杲K總結(jié)時(shí)故意遺漏了關(guān)鍵信息,中途暫停并補(bǔ)充指令要求“著重強(qiáng)調(diào)全年業(yè)績(jī)亮點(diǎn)”。GenFlow3.0接收指令后,并未機(jī)械地推倒重來(lái),而是不僅理解了新需求,還能“接得住”之前的進(jìn)度,在原有邏輯流上無(wú)縫繼續(xù)生成。

這種“動(dòng)態(tài)糾偏”能力,標(biāo)志著AI協(xié)作從“指令式”真正邁向了“交互式”。

至此,人機(jī)關(guān)系已發(fā)生質(zhì)變:AI不再是單純的輸出工具,而是進(jìn)入了被管理、被糾偏、深度協(xié)作的“員工形態(tài)”。

但當(dāng)AI需要持續(xù)參與長(zhǎng)鏈條任務(wù),甚至面對(duì)用戶的反復(fù)打斷與修正時(shí),一個(gè)底層技術(shù)命題隨之浮出水面:它憑什么能記得住上下文、接得住新指令、且越干越順手?

這就觸及到了AI的核心記憶中樞——知識(shí)庫(kù)。

如今,知識(shí)庫(kù)雖已成為Agent產(chǎn)品的標(biāo)配,但真正的體驗(yàn)鴻溝在于:它究竟是一個(gè)死板的“倉(cāng)庫(kù)”,還是一套自然流動(dòng)的“知識(shí)引擎”。理想的知識(shí)體系,不應(yīng)成為用戶的額外負(fù)擔(dān),而應(yīng)在閱讀、思考與創(chuàng)作的過(guò)程中無(wú)感沉淀、自然生長(zhǎng)。

因此,評(píng)測(cè)的焦點(diǎn)不再是“有沒(méi)有”,而在“怎么存(知識(shí)獲。”與“怎么用(知識(shí)應(yīng)用)”這兩個(gè)關(guān)鍵閉環(huán)上。對(duì)此,我們對(duì)各家的表現(xiàn)進(jìn)行了全景掃描:

圖片

在“知識(shí)獲取”這一環(huán)節(jié),各家的生態(tài)基因決定了三種截然不同的護(hù)城河:

首先是ima,它的優(yōu)勢(shì)在于對(duì)騰訊生態(tài)內(nèi)容的深度整合。它不僅支持騰訊文檔的一鍵導(dǎo)入,更直接打通了微信公眾號(hào)文章的收藏鏈路。這意味著那些封閉在微信私域內(nèi)的高價(jià)值內(nèi)容,只有ima能將其便捷地轉(zhuǎn)化為可調(diào)用的知識(shí)資產(chǎn)。夸克的優(yōu)勢(shì)則建立在瀏覽器這一高頻入口上,通過(guò)截屏劃詞,夸克可以將碎片化信息的收集門檻降至最低。

相比之下,GenFlow3.0的優(yōu)勢(shì)不僅僅是全,更在于“專”。依靠百度文庫(kù)百度學(xué)術(shù)的龐大數(shù)據(jù)庫(kù),它能獲取到海量別人搜不到的內(nèi)容——比如各行業(yè)專家上傳的專業(yè)文檔、公文模板、考試題庫(kù)以及深度的學(xué)術(shù)論文。這些通常需要付費(fèi)或特定權(quán)限才能看到的獨(dú)家干貨,構(gòu)成了GenFlow3.0最硬核的知識(shí)底座。

此外,GenFlow3.0還構(gòu)建了一套獨(dú)特的“內(nèi)循環(huán)”機(jī)制:所有由AI生成的內(nèi)容,都可以一鍵回流至知識(shí)庫(kù),在畫布中被自由拖拽、重組,并再次參與創(chuàng)作。知識(shí)不再只是被存放,而是在反復(fù)使用中持續(xù)增值,真正實(shí)現(xiàn)了隨取隨用、越用越強(qiáng)。

當(dāng)然,知識(shí)的獲取不是目的,讓獲取的知識(shí)為創(chuàng)作賦能才是目的。

當(dāng)我們將視角轉(zhuǎn)向“知識(shí)應(yīng)用”時(shí),體驗(yàn)的分水嶺隨之顯現(xiàn):

夸克雖然在采集端表現(xiàn)出色,但目前存在明顯的“存儲(chǔ)-應(yīng)用”斷層——其收藏的內(nèi)容多以“書簽”形式存在,無(wú)法在創(chuàng)作中直接調(diào)用,這大大削弱了知識(shí)庫(kù)的實(shí)用價(jià)值。同樣,ima的知識(shí)庫(kù)底座雖然強(qiáng)大,但卻由于工具鏈過(guò)于單薄,能夠調(diào)用知識(shí)庫(kù)的場(chǎng)景寥寥無(wú)幾,導(dǎo)致沉淀的知識(shí)價(jià)值無(wú)法被充分發(fā)揮出來(lái)。

真正的閉環(huán)出現(xiàn)在GenFlow3.0WPS身上。

WPS依托云盤打通了手機(jī)、電腦、平板及微信等全端文件,支持實(shí)時(shí)上傳與調(diào)用,構(gòu)建了“素材存儲(chǔ)-內(nèi)容創(chuàng)作”的標(biāo)準(zhǔn)閉環(huán)。

GenFlow3.0則構(gòu)建了更立體的“四重資料體系”:對(duì)外連接百度文庫(kù)、百度學(xué)術(shù)的專業(yè)知識(shí),對(duì)內(nèi)通過(guò)百度網(wǎng)盤同步各端數(shù)據(jù);同時(shí)還能自動(dòng)備份你的查閱歷史和AI生成內(nèi)容,再加上自定義知識(shí)庫(kù),同樣打通了“收、存、用”的完整閉環(huán)。相比WPS,GenFlow3.0勝在知識(shí)儲(chǔ)備更廣、應(yīng)用場(chǎng)景更寬。

淘汰賽正式開始!

很多人說(shuō)2025年是AI應(yīng)用的元年,到了年底,AI應(yīng)用卻已經(jīng)邁入了下一階段。

一方面,單一的AI工具正在加速向一站式Agent創(chuàng)作平臺(tái)演進(jìn)。另一方面,行業(yè)格局也在重排——大廠正迅速取代創(chuàng)業(yè)公司,成為這場(chǎng)競(jìng)爭(zhēng)的真正主角。

這兩大變化相互疊加,清晰地勾勒出AI Agent的下一階段走向。

在此之前,Agent靠差異化生存——找到足夠細(xì)小的賽道就能立足;但在這之后,百川匯流,Agent正式進(jìn)入正面戰(zhàn)爭(zhēng)。如果說(shuō)過(guò)去是“晉級(jí)賽”,那現(xiàn)在接下來(lái)算是進(jìn)入“淘汰賽”了。

淘汰賽的競(jìng)爭(zhēng)是全方位的,這種全方位,不僅包含圖片、視頻、音頻、文字在內(nèi)的多模態(tài)模型;也包括流量和入口在內(nèi)的生態(tài)協(xié)同。這也是為什么大廠在這場(chǎng)游戲中逐漸占據(jù)優(yōu)勢(shì)的一個(gè)重要原因。

但問(wèn)題也恰恰出現(xiàn)在這里,當(dāng)牌桌上只剩下大廠,大家同樣資源雄厚時(shí),真正可以拉開差距的地方,顯然還是產(chǎn)品。

那么,AI時(shí)代Agent的終極形態(tài)應(yīng)該是什么樣?我不知道,但我可以確定的是:Agent的終極目標(biāo),絕不是在一套固定流程里替用戶完成幾項(xiàng)固定任務(wù)。

它應(yīng)該成為一個(gè)“伙伴”,而不是“工具”;它也不應(yīng)該只服務(wù)于具體的工作場(chǎng)景,而是貫穿你生活與創(chuàng)作始終。

正如李飛飛所說(shuō),AI的最終使命,是成為人類應(yīng)對(duì)重大挑戰(zhàn)的得力伙伴,讓人類潛能得到更大的釋放,創(chuàng)造一個(gè)更美好的未來(lái)。

然而,這正是當(dāng)下許多產(chǎn)品面臨的最大挑戰(zhàn)——許多產(chǎn)品依然停留在流程化思維中,把創(chuàng)作理解為可預(yù)設(shè)的步驟。但顯然,如果AI只是按照流程行事,那它終究又會(huì)回到傳統(tǒng)SaaS的老路,失去應(yīng)有的創(chuàng)造力與可能性。

因此,未來(lái)Agent的核心賽點(diǎn)不再取決于單次的“生成驚艷度”,而在于它能否真正滲透進(jìn)復(fù)雜的工作現(xiàn)場(chǎng),并長(zhǎng)期駐扎下來(lái)。

對(duì)絕大多數(shù)人而言,工作的本質(zhì)并非對(duì)話框里的閑聊,而是對(duì)文檔、PPT與表格的反復(fù)打磨。如果AI止步于一次性交付,無(wú)法進(jìn)入這些深度編輯場(chǎng)景,那它終究只能是游離于核心工作流之外。

所以,我們認(rèn)為真正的下一代Agent,必須重構(gòu)三大能力支柱:

全域收斂:能一站式調(diào)度圖文、數(shù)據(jù)與演示,將零散指令收斂為完整的工作流;

記憶復(fù)利:能沉淀你的偏好與歷史成果,讓每一次創(chuàng)作都站在過(guò)去積累的肩膀之上;

深度協(xié)同:必須允許人類隨時(shí)介入、打斷與修正,真正實(shí)現(xiàn)從“起草”到“交付”的閉環(huán)。

當(dāng)Agent具備了這些素質(zhì),競(jìng)爭(zhēng)便超越了模型接口的參數(shù)之爭(zhēng),轉(zhuǎn)變?yōu)槿祟悊T工“長(zhǎng)期協(xié)作伙伴”的生態(tài)位之爭(zhēng)。

在辦公和創(chuàng)作場(chǎng)景下,真正的中國(guó)版“Nano Banana”,不會(huì)誕生在某個(gè)炫技式的Demo中,而只會(huì)誕生在——那個(gè)你每天都離不開的,多模態(tài)創(chuàng)作的“超級(jí)員工”身上。

* 文中配圖來(lái)源于網(wǎng)絡(luò)

       原文標(biāo)題 : 年終盤點(diǎn):誰(shuí)會(huì)成為中國(guó)的"Nano Banana"?

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)