乱码乱a∨中文字幕,在线免费激情视频,亚洲欧美久久夜夜潮,国产在线网址

  1. <sub id="hjl7n"></sub>

    1. <sub id="hjl7n"></sub>

      <legend id="hjl7n"></legend>

      當(dāng)前位置:首頁(yè) >  科技 >  IT業(yè)界 >  正文

      昆侖萬(wàn)維「Matrix-Game 2.0」發(fā)布,國(guó)產(chǎn)開(kāi)源的Genie 3來(lái)啦!

       2025-08-12 15:20  來(lái)源: 互聯(lián)網(wǎng)   我來(lái)投稿 撤稿糾錯(cuò)

        阿里云優(yōu)惠券 先領(lǐng)券再下單

      8月11日,昆侖萬(wàn)維SkyWork AI技術(shù)發(fā)布周正式啟動(dòng)。8月11日至8月15日,我們每天發(fā)布一款新模型,連續(xù)五天,覆蓋多模態(tài)AI核心場(chǎng)景的前沿模型。

      DeepMind在一周前為社區(qū)帶來(lái)了交互式世界模型的重大更新Genie 3,實(shí)現(xiàn)了交互式實(shí)時(shí)長(zhǎng)序列生成,讓世界模型備受關(guān)注,然而Genie 3并沒(méi)有開(kāi)源,讓大家只能猜測(cè)這樣的世界模型該如何實(shí)現(xiàn)。

      8月12日,昆侖萬(wàn)維為大家?guī)?lái)了自研世界模型Matrix系列中Matrix-Game交互世界模型的升級(jí)版本——「Matrix-Game 2.0」,同樣實(shí)現(xiàn)了通用場(chǎng)景下的交互式實(shí)時(shí)長(zhǎng)序列生成的世界模型。并且為促進(jìn)交互式世界模型領(lǐng)域的發(fā)展,「Matrix-Game 2.0」全面開(kāi)源,是業(yè)內(nèi)首個(gè)在通用場(chǎng)景上實(shí)現(xiàn)實(shí)時(shí)長(zhǎng)序列交互式生成的世界模型開(kāi)源方案。

      「Matrix-Game 2.0」在實(shí)時(shí)生成和長(zhǎng)序列能力上實(shí)現(xiàn)了質(zhì)的飛躍。相較于上一版本,2.0版本更加側(cè)重低延遲、高幀率的長(zhǎng)序列交互性能,能夠以25 FPS的速度,在多種復(fù)雜場(chǎng)景中穩(wěn)定生成連續(xù)視頻內(nèi)容,且生成時(shí)長(zhǎng)可擴(kuò)展至分鐘級(jí),大幅提升了連貫性與實(shí)用性。

      在推理速度顯著提升的同時(shí),模型依然保持了對(duì)物理規(guī)律與場(chǎng)景語(yǔ)義的精準(zhǔn)理解,支持用戶通過(guò)簡(jiǎn)單指令,自由探索、操控并實(shí)時(shí)構(gòu)建結(jié)構(gòu)清晰、細(xì)節(jié)豐富、規(guī)則合理的虛擬環(huán)境。

      這使得「Matrix-Game 2.0」不僅打破了內(nèi)容生成與交互之間的壁壘,也為虛擬人、游戲引擎、具身智能等前沿應(yīng)用打開(kāi)了新的可能,為構(gòu)建通用虛擬世界提供了強(qiáng)有力的技術(shù)基座。

      01 模型架構(gòu)

      「Matrix-Game 2.0」提出了一種全新的視覺(jué)驅(qū)動(dòng)交互世界建模方案,徹底擺脫了傳統(tǒng)依賴語(yǔ)言提示的生成模式,專注于通過(guò)視覺(jué)理解和物理規(guī)律學(xué)習(xí)來(lái)構(gòu)建虛擬世界。

      與主流依賴文本語(yǔ)義的模型不同,「Matrix-Game 2.0」避免了語(yǔ)言先驗(yàn)可能帶來(lái)的語(yǔ)義偏置,轉(zhuǎn)而關(guān)注圖像中的空間結(jié)構(gòu)和動(dòng)態(tài)模式,從而更真實(shí)、更準(zhǔn)確地理解和生成虛擬世界。

      1. 基礎(chǔ)模型架構(gòu)

      「Matrix-Game 2.0」采用圖像為中心的感知與生成機(jī)制:

      3D Causal VAE 壓縮結(jié)構(gòu):通過(guò)三維因果變分自編碼器實(shí)現(xiàn)空間和時(shí)間維度的高效壓縮,提升建模效率與生成能力。

      多模態(tài)擴(kuò)散 Transformer (DiT):結(jié)合視覺(jué)編碼器與用戶動(dòng)作指令,逐幀生成物理合理的動(dòng)態(tài)視覺(jué)序列,并通過(guò) 3D VAE 解碼成完整視頻。

      用戶交互控制:借鑒 GameFactory 與 Genie系列的控制設(shè)計(jì)框架,引入“動(dòng)作模塊”,實(shí)現(xiàn)用戶與生成世界之間的交互操作。

      2. 實(shí)時(shí)自回歸視頻生成

      「Matrix-Game 2.0」基于Self-Forcing訓(xùn)練策略,通過(guò)創(chuàng)新的自回歸擴(kuò)散生成機(jī)制克服了傳統(tǒng)雙向擴(kuò)散模型的延遲和誤差累積問(wèn)題:

      1. 因果擴(kuò)散模型訓(xùn)練:將雙向擴(kuò)散模型蒸餾為因果模型,使用基礎(chǔ)模型初始化生成器,并構(gòu)建小規(guī)模數(shù)據(jù)集,通過(guò)近似ODE軌跡進(jìn)行訓(xùn)練,穩(wěn)定自回歸擴(kuò)散過(guò)程。通過(guò)歷史幀條件生成當(dāng)前幀,減少因依賴未來(lái)幀而導(dǎo)致的時(shí)序延遲。

      2. 分布匹配蒸餾(DMD):通過(guò)最小化與基礎(chǔ)模型之間的分布差異,引導(dǎo)學(xué)生模型學(xué)習(xí)生成高質(zhì)量視頻幀,對(duì)齊訓(xùn)練與推理階段的分布,顯著緩解誤差積累問(wèn)題。

      3. KV 緩存機(jī)制:引入鍵值緩存機(jī)制(KV-Cache),顯著提升長(zhǎng)視頻生成的效率和一致性。該機(jī)制通過(guò)維護(hù)固定長(zhǎng)度的注意力上下文,實(shí)現(xiàn)無(wú)縫滾動(dòng)生成,支持無(wú)限時(shí)長(zhǎng)的視頻輸出,解決了訓(xùn)練與推理場(chǎng)景下上下文不一致的問(wèn)題。基于此實(shí)現(xiàn)長(zhǎng)時(shí)視頻的高效生成而無(wú)需重復(fù)計(jì)算,單 GPU 上可實(shí)現(xiàn) 25 FPS 實(shí)時(shí)生成。

      「Matrix-Game 2.0」能夠生成跨場(chǎng)景的長(zhǎng)時(shí)視頻,保持動(dòng)作和視覺(jué)的時(shí)序一致性,并且支持用戶在交互過(guò)程中的連續(xù)指令輸入,使其成為游戲內(nèi)容創(chuàng)作、虛擬現(xiàn)實(shí)和智能交互系統(tǒng)的理想解決方案。這一方案將可控性、靈活性與效率相結(jié)合,推動(dòng)高質(zhì)量視頻生成技術(shù)邁向更廣泛的實(shí)時(shí)應(yīng)用場(chǎng)景。

      例如在一些無(wú)約束、不可控的真實(shí)場(chǎng)景,「Matrix-Game 2.0」可根據(jù)用戶輸入的任意控制指令(如鍵盤(pán)的 W/A/S/D 方向鍵、鼠標(biāo)用于視角移動(dòng)),生成對(duì)應(yīng)的交互世界視頻,支持角色的前后左右移動(dòng)以及視角變換等動(dòng)態(tài)行為。

      在GTA游戲場(chǎng)景和Minecraft場(chǎng)景中,「Matrix-Game 2.0」也支持鍵盤(pán)與鼠標(biāo)操作,并且能夠生成真實(shí)感更強(qiáng)、符合物理邏輯的可交互視頻。

      02 三大核心創(chuàng)新突破了傳統(tǒng)模型的瓶頸

      現(xiàn)有交互式世界模型普遍面臨數(shù)據(jù)瓶頸、實(shí)時(shí)性不足、生成序列較短等挑戰(zhàn)?!窶atrix-Game 2.0」通過(guò)三大核心創(chuàng)新突破了傳統(tǒng)模型的三重瓶頸:

      構(gòu)建了基于Unreal Engine和GTA5的可擴(kuò)展數(shù)據(jù)生產(chǎn)管線,生產(chǎn)約1350小時(shí)高質(zhì)量交互式視頻數(shù)據(jù),提供豐富動(dòng)作覆蓋。

      在1.3B小模型基礎(chǔ)上設(shè)計(jì)了動(dòng)作條件控制模塊,支持幀級(jí)鍵盤(pán)與鼠標(biāo)交互輸入;并采用少步長(zhǎng)自回歸擴(kuò)散模型實(shí)現(xiàn)實(shí)時(shí)長(zhǎng)序列視頻生成,在單個(gè)GPU上可達(dá)25 FPS的生成速度。

      基于領(lǐng)先的架構(gòu)設(shè)計(jì)和大量不同領(lǐng)域的高質(zhì)量數(shù)據(jù)訓(xùn)練,實(shí)現(xiàn)了在多個(gè)任務(wù)上的領(lǐng)先模型:

      1. Matrix-Game Uni:支持在各種風(fēng)格的靜態(tài)真實(shí)場(chǎng)景下,進(jìn)行自由的探索;

      2. Matrix-Game TempleRun:提供在神廟逃亡世界中進(jìn)行擬真游戲的能力,具有精確的游戲指令指令響應(yīng)能力;

      3. Matrix-Game GTA:支持在GTA場(chǎng)景中模擬車(chē)輛運(yùn)作,和前兩者不同的點(diǎn)在于,GTA模型模擬的世界是一個(gè)動(dòng)態(tài)場(chǎng)景,場(chǎng)景內(nèi)的物體有自身的運(yùn)動(dòng)軌跡。

      當(dāng)前,「Matrix-Game 2.0」具備三大核心優(yōu)勢(shì)

      1. 高幀率實(shí)時(shí)交互長(zhǎng)序列生成:支持前后左右移動(dòng)和視角轉(zhuǎn)動(dòng),用戶可通過(guò)指令操控角色在場(chǎng)景中自由行動(dòng),系統(tǒng)以25 FPS實(shí)時(shí)生成連續(xù)畫(huà)面,單次交互可生成分鐘級(jí)別長(zhǎng)交互視頻,動(dòng)作自然流暢,響應(yīng)精準(zhǔn)。

      2. 多場(chǎng)景泛化能力:模型具備出色的跨域適應(yīng)性,不僅適用于特定任務(wù)場(chǎng)景,還支持多種風(fēng)格與環(huán)境的模擬,包括城市、野外等空間類型,以及真實(shí)、油畫(huà)等視覺(jué)風(fēng)格。

      3. 增強(qiáng)的物理一致性:對(duì)物理規(guī)則的理解進(jìn)一步提升,角色在面對(duì)臺(tái)階、障礙物等復(fù)雜地形時(shí),能夠展現(xiàn)出符合物理邏輯的運(yùn)動(dòng)行為,提升沉浸感與可控性。

      03 開(kāi)源世界模型,昆侖萬(wàn)維領(lǐng)跑空間智能研究

      以谷歌Genie 3等為代表的世界模型,已經(jīng)為我們描繪了一個(gè)激動(dòng)人心的未來(lái)藍(lán)圖。它向我們展示了AI不再僅僅是內(nèi)容生成工具,而是可以構(gòu)建和模擬世界的“造物主”。隨著AI技術(shù)的不斷進(jìn)步,可以展望,世界模型將成為我們理解世界、創(chuàng)造未來(lái)、并最終實(shí)現(xiàn)通用人工智能的關(guān)鍵基礎(chǔ)設(shè)施。

      昆侖萬(wàn)維作為中國(guó)領(lǐng)先的人工智能科技公司,不僅打造出天工語(yǔ)言大模型、天工多模態(tài)大模型、SWE代碼大模型、Agent大模型、視頻大模型、音樂(lè)大模型、音頻大模型等模型底座矩陣,還推出了火爆全球的AIGC產(chǎn)品,如Skywork超級(jí)智能體、Mureka等。

      世界模型是邁向具身智能與高級(jí)空間推理的下一前沿課題。如今,昆侖萬(wàn)維Matrix系列世界模型的持續(xù)迭代與開(kāi)源,代表了中國(guó)空間智能方向研究和應(yīng)用的新里程碑。我們相信,「Matrix-Game 2.0」將為具身智能體訓(xùn)練與數(shù)據(jù)生成、虛擬游戲世界快速搭建、影視與元宇宙內(nèi)容生產(chǎn)等領(lǐng)域帶來(lái)變革行影響。

      申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!

      相關(guān)標(biāo)簽
      昆侖萬(wàn)維

      相關(guān)文章

      熱門(mén)排行

      信息推薦