午夜伦伦_国产成人精品在线播放_人民的名义第二部_91大奶子_男人天堂tv_92午夜视频

量子位昨天

讓離線強(qiáng)化學(xué)習(xí)從「局部描摹」變「全局布局」

面對(duì)復(fù)雜連續(xù)任務(wù)的長(zhǎng)程規(guī)劃，現(xiàn)有的生成式離線強(qiáng)化學(xué)習(xí)方法往往會(huì)暴露短板。

它們生成的軌跡經(jīng)常陷入局部合理但全局偏航的窘境。

它們太關(guān)注眼前的每一步，卻忘了最終的目的地。

針對(duì)這一痛點(diǎn)，廈門大學(xué)和香港科技大學(xué)提出一種名為MAGE（魔法師，Multi-scale Autoregressive Generation）的離線強(qiáng)化學(xué)習(xí)新算法。

MAGE 與現(xiàn)有序列生成方法不同，MAGE 采用自頂向下的 " 由粗到細(xì) " 生成策略，先建模軌跡的宏觀規(guī)劃，再逐步細(xì)化微觀細(xì)節(jié)。

MAGE 的核心思路非常符合人類的直覺(jué)：" 自頂向下、由粗到細(xì) "。

這就好比畫一幅素描，你不會(huì)一上來(lái)就描繪眼睛的睫毛，而是先畫出整體的身體輪廓（宏觀規(guī)劃），再逐步細(xì)化五官和表情（微觀動(dòng)作）

△ MAGE 的思考過(guò)程從一場(chǎng) " 迷宮尋寶 " 揭示 AI 規(guī)劃的盲區(qū)

為了直觀展示現(xiàn)有模型的缺陷，研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)迷宮吃金幣小實(shí)驗(yàn)。智能體需要從隨機(jī)起點(diǎn)出發(fā)，依靠對(duì)環(huán)境的長(zhǎng)程空間理解，先吃銀幣，再吃金幣，最后抵達(dá)終點(diǎn)。

△ 各個(gè)算法在迷宮環(huán)境的表現(xiàn)

然而，面對(duì)這種需要全局規(guī)劃的場(chǎng)景，現(xiàn)有的模型紛紛暴露了缺陷。

Decision Transformer 受限于單向自回歸特性帶來(lái)的全局上下文缺失，它在長(zhǎng)程規(guī)劃中完全迷失方向，最終連終點(diǎn)都未能抵達(dá)。

Decision Diffuser 則由于擴(kuò)散模型固有的局部生成偏差，生成的軌跡往往只能保證局部合理；雖然智能體抵達(dá)了終點(diǎn)，卻遺漏了關(guān)鍵的一枚金幣，全局連貫性較差。

Hierarchical Diffuser 雖然嘗試通過(guò)分層結(jié)構(gòu)建模全局軌跡，但由于其固定的雙層結(jié)構(gòu)過(guò)于僵硬，高低層策略之間缺乏有效協(xié)同，生成的軌跡甚至出現(xiàn)了物理違規(guī)的 " 穿墻 " 現(xiàn)象，全局規(guī)劃與局部動(dòng)作嚴(yán)重脫節(jié)。

相比之下，MAGE 則通過(guò)多尺度 " 從粗到細(xì) " 的生成架構(gòu)成功完成了任務(wù)。它首先在最粗的時(shí)間尺度上勾勒出包含所有關(guān)鍵節(jié)點(diǎn)的宏觀全局輪廓，隨后利用多尺度 Transformer 在更細(xì)的時(shí)間尺度上逐層細(xì)化，順利規(guī)劃出完整的路徑。

MAGE 的核心思路：從畫大綱到扣細(xì)節(jié)

MAGE 采用 " 自頂向下、由粗到細(xì) " 的生成方式。MAGE 包含兩大核心模塊，并輔以精確的控制機(jī)制：

△ MAGE 的架構(gòu)圖

MTAE 多尺度軌跡自編碼器：MAGE 將長(zhǎng)序列軌跡轉(zhuǎn)化為從粗到細(xì)的多尺度離散 Token。粗尺度的 Token 負(fù)責(zé)掌控全局長(zhǎng)程結(jié)構(gòu)，最細(xì)尺度的 Token 則詳細(xì)建模短期的動(dòng)態(tài)細(xì)節(jié)。

多尺度條件引導(dǎo)自回歸生成：模型使用 Transformer 序列化地生成這些多尺度 Token。在生成每層時(shí)，都會(huì)嚴(yán)格以 " 目標(biāo)回報(bào) " 和 " 初始狀態(tài) " 作為條件進(jìn)行約束，確保智能體的每一步都在朝著最終目標(biāo)前進(jìn)。

條件引導(dǎo)細(xì)化與動(dòng)作決策：因?yàn)榘堰B續(xù)世界變成離散 Token 會(huì)丟失信息，普通的生成過(guò)程容易讓軌跡起點(diǎn)偏離現(xiàn)實(shí)。為此，MAGE 在解碼器中集成了輕量級(jí)的適配器（adapter）模塊，并引入了條件引導(dǎo)損失函數(shù) Lcond，強(qiáng)制解碼出的初始狀態(tài)與真實(shí)環(huán)境是精確對(duì)齊的。最后，通過(guò)潛在逆動(dòng)力學(xué)模型決定最終的動(dòng)作。

實(shí)驗(yàn)表現(xiàn)：長(zhǎng)序列任務(wù)全面超越，推理速度滿足實(shí)時(shí)控制

研究團(tuán)隊(duì)在包含 Adroit、Franka Kitchen、AntMaze 等5 個(gè)離線 RL 基準(zhǔn)測(cè)試中，將 MAGE 與15 種具有代表性的基線算法進(jìn)行了廣泛的評(píng)估。

多任務(wù)表現(xiàn)出色

在極具挑戰(zhàn)的高維連續(xù)控制Adroit 機(jī)械臂任務(wù)中，面對(duì)極其稀疏的獎(jiǎng)勵(lì)，MAGE 實(shí)現(xiàn)了顯著的性能提升，大幅優(yōu)于對(duì)比方法。在強(qiáng)調(diào)子目標(biāo)執(zhí)行順序的Franka Kitchen 組合任務(wù)中，MAGE 憑借捕獲全局結(jié)構(gòu)和局部細(xì)節(jié)的能力，以相當(dāng)大的優(yōu)勢(shì)超越了所有競(jìng)爭(zhēng)算法。

在迷宮導(dǎo)航任務(wù)中，MAGE 在所有數(shù)據(jù)集上均取得了最佳性能，證明了其處理長(zhǎng)序列導(dǎo)航任務(wù)的卓越能力。

極高的推理效率與部署潛力

MAGE 在保持高性能的同時(shí)，實(shí)現(xiàn)了出色的計(jì)算效率平衡。實(shí)驗(yàn)數(shù)據(jù)表明，MAGE 的運(yùn)行速度比 Hierarchical Diffuser 快約 50 倍，比 Decision Diffuser快 80 倍。其每步推理時(shí)間保持在 27 毫秒，完美滿足了真實(shí)機(jī)器人控制所要求的 20 Hz實(shí)時(shí)運(yùn)行門檻。

結(jié)語(yǔ)

MAGE 成功地將多尺度軌跡建模與條件引導(dǎo)相結(jié)合，通過(guò) " 從粗到細(xì) " 的自回歸框架生成連貫且可控的高回報(bào)軌跡。當(dāng)有一天，機(jī)器人不再需要人類一口一口地 " 喂 " 獎(jiǎng)勵(lì)，而是能夠自主審視全局，制定長(zhǎng)遠(yuǎn)計(jì)劃并流暢執(zhí)行時(shí)，也許具身智能的下一個(gè)奇點(diǎn)就真正到來(lái)了。

論文鏈接：

https://arxiv.org/abs/2602.23770

開(kāi)源代碼：

https://github.com/xmu-rl-3dv/MAGE

實(shí)驗(yàn)室主頁(yè)：

https://asc.xmu.edu.cn/

作者介紹：

本文第一作者來(lái)自廈門大學(xué)空間感知與計(jì)算實(shí)驗(yàn)室（ASC Lab）2024 級(jí)碩士生林晨興、2025 級(jí)碩士生高鑫輝，通訊作者為廈門大學(xué)沈思淇副教授，并由張海鵬、李欣然（香港科技大學(xué)）、王海濤、梅松竹副研究員、劉偉權(quán)副教授（集美大學(xué)）、王程教授共同合作完成。研究團(tuán)隊(duì)長(zhǎng)期聚焦于強(qiáng)化學(xué)習(xí)，多智能體系統(tǒng)以及大模型智能體。

一鍵三連「點(diǎn)贊」「轉(zhuǎn)發(fā)」「小心心」

歡迎在評(píng)論區(qū)留下你的想法！

— 完 —

我們正在招聘一名眼疾手快、關(guān)注 AI 的學(xué)術(shù)編輯實(shí)習(xí)生

感興趣的小伙伴歡迎關(guān)注了解詳情

點(diǎn)亮星標(biāo)

科技前沿進(jìn)展每日見(jiàn)

宙世代

ZAKER旗下Web3.0元宇宙平臺(tái)

一起剪

ZAKER旗下免費(fèi)視頻剪輯工具

相關(guān)標(biāo)簽

ai 機(jī)器人

企業(yè)資訊

查看更多內(nèi)容

午夜伦伦_国产成人精品在线播放_人民的名义第二部_91大奶子_男人天堂tv_92午夜视频

宙世代元宇宙

元宇宙黨建解決方案

元宇宙文旅解決方案

元宇宙展廳解決方案

元宇宙行業(yè)峰會(huì)解決方案

元宇宙營(yíng)銷解決方案

元宇宙會(huì)展解決方案

元宇宙演藝節(jié)目解決方案

元宇宙博物館解決方案

元宇宙圖書館解決方案

元宇宙校園解決方案

元宇宙企業(yè)展廳解決方案

元宇宙藝術(shù)展解決方案

元宇宙電商解決方案

融媒體解決方案

ZAKER智慧云

媒體解決方案

黨建解決方案

公檢法解決方案

智慧交通解決方案

高校解決方案

AI視頻

AI視頻剪輯

視頻定制服務(wù)

AI智能客服

我的訂閱

讓離線強(qiáng)化學(xué)習(xí)從「局部描摹」變「全局布局」

宙世代

一起剪

相關(guān)閱讀

大廠卷入，「Agent 主機(jī)」，成了現(xiàn)在最熱的賽道

AI大佬犀利發(fā)聲：AI已淘汰大批崗位 大學(xué)還在批量生產(chǎn)過(guò)時(shí)人才

小米史上最強(qiáng)！小米智能攝像機(jī)4 Max AI變焦版開(kāi)啟眾籌：799元

中國(guó)人不愛(ài)吃披薩了嗎？

電信阿里聯(lián)手！打造10萬(wàn)卡智算集群：性能提升9.3倍！

AI三巨頭聯(lián)手打擊“蒸餾”：護(hù)城河焦慮，還是安全防衛(wèi)？

MacBook Neo賣爆！A18 Pro芯片庫(kù)存耗盡：蘋果左右為難

REDMI K90 Max外觀首次揭曉：太空銀機(jī)身+鋁合金中框

挖走特斯拉中歐高管！小米汽車為進(jìn)軍歐洲做準(zhǔn)備 盧偉冰表態(tài)正實(shí)現(xiàn)

AI洗牌音樂(lè)界，但創(chuàng)作者還沒(méi)賺到錢

售價(jià)413元！蘋果官網(wǎng)上架iPhone斜挎包：可放置AirTag追蹤器

蘋果第一款折疊屏！iPhone Fold不會(huì)延期：依然9月發(fā)布

全球加速布局太空算力 天地協(xié)同的算力網(wǎng)絡(luò)也將加速構(gòu)建

蘋果闊折疊被曝命名iPhone Ultra！國(guó)內(nèi)廠商考慮跟進(jìn)：芯片、價(jià)格等全面對(duì)標(biāo)

天鋇MACO 255迷你主機(jī)首發(fā)2899元起：銳龍7 H 255、雙2.5G網(wǎng)口

最新評(píng)論

量子位

熱門推薦

企業(yè)資訊

熱門訂閱 換一批

銀莕財(cái)經(jīng)

中保新知

局市

GMIF創(chuàng)新觀察

醫(yī)線Insight

挖貝網(wǎng)

AI大佬犀利發(fā)聲：AI已淘汰大批崗位大學(xué)還在批量生產(chǎn)過(guò)時(shí)人才

挖走特斯拉中歐高管！小米汽車為進(jìn)軍歐洲做準(zhǔn)備盧偉冰表態(tài)正實(shí)現(xiàn)

全球加速布局太空算力天地協(xié)同的算力網(wǎng)絡(luò)也將加速構(gòu)建

熱門訂閱換一批