午夜伦伦_国产成人精品在线播放_人民的名义第二部_91大奶子_男人天堂tv_92午夜视频

關(guān)于ZAKER 合作
量子位 昨天

讓離線強(qiáng)化學(xué)習(xí)從「局部描摹」變「全局布局」

面對(duì)復(fù)雜連續(xù)任務(wù)的長(zhǎng)程規(guī)劃,現(xiàn)有的生成式離線強(qiáng)化學(xué)習(xí)方法往往會(huì)暴露短板。

它們生成的軌跡經(jīng)常陷入局部合理但全局偏航的窘境。

它們太關(guān)注眼前的每一步,卻忘了最終的目的地。

針對(duì)這一痛點(diǎn),廈門大學(xué)和香港科技大學(xué)提出一種名為MAGE(魔法師,Multi-scale Autoregressive Generation)的離線強(qiáng)化學(xué)習(xí)新算法。

MAGE 與現(xiàn)有序列生成方法不同,MAGE 采用自頂向下的 " 由粗到細(xì) " 生成策略,先建模軌跡的宏觀規(guī)劃,再逐步細(xì)化微觀細(xì)節(jié)。

MAGE 的核心思路非常符合人類的直覺(jué):" 自頂向下、由粗到細(xì) "

這就好比畫一幅素描,你不會(huì)一上來(lái)就描繪眼睛的睫毛,而是先畫出整體的身體輪廓(宏觀規(guī)劃),再逐步細(xì)化五官和表情(微觀動(dòng)作)

MAGE 的思考過(guò)程從一場(chǎng) " 迷宮尋寶 " 揭示 AI 規(guī)劃的盲區(qū)

為了直觀展示現(xiàn)有模型的缺陷,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)迷宮吃金幣小實(shí)驗(yàn)。智能體需要從隨機(jī)起點(diǎn)出發(fā),依靠對(duì)環(huán)境的長(zhǎng)程空間理解,先吃銀幣,再吃金幣,最后抵達(dá)終點(diǎn)。

各個(gè)算法在迷宮環(huán)境的表現(xiàn)

然而,面對(duì)這種需要全局規(guī)劃的場(chǎng)景,現(xiàn)有的模型紛紛暴露了缺陷。

Decision Transformer 受限于單向自回歸特性帶來(lái)的全局上下文缺失,它在長(zhǎng)程規(guī)劃中完全迷失方向,最終連終點(diǎn)都未能抵達(dá)。

Decision Diffuser 則由于擴(kuò)散模型固有的局部生成偏差,生成的軌跡往往只能保證局部合理;雖然智能體抵達(dá)了終點(diǎn),卻遺漏了關(guān)鍵的一枚金幣,全局連貫性較差。

Hierarchical Diffuser 雖然嘗試通過(guò)分層結(jié)構(gòu)建模全局軌跡,但由于其固定的雙層結(jié)構(gòu)過(guò)于僵硬高低層策略之間缺乏有效協(xié)同,生成的軌跡甚至出現(xiàn)了物理違規(guī)的 " 穿墻 " 現(xiàn)象,全局規(guī)劃與局部動(dòng)作嚴(yán)重脫節(jié)。

相比之下,MAGE 則通過(guò)多尺度 " 從粗到細(xì) " 的生成架構(gòu)成功完成了任務(wù)。它首先在最粗的時(shí)間尺度上勾勒出包含所有關(guān)鍵節(jié)點(diǎn)的宏觀全局輪廓,隨后利用多尺度 Transformer 在更細(xì)的時(shí)間尺度上逐層細(xì)化,順利規(guī)劃出完整的路徑。

MAGE 的核心思路:從畫大綱到扣細(xì)節(jié)

MAGE 采用 " 自頂向下、由粗到細(xì) " 的生成方式。MAGE 包含兩大核心模塊,并輔以精確的控制機(jī)制:

MAGE 的架構(gòu)圖

MTAE 多尺度軌跡自編碼器:MAGE 將長(zhǎng)序列軌跡轉(zhuǎn)化為從粗到細(xì)的多尺度離散 Token。粗尺度的 Token 負(fù)責(zé)掌控全局長(zhǎng)程結(jié)構(gòu),最細(xì)尺度的 Token 則詳細(xì)建模短期的動(dòng)態(tài)細(xì)節(jié)

多尺度條件引導(dǎo)自回歸生成:模型使用 Transformer 序列化地生成這些多尺度 Token。在生成每層時(shí),都會(huì)嚴(yán)格以 " 目標(biāo)回報(bào) " 和 " 初始狀態(tài) " 作為條件進(jìn)行約束,確保智能體的每一步都在朝著最終目標(biāo)前進(jìn)。

條件引導(dǎo)細(xì)化與動(dòng)作決策:因?yàn)榘堰B續(xù)世界變成離散 Token 會(huì)丟失信息,普通的生成過(guò)程容易讓軌跡起點(diǎn)偏離現(xiàn)實(shí)。為此,MAGE 在解碼器中集成了輕量級(jí)的適配器(adapter)模塊,并引入了條件引導(dǎo)損失函數(shù) Lcond,強(qiáng)制解碼出的初始狀態(tài)與真實(shí)環(huán)境是精確對(duì)齊的。最后,通過(guò)潛在逆動(dòng)力學(xué)模型決定最終的動(dòng)作。

實(shí)驗(yàn)表現(xiàn):長(zhǎng)序列任務(wù)全面超越,推理速度滿足實(shí)時(shí)控制

研究團(tuán)隊(duì)在包含 Adroit、Franka Kitchen、AntMaze 等5 個(gè)離線 RL 基準(zhǔn)測(cè)試中,將 MAGE 與15 種具有代表性的基線算法進(jìn)行了廣泛的評(píng)估。

多任務(wù)表現(xiàn)出色

在極具挑戰(zhàn)的高維連續(xù)控制Adroit 機(jī)械臂任務(wù)中,面對(duì)極其稀疏的獎(jiǎng)勵(lì),MAGE 實(shí)現(xiàn)了顯著的性能提升,大幅優(yōu)于對(duì)比方法。在強(qiáng)調(diào)子目標(biāo)執(zhí)行順序的Franka Kitchen 組合任務(wù)中,MAGE 憑借捕獲全局結(jié)構(gòu)和局部細(xì)節(jié)的能力,以相當(dāng)大的優(yōu)勢(shì)超越了所有競(jìng)爭(zhēng)算法。

迷宮導(dǎo)航任務(wù)中,MAGE 在所有數(shù)據(jù)集上均取得了最佳性能,證明了其處理長(zhǎng)序列導(dǎo)航任務(wù)的卓越能力。

極高的推理效率與部署潛力

MAGE 在保持高性能的同時(shí),實(shí)現(xiàn)了出色的計(jì)算效率平衡。實(shí)驗(yàn)數(shù)據(jù)表明,MAGE 的運(yùn)行速度比 Hierarchical Diffuser 快約 50 倍,比 Decision Diffuser快 80 倍。其每步推理時(shí)間保持在 27 毫秒,完美滿足了真實(shí)機(jī)器人控制所要求的 20 Hz實(shí)時(shí)運(yùn)行門檻

結(jié)語(yǔ)

MAGE 成功地將多尺度軌跡建模與條件引導(dǎo)相結(jié)合,通過(guò) " 從粗到細(xì) " 的自回歸框架生成連貫且可控的高回報(bào)軌跡。當(dāng)有一天,機(jī)器人不再需要人類一口一口地 " 喂 " 獎(jiǎng)勵(lì),而是能夠自主審視全局,制定長(zhǎng)遠(yuǎn)計(jì)劃并流暢執(zhí)行時(shí),也許具身智能的下一個(gè)奇點(diǎn)就真正到來(lái)了。

論文鏈接:

https://arxiv.org/abs/2602.23770

開(kāi)源代碼:

https://github.com/xmu-rl-3dv/MAGE

實(shí)驗(yàn)室主頁(yè):

https://asc.xmu.edu.cn/

作者介紹:

本文第一作者來(lái)自廈門大學(xué)空間感知與計(jì)算實(shí)驗(yàn)室(ASC Lab)2024 級(jí)碩士生林晨興、2025 級(jí)碩士生高鑫輝,通訊作者為廈門大學(xué)沈思淇副教授,并由張海鵬、李欣然(香港科技大學(xué))、王海濤、梅松竹副研究員、劉偉權(quán)副教授(集美大學(xué))、王程教授共同合作完成。研究團(tuán)隊(duì)長(zhǎng)期聚焦于強(qiáng)化學(xué)習(xí),多智能體系統(tǒng)以及大模型智能體。

一鍵三連「點(diǎn)贊」「轉(zhuǎn)發(fā)」「小心心」

歡迎在評(píng)論區(qū)留下你的想法!

我們正在招聘一名眼疾手快、關(guān)注 AI 的學(xué)術(shù)編輯實(shí)習(xí)生

感興趣的小伙伴歡迎關(guān)注 了解詳情

點(diǎn)亮星標(biāo)

科技前沿進(jìn)展每日見(jiàn)

相關(guān)標(biāo)簽

相關(guān)閱讀

最新評(píng)論

沒(méi)有更多評(píng)論了

覺(jué)得文章不錯(cuò),微信掃描分享好友

掃碼分享

企業(yè)資訊

查看更多內(nèi)容
主站蜘蛛池模板: 欧美日韩精品久久 | 亚洲最大的黄色网址 | 亚洲高潮av| 在线激情网| 超碰av在线 | av片在线观看免费 | av在线免费网址 | 青青青草视频 | 亚洲永久 | 国产乱国产乱 | 亚洲国内自拍 | 国产婷婷色一区二区三区 | www视频在线观看网站 | 免费成人在线播放 | 日韩欧美成 | 日韩成人高清 | 国产精品一区在线 | 欧美网站在线 | 久久手机免费视频 | 国产aaa视频 | 综合伊人久久 | 免费a级黄色片 | 欧洲精品视频在线 | www五月婷婷| 性久久久久久久久久 | 人人av在线 | 色屁屁在线 | 91免费福利视频 | 永久免费看成人av的动态图 | 成人在线国产 | 99久久99久久精品国产片果冻 | 粉嫩av一区二区夜夜嗨 | 日韩美女视频一区 | 成人综合网站 | www.成人在线视频 | 久久久久久伊人 | av资源网在线观看 | 欧美18免费视频 | 欧美精品免费看 | 黄色九九| 欧美大胆视频 |