国内99视频,精品久久久毛片,蜜桃av麻豆

智元機(jī)器人聯(lián)合香港大學(xué)推出的UniVLA入選 RSS 2025 并開(kāi)源！ 發(fā)布時(shí)間：2025-05-14 18:01:00

導(dǎo) 言

現(xiàn)有具身模型沒(méi)有充分利用更加多樣的視頻數(shù)據(jù)，難以適應(yīng)未訓(xùn)練過(guò)的新任務(wù)與新場(chǎng)景，通用性受限。為此，智元機(jī)器人聯(lián)合香港大學(xué)提出UniVLA：一個(gè)具備跨機(jī)器人本體、場(chǎng)景與任務(wù)泛化能力的通用策略學(xué)習(xí)系統(tǒng)。它構(gòu)建了以任務(wù)為中心的隱式動(dòng)作空間，充分利用語(yǔ)言描述與視頻示范進(jìn)行策略學(xué)習(xí)，實(shí)現(xiàn)了從“看視頻”、“聽(tīng)指令”到“動(dòng)手操作”的通用控制。該成果已被機(jī)器人頂會(huì) RSS 2025 認(rèn)可，同時(shí)代碼也已經(jīng)開(kāi)源，并成為全球頂尖機(jī)器人賽事 AgiBot World Challenge @ IROS 2025【點(diǎn)擊文字跳轉(zhuǎn)相關(guān)文章】的baseline之一。

想象一下在不遠(yuǎn)的未來(lái)，通用機(jī)器人真正走進(jìn)了日常生活。我們希望當(dāng)你發(fā)出一條自然語(yǔ)言指令，無(wú)論是“幫我給貓喂食”，還是“幫我關(guān)掉臺(tái)燈”，它都能夠理解你的意圖，并準(zhǔn)確地完成動(dòng)作——不依賴(lài)預(yù)定義的任務(wù)模板，也不受限于曾經(jīng)訓(xùn)練過(guò)的數(shù)據(jù)分布。

然而，現(xiàn)有的機(jī)器人系統(tǒng)往往依賴(lài)人工標(biāo)注的數(shù)據(jù)與固定的動(dòng)作空間，面對(duì)那些未被明確訓(xùn)練過(guò)的任務(wù)或非典型場(chǎng)景，它們常常會(huì)因?yàn)椤拔匆?jiàn)過(guò)”“無(wú)定義”而選擇拒絕執(zhí)行，嚴(yán)重限制了通用性的發(fā)揮。有沒(méi)有一種能夠從更廣泛的數(shù)據(jù)來(lái)源，如從互聯(lián)網(wǎng)上的人類(lèi)視頻中學(xué)習(xí)動(dòng)作的方法，并實(shí)現(xiàn)多種場(chǎng)景、任務(wù)的真正通用和泛化呢？

最近，智元機(jī)器人聯(lián)合香港大學(xué)基于此提出了全新框架——UniVLA，一個(gè)跨本體、跨場(chǎng)景、跨任務(wù)的通用策略學(xué)習(xí)系統(tǒng)，就像為機(jī)器人安裝了“跨界大腦”，實(shí)現(xiàn)了從“看視頻”、“聽(tīng)指令”到“動(dòng)手操作”的通用控制。

UniVLA：跨本體、跨場(chǎng)景、跨任務(wù)的通用策略

? 論文地址：

https://www.arxiv.org/abs/2505.06111

? 開(kāi)源代碼

https://github.com/OpenDriveLab/UniVLA

以往的通用模型如 RT-2、OpenVLA 雖已初具通用模型之勢(shì)，但依然存在諸多瓶頸：

訓(xùn)練數(shù)據(jù)源單一：訓(xùn)練時(shí)只使用大量人工采集的真機(jī)示范數(shù)據(jù)，沒(méi)有充分利用更加多樣的視頻數(shù)據(jù)。
缺乏通用性和跨平臺(tái)適配能力：換個(gè)機(jī)器人，動(dòng)作空間就全得重來(lái)。
推理慢且精度不穩(wěn)：自回歸預(yù)測(cè)方式對(duì)錯(cuò)誤累積敏感，執(zhí)行效率不高。

UniVLA 選擇了一條更具前瞻性的路徑：不再直接預(yù)測(cè)每一步動(dòng)作，而是構(gòu)建一個(gè)任務(wù)中心的隱式動(dòng)作空間，在這個(gè)“中間表征”上統(tǒng)一訓(xùn)練與泛化策略，不僅可以有效解決上述瓶頸，同時(shí)也能夠以更低的計(jì)算資源消耗實(shí)現(xiàn)更優(yōu)的效果。

UniVLA的核心創(chuàng)新在于構(gòu)建了以任務(wù)為中心的隱式動(dòng)作空間（task-centric latent action space），讓模型可以從海量無(wú)標(biāo)簽視頻中學(xué)習(xí)任務(wù)相關(guān)且高效泛化的動(dòng)作表示，只在人類(lèi)視頻數(shù)據(jù)(Ego4D)上預(yù)訓(xùn)練，就可以在LIBERO仿真平臺(tái)上達(dá)到SOTA級(jí)別效果。經(jīng)過(guò)預(yù)訓(xùn)練后同一模型可以同時(shí)完成操作與導(dǎo)航等任務(wù)，實(shí)現(xiàn)了通用的動(dòng)作學(xué)習(xí)。

為什么是隱式動(dòng)作？

因?yàn)樗取皦嚎s信息”，又“對(duì)齊知識(shí)”

傳統(tǒng)的通用模型如OpenVLA采用自回歸策略直接預(yù)測(cè)每一步動(dòng)作，推理速度慢且魯棒性不強(qiáng)。UniVLA則另辟蹊徑，將動(dòng)作預(yù)測(cè)劃分為三個(gè)階段：

1. 隱式動(dòng)作學(xué)習(xí)：

從海量跨領(lǐng)域視頻中“默默學(xué)習(xí)”，通過(guò)逆動(dòng)力學(xué)建模并使用VQ-VAE進(jìn)行離散化，構(gòu)建出對(duì)任務(wù)理解更強(qiáng)、更緊湊的隱式動(dòng)作空間；

2. 通用策略預(yù)訓(xùn)練：

借助Prismatic-7B等大模型架構(gòu)，將視覺(jué)觀察與語(yǔ)言指令編碼為統(tǒng)一輸入，預(yù)測(cè)隱式動(dòng)作序列，從而實(shí)現(xiàn)具身無(wú)關(guān)的通用策略；

3. 動(dòng)作解碼與部署：

使用輕量化解碼器將隱式動(dòng)作轉(zhuǎn)譯為真實(shí)機(jī)器人控制信號(hào)，作為下游的控制策略，從而能夠在多款機(jī)器人平臺(tái)上進(jìn)行快速適配和部署，輕裝上陣、高效執(zhí)行。

UniVLA的前兩階段訓(xùn)練策略

相比 OpenVLA 那種直接在動(dòng)作空間里“硬解”的做法，UniVLA 的“隱式編碼”（Latent Encoding）策略有幾個(gè)顯著優(yōu)勢(shì)：

1. 可以更好的利用視頻數(shù)據(jù)，泛化范圍大：

只需視頻和語(yǔ)言，就能從互聯(lián)網(wǎng)視頻數(shù)據(jù)中學(xué)技能，提取動(dòng)作；

2. 壓縮維度，降低計(jì)算成本：

動(dòng)作空間被有效壓縮，推理速度從<5Hz 提升至 10Hz+；

3. 適配靈活，遷移效率高：

由于隱式動(dòng)作具有通用性，故只需輕量微調(diào)，就能部署到不同機(jī)器人上，下游數(shù)據(jù)效率拉滿(mǎn)。

數(shù)據(jù)算力所需更少，性能反而更強(qiáng)

相比OpenVLA，UniVLA在計(jì)算效率和適配能力上表現(xiàn)出壓倒性?xún)?yōu)勢(shì)：預(yù)訓(xùn)練GPU時(shí)長(zhǎng)僅為其1/20，卻在多個(gè)任務(wù)和平臺(tái)上實(shí)現(xiàn)性能的全面超越。

在LIBERO、CALVIN等多個(gè)操控基準(zhǔn)測(cè)試中，UniVLA展現(xiàn)出優(yōu)越的通用性與任務(wù)適應(yīng)能力，在四項(xiàng)評(píng)估指標(biāo)中成功率平均提升達(dá)18.5%。更值得注意的是，僅使用人類(lèi)視頻預(yù)訓(xùn)練(Ego4D)，UniVLA也能在LIBERO-Goal中達(dá)到SOTA效果。同時(shí)只需要10%的數(shù)據(jù)就在LIBERO-Goal上達(dá)到了SOTA效果（62.4%），優(yōu)于同樣數(shù)據(jù)量訓(xùn)練下的OpenVLA（11.6%）和 OpenVLA-OFT（43.0%），數(shù)據(jù)利用效率如同開(kāi)掛。

LIBERO 實(shí)驗(yàn)結(jié)果

更重要的是，UniVLA以其結(jié)構(gòu)化的隱式動(dòng)作空間設(shè)計(jì)，天然具備擴(kuò)展性與數(shù)據(jù)可擴(kuò)展性：無(wú)論是引入更多人類(lèi)示范作為提取隱空間表征的與訓(xùn)練，還是增加新的機(jī)器人平臺(tái)僅通過(guò)輕量微調(diào)即可遷移適配，實(shí)現(xiàn)跨具身、跨視角、跨任務(wù)的全面通用。

在真實(shí)機(jī)器部署中，受益于僅12M參數(shù)的簡(jiǎn)單動(dòng)作解碼器以及高效的隱空間動(dòng)作表征，UniVLA可以實(shí)現(xiàn)（閉環(huán)）10Hz以上的實(shí)時(shí)推理控制，在多個(gè)任務(wù)中（如“清理案板”、“疊漢諾塔”等）展現(xiàn)出高精度、高魯棒的操作能力，平均成功率達(dá)到80%+，推理時(shí)延遠(yuǎn)低于OpenVLA，打通了通用大模型到落地應(yīng)用的可能路徑。

UniVLA在真機(jī)實(shí)驗(yàn)表現(xiàn)出色

同時(shí)在設(shè)計(jì)的若干泛化實(shí)驗(yàn)中，面對(duì)各種泛化挑戰(zhàn)，它不僅不社恐，還能“快準(zhǔn)穩(wěn)”上手。通用的隱式動(dòng)作空間+異構(gòu)數(shù)據(jù)的預(yù)訓(xùn)練，讓它不止是“聰明”，而且真“通用”。

UniVLA在不同泛化條件下的表現(xiàn)

多虧了UniVLA的‘隱式動(dòng)作+通用訓(xùn)練’，UniVLA能夠充分在大量異構(gòu)數(shù)據(jù)(操作、導(dǎo)航甚至人類(lèi)視頻)中進(jìn)行學(xué)習(xí)，并能夠有效容納足夠多的知識(shí)，照單全收，越學(xué)越強(qiáng)。

UniVLA的異構(gòu)數(shù)據(jù)擴(kuò)展能力

少樣本情況下UniVLA性能優(yōu)勢(shì)盡顯，在LIBERO長(zhǎng)程任務(wù)基準(zhǔn)上僅用10%數(shù)據(jù)（不到50條demo，平均每個(gè)任務(wù)僅5條）擊敗了全量數(shù)據(jù)微調(diào)的OpenVLA。

UniVLA在少樣本情況下的表現(xiàn)

UniVLA的方法不僅代表了視覺(jué)語(yǔ)言動(dòng)作模型（VLA）領(lǐng)域的一次突破，更為“通用機(jī)器人智能”提供了新的思考與貢獻(xiàn)：從像素重建走向語(yǔ)義解耦的隱式動(dòng)作學(xué)習(xí)、從高耗能預(yù)訓(xùn)練走向輕量高效的跨本體適配、從單一機(jī)器人數(shù)據(jù)閉環(huán)走向人類(lèi)視頻與多本體數(shù)據(jù)的開(kāi)放協(xié)同。

- END -

上一篇

下一篇