成人超碰在线_国产裸体舞一区二区视频在哪看_性欧美一区_国产yw851.c免费观看网站_全黄h全肉边做边吃奶流浪汉_粉嫩av四季av绯色av第一区

智元機(jī)器人聯(lián)合香港大學(xué)推出的UniVLA入選 RSS 2025 并開源! 發(fā)布時(shí)間:2025-05-14 18:01:00


導(dǎo) 言 

現(xiàn)有具身模型沒有充分利用更加多樣的視頻數(shù)據(jù),難以適應(yīng)未訓(xùn)練過的新任務(wù)與新場(chǎng)景,通用性受限。為此,智元機(jī)器人聯(lián)合香港大學(xué)提出UniVLA:一個(gè)具備跨機(jī)器人本體、場(chǎng)景與任務(wù)泛化能力的通用策略學(xué)習(xí)系統(tǒng)。它構(gòu)建了以任務(wù)為中心的隱式動(dòng)作空間,充分利用語言描述與視頻示范進(jìn)行策略學(xué)習(xí),實(shí)現(xiàn)了從“看視頻”、“聽指令”到“動(dòng)手操作”的通用控制。該成果已被機(jī)器人頂會(huì) RSS 2025 認(rèn)可,同時(shí)代碼也已經(jīng)開源,并成為全球頂尖機(jī)器人賽事 AgiBot World Challenge @ IROS 2025【點(diǎn)擊文字跳轉(zhuǎn)相關(guān)文章】 的baseline之一。


想象一下在不遠(yuǎn)的未來,通用機(jī)器人真正走進(jìn)了日常生活。我們希望當(dāng)你發(fā)出一條自然語言指令,無論是“幫我給貓喂食”,還是“幫我關(guān)掉臺(tái)燈”,它都能夠理解你的意圖,并準(zhǔn)確地完成動(dòng)作——不依賴預(yù)定義的任務(wù)模板,也不受限于曾經(jīng)訓(xùn)練過的數(shù)據(jù)分布。


然而,現(xiàn)有的機(jī)器人系統(tǒng)往往依賴人工標(biāo)注的數(shù)據(jù)與固定的動(dòng)作空間,面對(duì)那些未被明確訓(xùn)練過的任務(wù)或非典型場(chǎng)景,它們常常會(huì)因?yàn)椤拔匆娺^”“無定義”而選擇拒絕執(zhí)行,嚴(yán)重限制了通用性的發(fā)揮。有沒有一種能夠從更廣泛的數(shù)據(jù)來源,如從互聯(lián)網(wǎng)上的人類視頻中學(xué)習(xí)動(dòng)作的方法,并實(shí)現(xiàn)多種場(chǎng)景、任務(wù)的真正通用和泛化呢?


最近,智元機(jī)器人聯(lián)合香港大學(xué)基于此提出了全新框架——UniVLA,一個(gè)跨本體、跨場(chǎng)景、跨任務(wù)的通用策略學(xué)習(xí)系統(tǒng),就像為機(jī)器人安裝了“跨界大腦”,實(shí)現(xiàn)了從“看視頻”、“聽指令”到“動(dòng)手操作”的通用控制。


圖片

UniVLA:跨本體、跨場(chǎng)景、跨任務(wù)的通用策略


?? 論文地址:

https://www.arxiv.org/abs/2505.06111

?? 開源代碼

https://github.com/OpenDriveLab/UniVLA


以往的通用模型如 RT-2、OpenVLA 雖已初具通用模型之勢(shì),但依然存在諸多瓶頸:


  • 訓(xùn)練數(shù)據(jù)源單一:訓(xùn)練時(shí)只使用大量人工采集的真機(jī)示范數(shù)據(jù),沒有充分利用更加多樣的視頻數(shù)據(jù)。

  • 缺乏通用性和跨平臺(tái)適配能力:換個(gè)機(jī)器人,動(dòng)作空間就全得重來。

  • 推理慢且精度不穩(wěn):自回歸預(yù)測(cè)方式對(duì)錯(cuò)誤累積敏感,執(zhí)行效率不高。


UniVLA 選擇了一條更具前瞻性的路徑:不再直接預(yù)測(cè)每一步動(dòng)作,而是構(gòu)建一個(gè)任務(wù)中心的隱式動(dòng)作空間,在這個(gè)“中間表征”上統(tǒng)一訓(xùn)練與泛化策略,不僅可以有效解決上述瓶頸,同時(shí)也能夠以更低的計(jì)算資源消耗實(shí)現(xiàn)更優(yōu)的效果。


UniVLA的核心創(chuàng)新在于構(gòu)建了以任務(wù)為中心的隱式動(dòng)作空間(task-centric latent action space),讓模型可以從海量無標(biāo)簽視頻中學(xué)習(xí)任務(wù)相關(guān)且高效泛化的動(dòng)作表示,只在人類視頻數(shù)據(jù)(Ego4D)上預(yù)訓(xùn)練,就可以在LIBERO仿真平臺(tái)上達(dá)到SOTA級(jí)別效果。經(jīng)過預(yù)訓(xùn)練后同一模型可以同時(shí)完成操作與導(dǎo)航等任務(wù),實(shí)現(xiàn)了通用的動(dòng)作學(xué)習(xí)。



為什么是隱式動(dòng)作?

因?yàn)樗取皦嚎s信息”,又“對(duì)齊知識(shí)”


傳統(tǒng)的通用模型如OpenVLA采用自回歸策略直接預(yù)測(cè)每一步動(dòng)作,推理速度慢且魯棒性不強(qiáng)。UniVLA則另辟蹊徑,將動(dòng)作預(yù)測(cè)劃分為三個(gè)階段:


1. 隱式動(dòng)作學(xué)習(xí):

從海量跨領(lǐng)域視頻中“默默學(xué)習(xí)”,通過逆動(dòng)力學(xué)建模并使用VQ-VAE進(jìn)行離散化,構(gòu)建出對(duì)任務(wù)理解更強(qiáng)、更緊湊的隱式動(dòng)作空間;

2. 通用策略預(yù)訓(xùn)練:

借助Prismatic-7B等大模型架構(gòu),將視覺觀察與語言指令編碼為統(tǒng)一輸入,預(yù)測(cè)隱式動(dòng)作序列,從而實(shí)現(xiàn)具身無關(guān)的通用策略;

3. 動(dòng)作解碼與部署:

使用輕量化解碼器將隱式動(dòng)作轉(zhuǎn)譯為真實(shí)機(jī)器人控制信號(hào),作為下游的控制策略,從而能夠在多款機(jī)器人平臺(tái)上進(jìn)行快速適配和部署,輕裝上陣、高效執(zhí)行


圖片

UniVLA的前兩階段訓(xùn)練策略


相比 OpenVLA 那種直接在動(dòng)作空間里“硬解”的做法,UniVLA 的“隱式編碼”(Latent Encoding)策略有幾個(gè)顯著優(yōu)勢(shì):


1. 可以更好的利用視頻數(shù)據(jù),泛化范圍大:

只需視頻和語言,就能從互聯(lián)網(wǎng)視頻數(shù)據(jù)中學(xué)技能,提取動(dòng)作;

2. 壓縮維度,降低計(jì)算成本:

動(dòng)作空間被有效壓縮,推理速度從<5Hz 提升至 10Hz+;

3. 適配靈活,遷移效率高:

由于隱式動(dòng)作具有通用性,故只需輕量微調(diào),就能部署到不同機(jī)器人上,下游數(shù)據(jù)效率拉滿。


數(shù)據(jù)算力所需更少,性能反而更強(qiáng)


相比OpenVLA,UniVLA在計(jì)算效率和適配能力上表現(xiàn)出壓倒性優(yōu)勢(shì):預(yù)訓(xùn)練GPU時(shí)長(zhǎng)僅為其1/20,卻在多個(gè)任務(wù)和平臺(tái)上實(shí)現(xiàn)性能的全面超越。


在LIBERO、CALVIN等多個(gè)操控基準(zhǔn)測(cè)試中,UniVLA展現(xiàn)出優(yōu)越的通用性與任務(wù)適應(yīng)能力,在四項(xiàng)評(píng)估指標(biāo)中成功率平均提升達(dá)18.5%。更值得注意的是,僅使用人類視頻預(yù)訓(xùn)練(Ego4D),UniVLA也能在LIBERO-Goal中達(dá)到SOTA效果。同時(shí)只需要10%的數(shù)據(jù)就在LIBERO-Goal上達(dá)到了SOTA效果(62.4%),優(yōu)于同樣數(shù)據(jù)量訓(xùn)練下的OpenVLA(11.6%)和 OpenVLA-OFT(43.0%),數(shù)據(jù)利用效率如同開掛。


圖片

LIBERO 實(shí)驗(yàn)結(jié)果


更重要的是,UniVLA以其結(jié)構(gòu)化的隱式動(dòng)作空間設(shè)計(jì),天然具備擴(kuò)展性與數(shù)據(jù)可擴(kuò)展性:無論是引入更多人類示范作為提取隱空間表征的與訓(xùn)練,還是增加新的機(jī)器人平臺(tái)僅通過輕量微調(diào)即可遷移適配,實(shí)現(xiàn)跨具身、跨視角、跨任務(wù)的全面通用。


在真實(shí)機(jī)器部署中,受益于僅12M參數(shù)的簡(jiǎn)單動(dòng)作解碼器以及高效的隱空間動(dòng)作表征,UniVLA可以實(shí)現(xiàn)(閉環(huán))10Hz以上的實(shí)時(shí)推理控制,在多個(gè)任務(wù)中(如“清理案板”、“疊漢諾塔”等)展現(xiàn)出高精度、高魯棒的操作能力,平均成功率達(dá)到80%+,推理時(shí)延遠(yuǎn)低于OpenVLA,打通了通用大模型到落地應(yīng)用的可能路徑。


圖片

UniVLA在真機(jī)實(shí)驗(yàn)表現(xiàn)出色


同時(shí)在設(shè)計(jì)的若干泛化實(shí)驗(yàn)中,面對(duì)各種泛化挑戰(zhàn),它不僅不社恐,還能“快準(zhǔn)穩(wěn)”上手。通用的隱式動(dòng)作空間+異構(gòu)數(shù)據(jù)的預(yù)訓(xùn)練,讓它不止是“聰明”,而且真“通用”。


圖片

UniVLA在不同泛化條件下的表現(xiàn)


多虧了UniVLA的‘隱式動(dòng)作+通用訓(xùn)練’,UniVLA能夠充分在大量異構(gòu)數(shù)據(jù)(操作、導(dǎo)航甚至人類視頻)中進(jìn)行學(xué)習(xí),并能夠有效容納足夠多的知識(shí),單全收,越學(xué)越強(qiáng)。


圖片

UniVLA的異構(gòu)數(shù)據(jù)擴(kuò)展能力


少樣本情況下UniVLA性能優(yōu)勢(shì)盡顯,在LIBERO長(zhǎng)程任務(wù)基準(zhǔn)上僅用10%數(shù)據(jù)(不到50條demo,平均每個(gè)任務(wù)僅5條)擊敗了全量數(shù)據(jù)微調(diào)的OpenVLA。


圖片

UniVLA在少樣本情況下的表現(xiàn)


UniVLA的方法不僅代表了視覺語言動(dòng)作模型(VLA)領(lǐng)域的一次突破,更為“通用機(jī)器人智能”提供了新的思考與貢獻(xiàn):從像素重建走向語義解耦的隱式動(dòng)作學(xué)習(xí)、從高耗能預(yù)訓(xùn)練走向輕量高效的跨本體適配、從單一機(jī)器人數(shù)據(jù)閉環(huán)走向人類視頻與多本體數(shù)據(jù)的開放協(xié)同。


- END -


主站蜘蛛池模板: 国产精品精| 天干天干夜啦天干天干国产 | 久久特级av一级毛片 | 性xx无遮挡 | 国产河南妇女毛片精品久久 | 成人av午夜 | 亚洲日本VA在线视频观看 | 中文字幕在线播放一区 | 一本之道加勒比在线观看 | 尤物久久av一区二区三区亚洲 | 小荡货奶真大水真多紧视频 | 久久国内精品一区二区三区 | japanese丰满少妇最高潮 | 伊人一级 | 男女无遮挡高清性视频 | 在公车上拨开内裤进入毛片 | 一区二区三区回区在观看免费视频 | 成人视屏在线观看 | 亚洲综合日韩中文字幕v在线 | 提莫影院AV毛片入口 | 国产草逼视频 | 欧美性大战久久久久久久蜜桃 | 婷婷综合缴情亚洲AV | 中文字幕日韩国产 | 日韩欧美一区二区三区不卡在线 | 亚洲精品在线影院 | 国产成年无码AⅤ片在线观看 | 韩国国内大量揄拍精品视频 | 国产一区二区三区高清播放 | 国产XxXX性国产XX000 | 的九一视频入口在线观看 | 福利在线一区 | 日本a久久 | 久久精品6| 77成人网| 亚洲国产精品97久久无色 | 国产精品三区四区 | 亚洲欧美日韩中文字幕一区二区三区 | 国产AⅤ爽AV久久久久玉浦团 | 国产日产人妻精品精品 | 天天摸天天做天天爽天天舒服 |