成人超碰在线_国产裸体舞一区二区视频在哪看_性欧美一区_国产yw851.c免费观看网站_全黄h全肉边做边吃奶流浪汉_粉嫩av四季av绯色av第一区

智元機(jī)器人聯(lián)合香港大學(xué)推出的UniVLA入選 RSS 2025 并開(kāi)源! 發(fā)布時(shí)間:2025-05-14 18:01:00


導(dǎo) 言 

現(xiàn)有具身模型沒(méi)有充分利用更加多樣的視頻數(shù)據(jù),難以適應(yīng)未訓(xùn)練過(guò)的新任務(wù)與新場(chǎng)景,通用性受限。為此,智元機(jī)器人聯(lián)合香港大學(xué)提出UniVLA:一個(gè)具備跨機(jī)器人本體、場(chǎng)景與任務(wù)泛化能力的通用策略學(xué)習(xí)系統(tǒng)。它構(gòu)建了以任務(wù)為中心的隱式動(dòng)作空間,充分利用語(yǔ)言描述與視頻示范進(jìn)行策略學(xué)習(xí),實(shí)現(xiàn)了從“看視頻”、“聽(tīng)指令”到“動(dòng)手操作”的通用控制。該成果已被機(jī)器人頂會(huì) RSS 2025 認(rèn)可,同時(shí)代碼也已經(jīng)開(kāi)源,并成為全球頂尖機(jī)器人賽事 AgiBot World Challenge @ IROS 2025【點(diǎn)擊文字跳轉(zhuǎn)相關(guān)文章】 的baseline之一。


想象一下在不遠(yuǎn)的未來(lái),通用機(jī)器人真正走進(jìn)了日常生活。我們希望當(dāng)你發(fā)出一條自然語(yǔ)言指令,無(wú)論是“幫我給貓喂食”,還是“幫我關(guān)掉臺(tái)燈”,它都能夠理解你的意圖,并準(zhǔn)確地完成動(dòng)作——不依賴(lài)預(yù)定義的任務(wù)模板,也不受限于曾經(jīng)訓(xùn)練過(guò)的數(shù)據(jù)分布。


然而,現(xiàn)有的機(jī)器人系統(tǒng)往往依賴(lài)人工標(biāo)注的數(shù)據(jù)與固定的動(dòng)作空間,面對(duì)那些未被明確訓(xùn)練過(guò)的任務(wù)或非典型場(chǎng)景,它們常常會(huì)因?yàn)椤拔匆?jiàn)過(guò)”“無(wú)定義”而選擇拒絕執(zhí)行,嚴(yán)重限制了通用性的發(fā)揮。有沒(méi)有一種能夠從更廣泛的數(shù)據(jù)來(lái)源,如從互聯(lián)網(wǎng)上的人類(lèi)視頻中學(xué)習(xí)動(dòng)作的方法,并實(shí)現(xiàn)多種場(chǎng)景、任務(wù)的真正通用和泛化呢?


最近,智元機(jī)器人聯(lián)合香港大學(xué)基于此提出了全新框架——UniVLA,一個(gè)跨本體、跨場(chǎng)景、跨任務(wù)的通用策略學(xué)習(xí)系統(tǒng),就像為機(jī)器人安裝了“跨界大腦”,實(shí)現(xiàn)了從“看視頻”、“聽(tīng)指令”到“動(dòng)手操作”的通用控制。


圖片

UniVLA:跨本體、跨場(chǎng)景、跨任務(wù)的通用策略


論文地址:

https://www.arxiv.org/abs/2505.06111

? 開(kāi)源代碼

https://github.com/OpenDriveLab/UniVLA


以往的通用模型如 RT-2、OpenVLA 雖已初具通用模型之勢(shì),但依然存在諸多瓶頸:


  • 訓(xùn)練數(shù)據(jù)源單一:訓(xùn)練時(shí)只使用大量人工采集的真機(jī)示范數(shù)據(jù),沒(méi)有充分利用更加多樣的視頻數(shù)據(jù)。

  • 缺乏通用性和跨平臺(tái)適配能力:換個(gè)機(jī)器人,動(dòng)作空間就全得重來(lái)。

  • 推理慢且精度不穩(wěn):自回歸預(yù)測(cè)方式對(duì)錯(cuò)誤累積敏感,執(zhí)行效率不高。


UniVLA 選擇了一條更具前瞻性的路徑:不再直接預(yù)測(cè)每一步動(dòng)作,而是構(gòu)建一個(gè)任務(wù)中心的隱式動(dòng)作空間,在這個(gè)“中間表征”上統(tǒng)一訓(xùn)練與泛化策略,不僅可以有效解決上述瓶頸,同時(shí)也能夠以更低的計(jì)算資源消耗實(shí)現(xiàn)更優(yōu)的效果。


UniVLA的核心創(chuàng)新在于構(gòu)建了以任務(wù)為中心的隱式動(dòng)作空間(task-centric latent action space),讓模型可以從海量無(wú)標(biāo)簽視頻中學(xué)習(xí)任務(wù)相關(guān)且高效泛化的動(dòng)作表示,只在人類(lèi)視頻數(shù)據(jù)(Ego4D)上預(yù)訓(xùn)練,就可以在LIBERO仿真平臺(tái)上達(dá)到SOTA級(jí)別效果。經(jīng)過(guò)預(yù)訓(xùn)練后同一模型可以同時(shí)完成操作與導(dǎo)航等任務(wù),實(shí)現(xiàn)了通用的動(dòng)作學(xué)習(xí)。



為什么是隱式動(dòng)作?

因?yàn)樗取皦嚎s信息”,又“對(duì)齊知識(shí)”


傳統(tǒng)的通用模型如OpenVLA采用自回歸策略直接預(yù)測(cè)每一步動(dòng)作,推理速度慢且魯棒性不強(qiáng)。UniVLA則另辟蹊徑,將動(dòng)作預(yù)測(cè)劃分為三個(gè)階段:


1. 隱式動(dòng)作學(xué)習(xí):

從海量跨領(lǐng)域視頻中“默默學(xué)習(xí)”,通過(guò)逆動(dòng)力學(xué)建模并使用VQ-VAE進(jìn)行離散化,構(gòu)建出對(duì)任務(wù)理解更強(qiáng)、更緊湊的隱式動(dòng)作空間;

2. 通用策略預(yù)訓(xùn)練:

借助Prismatic-7B等大模型架構(gòu),將視覺(jué)觀察與語(yǔ)言指令編碼為統(tǒng)一輸入,預(yù)測(cè)隱式動(dòng)作序列,從而實(shí)現(xiàn)具身無(wú)關(guān)的通用策略;

3. 動(dòng)作解碼與部署:

使用輕量化解碼器將隱式動(dòng)作轉(zhuǎn)譯為真實(shí)機(jī)器人控制信號(hào),作為下游的控制策略,從而能夠在多款機(jī)器人平臺(tái)上進(jìn)行快速適配和部署,輕裝上陣、高效執(zhí)行


圖片

UniVLA的前兩階段訓(xùn)練策略


相比 OpenVLA 那種直接在動(dòng)作空間里“硬解”的做法,UniVLA 的“隱式編碼”(Latent Encoding)策略有幾個(gè)顯著優(yōu)勢(shì):


1. 可以更好的利用視頻數(shù)據(jù),泛化范圍大:

只需視頻和語(yǔ)言,就能從互聯(lián)網(wǎng)視頻數(shù)據(jù)中學(xué)技能,提取動(dòng)作;

2. 壓縮維度,降低計(jì)算成本:

動(dòng)作空間被有效壓縮,推理速度從<5Hz 提升至 10Hz+;

3. 適配靈活,遷移效率高:

由于隱式動(dòng)作具有通用性,故只需輕量微調(diào),就能部署到不同機(jī)器人上,下游數(shù)據(jù)效率拉滿(mǎn)。


數(shù)據(jù)算力所需更少,性能反而更強(qiáng)


相比OpenVLA,UniVLA在計(jì)算效率和適配能力上表現(xiàn)出壓倒性?xún)?yōu)勢(shì):預(yù)訓(xùn)練GPU時(shí)長(zhǎng)僅為其1/20,卻在多個(gè)任務(wù)和平臺(tái)上實(shí)現(xiàn)性能的全面超越。


在LIBERO、CALVIN等多個(gè)操控基準(zhǔn)測(cè)試中,UniVLA展現(xiàn)出優(yōu)越的通用性與任務(wù)適應(yīng)能力,在四項(xiàng)評(píng)估指標(biāo)中成功率平均提升達(dá)18.5%。更值得注意的是,僅使用人類(lèi)視頻預(yù)訓(xùn)練(Ego4D),UniVLA也能在LIBERO-Goal中達(dá)到SOTA效果。同時(shí)只需要10%的數(shù)據(jù)就在LIBERO-Goal上達(dá)到了SOTA效果(62.4%),優(yōu)于同樣數(shù)據(jù)量訓(xùn)練下的OpenVLA(11.6%)和 OpenVLA-OFT(43.0%),數(shù)據(jù)利用效率如同開(kāi)掛。


圖片

LIBERO 實(shí)驗(yàn)結(jié)果


更重要的是,UniVLA以其結(jié)構(gòu)化的隱式動(dòng)作空間設(shè)計(jì),天然具備擴(kuò)展性與數(shù)據(jù)可擴(kuò)展性:無(wú)論是引入更多人類(lèi)示范作為提取隱空間表征的與訓(xùn)練,還是增加新的機(jī)器人平臺(tái)僅通過(guò)輕量微調(diào)即可遷移適配,實(shí)現(xiàn)跨具身、跨視角、跨任務(wù)的全面通用。


在真實(shí)機(jī)器部署中,受益于僅12M參數(shù)的簡(jiǎn)單動(dòng)作解碼器以及高效的隱空間動(dòng)作表征,UniVLA可以實(shí)現(xiàn)(閉環(huán))10Hz以上的實(shí)時(shí)推理控制,在多個(gè)任務(wù)中(如“清理案板”、“疊漢諾塔”等)展現(xiàn)出高精度、高魯棒的操作能力,平均成功率達(dá)到80%+,推理時(shí)延遠(yuǎn)低于OpenVLA,打通了通用大模型到落地應(yīng)用的可能路徑。


圖片

UniVLA在真機(jī)實(shí)驗(yàn)表現(xiàn)出色


同時(shí)在設(shè)計(jì)的若干泛化實(shí)驗(yàn)中,面對(duì)各種泛化挑戰(zhàn),它不僅不社恐,還能“快準(zhǔn)穩(wěn)”上手。通用的隱式動(dòng)作空間+異構(gòu)數(shù)據(jù)的預(yù)訓(xùn)練,讓它不止是“聰明”,而且真“通用”。


圖片

UniVLA在不同泛化條件下的表現(xiàn)


多虧了UniVLA的‘隱式動(dòng)作+通用訓(xùn)練’,UniVLA能夠充分在大量異構(gòu)數(shù)據(jù)(操作、導(dǎo)航甚至人類(lèi)視頻)中進(jìn)行學(xué)習(xí),并能夠有效容納足夠多的知識(shí),單全收,越學(xué)越強(qiáng)。


圖片

UniVLA的異構(gòu)數(shù)據(jù)擴(kuò)展能力


少樣本情況下UniVLA性能優(yōu)勢(shì)盡顯,在LIBERO長(zhǎng)程任務(wù)基準(zhǔn)上僅用10%數(shù)據(jù)(不到50條demo,平均每個(gè)任務(wù)僅5條)擊敗了全量數(shù)據(jù)微調(diào)的OpenVLA。


圖片

UniVLA在少樣本情況下的表現(xiàn)


UniVLA的方法不僅代表了視覺(jué)語(yǔ)言動(dòng)作模型(VLA)領(lǐng)域的一次突破,更為“通用機(jī)器人智能”提供了新的思考與貢獻(xiàn):從像素重建走向語(yǔ)義解耦的隱式動(dòng)作學(xué)習(xí)、從高耗能預(yù)訓(xùn)練走向輕量高效的跨本體適配、從單一機(jī)器人數(shù)據(jù)閉環(huán)走向人類(lèi)視頻與多本體數(shù)據(jù)的開(kāi)放協(xié)同。


- END -


主站蜘蛛池模板: 久久午夜伦鲁片免费无码 | 亚洲操bb| 日韩人妻无码一区二区三区综合 | 蜜月久综合久久综合国产 | 一区二区免费视频观看 | 亚洲chinese男同志gay在线 | 国产第一页浮力影院入口 | 人人做人人爽人人添 | 激情内射亚洲一区二区三区 | 高清视频播放在线观看 | 一区二区色 | 色一情一区二区 | 久久久久高潮综合影院 | 中文字幕在线视频一区 | 中文字幕一区二区三区四区久久 | 亚洲另类欧美综合久久图片区 | 欧美精品激情在线 | 日本xxxx色视频在线观看免费不卡 | 亚洲精品av一区在线观看 | 黄色一级视频看看 | 欧洲精品一卡2卡三卡4卡影视 | 成人久18秘免费观看视频 | 伊人成人久久 | 国产成人久久精品流白浆黑豹 | 欧美区二区三区 | 偷国内自拍视频在线观看 | 亚洲一级在线播放a | 成人综合伊人五月婷久久 | 日韩一区二区三区四区区区 | 柠檬福利精品视频导航 | 超碰在线网站 | 日本娇小挑战黑人巨大hd | 青青青视频香蕉在线观看视频 | 亚洲精品国产第一综合99久久 | 国产精品1区2区3区4区 | 丰满妇女做a级毛片免费观看 | 久久精品日韩一区二区三区 | 俺来也俺去啦久久综合网 | 免费无码成人AV在线播放 | 丧尸启示录免费观看高清完整在线 | 日本久久久久久久久 |