亚洲欧洲精品专线,中文字幕久久熟女蜜桃

您的位置：首頁(yè)>新聞資訊>行業(yè)動(dòng)態(tài) 行業(yè)動(dòng)態(tài)

被投企業(yè)動(dòng)態(tài) | 銀河通用重磅發(fā)布全球首個(gè)端到端具身抓取基礎(chǔ)大模型 GraspVLA，定義全合成大數(shù)據(jù)預(yù)訓(xùn)練新范式！

日期：2025-01-14 來(lái)源：

在剛剛結(jié)束的NVIDIACES2025發(fā)布會(huì)上，Galbot站在英偉達(dá)創(chuàng)始人黃仁勛的身后，在全世界的注視下托舉起了其發(fā)布的新一代顯卡產(chǎn)品——RTX5090。

緊接著Galbot又和團(tuán)隊(duì)成員在線下展位接待黃教主，現(xiàn)場(chǎng)展示無(wú)人零售的取貨能力，大獲贊譽(yù)。

一時(shí)之間，銀河通用備受全球矚目，這家初創(chuàng)型企業(yè)憑什么獲黃教主如此垂青？

今天，銀河通用以發(fā)布全球首個(gè)端到端具身抓取基礎(chǔ)大模型（FoundationModel）給出一個(gè)圓滿的回答。

銀河通用聯(lián)合北京智源人工智能研究院（BAAI）及北京大學(xué)和香港大學(xué)研究人員，鄭重發(fā)布首個(gè)全面泛化的端到端具身抓取基礎(chǔ)大模型GraspVLA。

GraspVLA的訓(xùn)練包含預(yù)訓(xùn)練和后訓(xùn)練兩部分。

其中預(yù)訓(xùn)練完全基于合成大數(shù)據(jù)，訓(xùn)練數(shù)據(jù)達(dá)到了有史以來(lái)最大的數(shù)據(jù)體量——十億幀「視覺(jué)-語(yǔ)言-動(dòng)作」對(duì)，掌握泛化閉環(huán)抓取能力、達(dá)成基礎(chǔ)模型；預(yù)訓(xùn)練后，模型可直接Sim2Real在未見(jiàn)過(guò)的、千變?nèi)f化的真實(shí)場(chǎng)景和物體上零樣本測(cè)試，全球首次全面展現(xiàn)了七大卓越的泛化能力，滿足大多數(shù)產(chǎn)品的需求；而針對(duì)特別需求，后訓(xùn)練僅需小樣本學(xué)習(xí)即可遷移基礎(chǔ)能力到特定場(chǎng)景，維持高泛化性的同時(shí)形成符合產(chǎn)品需求的專業(yè)技能。

作為真正意義的端到端具身基礎(chǔ)大模型，GraspVLA展示了無(wú)需大規(guī)模真實(shí)數(shù)據(jù)、僅通過(guò)合成數(shù)據(jù)達(dá)到基礎(chǔ)模型的預(yù)訓(xùn)練過(guò)程，和進(jìn)一步通過(guò)小樣本微調(diào)使基礎(chǔ)“通才”快速成長(zhǎng)為指定場(chǎng)景“專家”的能力，定義了VLA發(fā)展的新范式。

這一范式具有重要意義，一舉打破了世界范圍內(nèi)具身通用機(jī)器人當(dāng)前發(fā)展的兩大瓶頸。

數(shù)據(jù)瓶頸

真實(shí)數(shù)據(jù)采集不僅非常昂貴，且很難覆蓋所有可能的實(shí)際應(yīng)用場(chǎng)景，導(dǎo)致數(shù)據(jù)量不夠無(wú)法訓(xùn)練出基礎(chǔ)模型、采集成本過(guò)大以致無(wú)法盈利。即便不計(jì)成本地采集，由于人形機(jī)器人硬件遠(yuǎn)未收斂，隨著硬件更新，原有的數(shù)據(jù)效力將大打折扣，造成大規(guī)模的浪費(fèi)。

泛化瓶頸

數(shù)據(jù)的缺乏直接限制了機(jī)器人的泛化性和通用性。大部分機(jī)器人只能在特定的環(huán)境、特定的物體和特定的條件下完成專用任務(wù)，人形機(jī)器人無(wú)法實(shí)現(xiàn)規(guī)模商業(yè)化。

以GraspVLA為代表的銀河通用技術(shù)路線具有低成本、大數(shù)據(jù)、高泛化的特點(diǎn)，突破了具身智能的發(fā)展瓶頸，無(wú)愧于托舉起芯片巨頭下一代核心產(chǎn)品的重?fù)?dān)，將在2025年引領(lǐng)端到端具身大模型走向規(guī)模商業(yè)化！

下面讓我們?cè)敿?xì)了解這一新范式經(jīng)受的一系列泛化性測(cè)試以及展示出的基礎(chǔ)模型的強(qiáng)大遷移能力。

VLA預(yù)訓(xùn)練如何才算達(dá)到基礎(chǔ)模型？“金標(biāo)準(zhǔn)”來(lái)檢驗(yàn)！

近年來(lái)，具身大模型雖在泛化性上取得一定進(jìn)展，包括RDT初步展示了對(duì)不同背景和同一類別不同外觀物體泛化的能力，OpenVLA、π0、GR-2等進(jìn)一步展示了對(duì)干擾物、平面位置泛化的能力。

但時(shí)至今日，端到端具身大模型的泛化性仍然達(dá)不到真實(shí)需求，無(wú)法支撐產(chǎn)品落地?；诖?，我們首次給出了VLA達(dá)到基礎(chǔ)模型需滿足的七大泛化金標(biāo)準(zhǔn)。以下內(nèi)容均為未見(jiàn)過(guò)的場(chǎng)景和物體進(jìn)行零樣本測(cè)試的結(jié)果，展現(xiàn)了GraspVLA單一模型的七大全面泛化能力。

光照泛化：光影百變，能力不變

咖啡廳、便利店、生產(chǎn)車間、KTV等真實(shí)工作環(huán)境中的光照條件各異，光線的冷暖、強(qiáng)弱變化不盡相同，既有漸變也有驟變。面對(duì)以上各種情景，GraspVLA都不出意外，表現(xiàn)穩(wěn)定：

視頻為二倍速播放

甚至是在極端黑暗環(huán)境下移動(dòng)目標(biāo)物體，GraspVLA也能準(zhǔn)確找到并正常抓取：

視頻為二倍速播放

背景泛化：萬(wàn)千紋理，始終如一

實(shí)際環(huán)境中機(jī)器人工作場(chǎng)景不盡相同，面對(duì)不同材質(zhì)、不同紋理的桌面和操作臺(tái)，甚至動(dòng)態(tài)變化的背景畫面，GraspVLA皆不受影響，穩(wěn)穩(wěn)出手：

視頻為三倍速播放

同樣的，面對(duì)動(dòng)態(tài)變化的背景畫面，GraspVLA亦不受影響（需要注意的是，GraspVLA采用雙相機(jī)視角作為輸入，演示視頻拍攝的視角對(duì)應(yīng)了機(jī)器人正面的相機(jī)視角）：

視頻為三倍速播放

平面位置泛化：平移旋轉(zhuǎn)，隨機(jī)應(yīng)變

將物體在桌面上隨意平移、旋轉(zhuǎn)，GraspVLA仍舊輕車熟路：

視頻為二倍速播放

空間高度泛化：高低錯(cuò)落，從容不迫

GraspVLA具備強(qiáng)大的高度泛化能力，即便是面對(duì)物體擺放高低錯(cuò)落的工作臺(tái)，用戶也不用擔(dān)心模型蒙圈：

視頻為二倍速播放

動(dòng)作策略泛化：閉環(huán)調(diào)整，隨心應(yīng)對(duì)

GraspVLA實(shí)時(shí)進(jìn)行推理決策，不僅會(huì)移動(dòng)跟隨目標(biāo)，對(duì)于物體豎放、倒放等不同擺放方式，還可根據(jù)物體和夾爪的位姿自動(dòng)調(diào)整策略，選擇最安全合理的抓取方式，處理復(fù)雜情況得心應(yīng)手：

動(dòng)態(tài)干擾泛化：超強(qiáng)抗擾，穩(wěn)定抓取

真實(shí)工作場(chǎng)景復(fù)雜多變，機(jī)器人在執(zhí)行任務(wù)時(shí)常常會(huì)受到干擾。在工作過(guò)程中，即使往工作空間中隨意添加干擾物體，甚至發(fā)生撞擊并使目標(biāo)物體隨機(jī)移位，GraspVLA依然能夠穩(wěn)定地完成任務(wù)：

視頻為二倍速播放

物體類別泛化：開放詞匯，觸類旁通

上述測(cè)試中，所有物體、場(chǎng)景、擺放方式均未進(jìn)行任何訓(xùn)練，GraspVLA僅通過(guò)仿真合成數(shù)據(jù)學(xué)習(xí)到的語(yǔ)義和動(dòng)作能力，實(shí)現(xiàn)了在真實(shí)世界中零樣本泛化測(cè)試。

此外，通過(guò)把仿真合成的動(dòng)作數(shù)據(jù)和海量互聯(lián)網(wǎng)語(yǔ)義數(shù)據(jù)巧妙地聯(lián)合訓(xùn)練，對(duì)于沒(méi)有學(xué)習(xí)過(guò)動(dòng)作數(shù)據(jù)的物體類別，GraspVLA也能把已掌握的動(dòng)作能力泛化遷移：

視頻為三倍速播放

產(chǎn)品有特殊需求？一人天數(shù)據(jù)后訓(xùn)練迅速對(duì)齊！

經(jīng)過(guò)合成大數(shù)據(jù)的預(yù)訓(xùn)練，GraspVLA已經(jīng)天然滿足大多數(shù)應(yīng)用需求，但是在產(chǎn)品和特定場(chǎng)景中常常有一些特殊需求。這里我們以商超、工廠、家庭中的三個(gè)需要后訓(xùn)練的情形進(jìn)行舉例，展示GraspVLA對(duì)新需求的快速適應(yīng)及遷移能力。

迅速服從指定規(guī)范并“舉一反三”

以商超場(chǎng)景為例，雖然GraspVLA具有泛化的抓取能力，預(yù)訓(xùn)練后即可輕松抓取指定商品，但用戶希望模型按照順序取出同類商品。

視頻為二倍速播放

迅速掌握新詞匯，拓展新類別

工業(yè)場(chǎng)景中，往往有大量行業(yè)專用的特殊零件。雖然模型僅需預(yù)訓(xùn)練就可以抓起任意零件，但難以直接根據(jù)語(yǔ)言指令抓起對(duì)應(yīng)物體，比如指定“抓取車窗控制器”，但模型抓起了接線座。

視頻為二倍速播放

為了提升模型識(shí)別罕見(jiàn)零件的能力，僅需采集少量軌跡進(jìn)行快速后訓(xùn)練。GraspVLA迅速掌握了諸如接線座（WiringBase）、三角板（TriangularPanel）、黑色軟管（BlackHose）等特殊工業(yè)名詞，能從任意擺放的密集場(chǎng)景中精準(zhǔn)找出對(duì)應(yīng)零件：

視頻為三倍速播放

迅速對(duì)齊人類偏好

在家庭場(chǎng)景中，人們對(duì)機(jī)器人的行為會(huì)有特定的偏好，例如抓取杯子時(shí)不要碰到杯子內(nèi)壁。同樣通過(guò)采集少量帶偏好的抓取軌跡，GraspVLA即可學(xué)會(huì)按照自然語(yǔ)義抓?。?/span>

對(duì)齊前，視頻為三倍速播放

對(duì)齊后，視頻為三倍速播放

由此可見(jiàn)，GraspVLA在預(yù)訓(xùn)練中已經(jīng)充分掌握識(shí)別物品、抓取物品、多維度泛化的基礎(chǔ)能力，使其在不同場(chǎng)景中針對(duì)特定需求規(guī)?；瘧?yīng)用時(shí)，可以低成本高效拓展，這是VLA模型商業(yè)化應(yīng)用中必備的能力。

VLA新范式的現(xiàn)在與將來(lái)

抓取是操作技能的基礎(chǔ)，GraspVLA的發(fā)布樹立了一個(gè)重要的里程碑，奠定了以仿真合成大數(shù)據(jù)預(yù)訓(xùn)練為核心的具身基礎(chǔ)大模型的技術(shù)路線，開創(chuàng)了該領(lǐng)域發(fā)展的全新范式。

支撐這一范式的關(guān)鍵是合成大數(shù)據(jù)。

銀河通用基于多年合成仿真數(shù)據(jù)的經(jīng)驗(yàn)，堅(jiān)持合成仿真數(shù)據(jù)的研究，開創(chuàng)性地研發(fā)出一套針對(duì)端到端VLA模型預(yù)訓(xùn)練的全仿真合成數(shù)據(jù)生產(chǎn)管線，在短短一周內(nèi)就能生成全球規(guī)模最大的十億級(jí)機(jī)器人操作數(shù)據(jù)集（包含視頻-語(yǔ)言-動(dòng)作三個(gè)模態(tài)）。

借助Isaac平臺(tái)的加持，團(tuán)隊(duì)進(jìn)一步提高了數(shù)據(jù)的物理真實(shí)性和物理渲染的并行度，確保了訓(xùn)練數(shù)據(jù)的高質(zhì)量和低成本。即使硬件發(fā)生更新，該技術(shù)方案也能快速更新數(shù)據(jù)而不產(chǎn)生高附加成本，讓企業(yè)沒(méi)有數(shù)據(jù)沉沒(méi)成本、減少硬件迭代的阻力。銀河通用的預(yù)訓(xùn)練全合成大數(shù)據(jù)方案在人力和資金投入上成本更低，時(shí)間效率更高，可持續(xù)發(fā)展性更好。

此外，面對(duì)產(chǎn)品落地中的特別需求，GraspVLA的基座屬性使得它僅需百條真實(shí)軌跡即可讓預(yù)訓(xùn)練模型理解新任務(wù)并舉一反三，實(shí)現(xiàn)了“一人一天完成產(chǎn)品部署”的通用機(jī)器人落地愿景，為VLA大規(guī)模商業(yè)化落地開辟了一條極具潛力的道路。

與此同時(shí)，聯(lián)合研發(fā)團(tuán)隊(duì)在過(guò)去一年里還在導(dǎo)航VLA模型（NaVid系列模型）的研究上取得了重大突破，我們將陸續(xù)展示和介紹該系列導(dǎo)航VLA模型的泛化能力和涌現(xiàn)現(xiàn)象。

面向未來(lái)，我們將快速推出覆蓋多技能的具身基礎(chǔ)大模型，全面整合團(tuán)隊(duì)從抓到放、從關(guān)節(jié)類物體到柔性物體操作的各類任務(wù)的合成數(shù)據(jù)，持續(xù)依靠合成大數(shù)據(jù)作為唯一預(yù)訓(xùn)練來(lái)源，釋放前所未有的潛力與能力，定義具身智能的ChatGPT時(shí)刻，推動(dòng)人形機(jī)器人出現(xiàn)下一個(gè)高峰。

敬請(qǐng)期待我們的更多突破與成果。

分享到：

[關(guān)閉頁(yè)面]

自偷自拍亚洲综合精品第一页,中文字幕mv在线观看,夜夜躁狠狠躁日日躁2002,在线精品无码字幕无码av,怡红院av一区二区三区