AI新星系列報(bào)道之九 | 劉桂良:期待具身智能機(jī)器人的“頓悟”時(shí)刻
20科技研發(fā)的人形機(jī)器人登上舞臺(tái),以其精準(zhǔn)的動(dòng)作和穩(wěn)定的表現(xiàn)深入人心。不僅展示出中國(guó)智造的強(qiáng)大實(shí)力,也讓大眾意識(shí)到,人工智能正以具身智能機(jī)器人為載體,逐步走進(jìn)人類(lèi)的生活。
具身智能,簡(jiǎn)而言之,是將人工智能系統(tǒng)與機(jī)器人等物理實(shí)體相結(jié)合,使其能夠感知環(huán)境、進(jìn)行決策并執(zhí)行動(dòng)作的一門(mén)技術(shù)。機(jī)器人形態(tài)多樣,包括雙足、四足、輪式、機(jī)械狗等,其中,人形機(jī)器人對(duì)人類(lèi)社會(huì)適配性最佳,被認(rèn)為是最能夠幫助人類(lèi)的機(jī)器人。
作為具身智能領(lǐng)域的學(xué)者,香港中文大學(xué)(深圳)劉桂良教授正帶領(lǐng)團(tuán)隊(duì)主攻人形機(jī)器人發(fā)展的技術(shù)難題。他從具身機(jī)器人數(shù)字引擎入手,積極探索機(jī)器人的安全控制決策,推動(dòng)具身智能從展示走向通用與泛化。
劉桂良教授
具身機(jī)器人數(shù)字引擎:為機(jī)器人提供無(wú)限訓(xùn)練場(chǎng)景
要讓具身智能機(jī)器人真正變得“聰明”,它需要一個(gè)強(qiáng)大的“大腦”——這個(gè)“大腦”不是生物意義上的器官,而是一種能夠處理多種信息的多模態(tài)大模型。這種模型可以整合視覺(jué)、聽(tīng)覺(jué)、觸覺(jué)等感官數(shù)據(jù),以及語(yǔ)言和指令等抽象信息,幫助機(jī)器人更好地理解周?chē)h(huán)境并做出決策。
然而,訓(xùn)練這樣一個(gè)“大腦”并不容易。雖然AI在文本、圖像和視頻生成方面已經(jīng)取得了很大進(jìn)展,但在機(jī)器人控制決策方面仍然面臨巨大挑戰(zhàn)。核心問(wèn)題在于,機(jī)器人操作的數(shù)據(jù)與文本、圖像等數(shù)據(jù)完全不同。機(jī)器人需要在真實(shí)的三維空間中行動(dòng),而這些數(shù)據(jù)的采集成本高、效率低,且不同來(lái)源的數(shù)據(jù)格式和采集方式不統(tǒng)一,導(dǎo)致數(shù)據(jù)難以整合用于訓(xùn)練。這種碎片化的數(shù)據(jù)收集方式使得數(shù)據(jù)質(zhì)量參差不齊,無(wú)法覆蓋多樣化的操作場(chǎng)景,嚴(yán)重限制了模型的訓(xùn)練效果和泛化能力。因此,如何高效、低成本地獲取高質(zhì)量的操作數(shù)據(jù),成為了開(kāi)發(fā)可應(yīng)用于實(shí)際場(chǎng)景的“視覺(jué)-語(yǔ)言-動(dòng)作”(VLA)通用機(jī)器人操作大模型的關(guān)鍵瓶頸。
針對(duì)這些問(wèn)題,劉桂良教授與團(tuán)隊(duì)提出了基于生成式仿真的機(jī)器人數(shù)字引擎。該引擎依托強(qiáng)大的生成模型算法,能夠?qū)⒄鎸?shí)世界的數(shù)據(jù)映射到虛擬環(huán)境中,在仿真空間內(nèi)生成多樣化的場(chǎng)景。通過(guò)這種方式,引擎能夠規(guī)?;厣扇诵螜C(jī)器人操作技能數(shù)據(jù),并最終將這些數(shù)據(jù)無(wú)縫部署到真實(shí)機(jī)器人系統(tǒng)中,為機(jī)器人控制決策提供高效、低成本的數(shù)據(jù)支持。這一技術(shù)突破不僅大幅降低了數(shù)據(jù)采集的成本和復(fù)雜度,還為機(jī)器人操作大模型的訓(xùn)練和泛化能力提供了堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ)。
具身智能機(jī)器人數(shù)字引擎實(shí)現(xiàn)無(wú)縫部署(zero-shot deployment)到真實(shí)機(jī)器人
“當(dāng)你給出一段語(yǔ)言描述,它便能生成相應(yīng)的場(chǎng)景。就如同生成一個(gè)五彩斑斕的視頻,但內(nèi)容不僅是畫(huà)面,而是可以互動(dòng)的3D場(chǎng)景?!?劉教授解釋道。
目前,這一研究項(xiàng)目得到了深圳市重大專(zhuān)項(xiàng)和大學(xué)聯(lián)合基金的支持。此前,劉教授團(tuán)隊(duì)與跨維智能公司合作,共同開(kāi)發(fā)出實(shí)現(xiàn)通用機(jī)器人智能AU和合成數(shù)據(jù)引擎DexVerseTM,以及背后提供支持的一些列具身智能關(guān)鍵技術(shù),包括3D生成式AI、可微分仿真和渲染、3D基礎(chǔ)模型的架構(gòu)設(shè)計(jì)和學(xué)習(xí)等。
具身機(jī)器人數(shù)字引擎
|
擺盤(pán)任務(wù)? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 倒水任務(wù) 數(shù)字引擎生成的雙臂機(jī)器人操作技能
擺盤(pán)任務(wù)? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 倒水任務(wù) 經(jīng)過(guò)引擎數(shù)據(jù)訓(xùn)練的真實(shí)機(jī)器人動(dòng)作決策大模型(RDT大模型)
物體抓取任務(wù)? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 開(kāi)箱子任務(wù) 數(shù)字引擎生成的單臂機(jī)器人操作技能
物體抓取任務(wù)? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?開(kāi)箱子任務(wù) 經(jīng)過(guò)引擎數(shù)據(jù)訓(xùn)練的真實(shí)機(jī)器人動(dòng)作決策大模型(DT大模型) |
人形機(jī)器人:集多角色于一體的未來(lái)智能助手
在具身機(jī)器人數(shù)字引擎搭建的技術(shù)基礎(chǔ)之上,劉教授正探索人形機(jī)器人的技術(shù)發(fā)展與應(yīng)用。人形機(jī)器人因其類(lèi)似人類(lèi)的物理結(jié)構(gòu),能夠無(wú)縫融入人類(lèi)工作環(huán)境,并承擔(dān)多種任務(wù)。這一特性使它們成為人工智能在現(xiàn)實(shí)世界中的重要載體。近年來(lái),隨著硬件性能的提升和控制算法的不斷優(yōu)化,人形機(jī)器人在工廠(chǎng)、家庭和辦公室等各類(lèi)場(chǎng)景中的應(yīng)用日益廣泛,并發(fā)揮著越來(lái)越重要的作用。然而,由于人形機(jī)器人通常具備復(fù)雜的上半身和下半身結(jié)構(gòu),涉及眾多自由度,實(shí)現(xiàn)穩(wěn)定、高效的控制仍然面臨巨大挑戰(zhàn)。開(kāi)發(fā)先進(jìn)的控制算法,使其能夠適應(yīng)多變的環(huán)境,是當(dāng)前研究的關(guān)鍵問(wèn)題。
技術(shù)路徑流程圖
目前,劉教授團(tuán)隊(duì)的研究重點(diǎn)在于機(jī)器人的安全控制決策,即魯棒優(yōu)化的人形機(jī)器人控制模型。
“我們?cè)O(shè)計(jì)了一套干擾排除算法,使機(jī)器人在外部干擾下仍能穩(wěn)定運(yùn)行。這種穩(wěn)定性體現(xiàn)在,機(jī)器人可以在各種地形行走,抵抗各種外部干擾,還能模仿人類(lèi)的動(dòng)作。此外,我們還實(shí)現(xiàn)了任務(wù)執(zhí)行模式的自動(dòng)切換。機(jī)器人在干擾較小時(shí)優(yōu)先執(zhí)行任務(wù),干擾較大時(shí)則優(yōu)先抵抗干擾?!?/p>
?
劉教授團(tuán)隊(duì)設(shè)計(jì)的干擾排除算法,使機(jī)器人在外部干擾下仍能穩(wěn)定運(yùn)行
?
業(yè)內(nèi)普遍預(yù)測(cè)人形機(jī)器人將在未來(lái)五年內(nèi)大規(guī)模進(jìn)入市場(chǎng)。劉教授表示認(rèn)同。他認(rèn)為,盡管初期的人形機(jī)器人產(chǎn)品可以完成的工作較為有限,但隨著技術(shù)的迭代,它們會(huì)擁有越來(lái)越強(qiáng)大的功能。
今年二月,國(guó)際電工委員會(huì)(IEC)正式發(fā)布由我國(guó)牽頭制定的養(yǎng)老機(jī)器人國(guó)際標(biāo)準(zhǔn)。這標(biāo)志著養(yǎng)老機(jī)器人產(chǎn)業(yè)已進(jìn)入規(guī)范化發(fā)展階段。
對(duì)此,劉教授從成本方面分析了人形機(jī)器人引領(lǐng)智慧養(yǎng)老發(fā)展的可行性。
“對(duì)于老齡化社會(huì)來(lái)說(shuō),人形機(jī)器人可以極大減輕社會(huì)的養(yǎng)老壓力??梢灶A(yù)測(cè)的是,在五年內(nèi),強(qiáng)大的中國(guó)智造可以將人形機(jī)器人的成本控制在10萬(wàn)元至20萬(wàn)元,有望讓具身智能在中高端養(yǎng)老院內(nèi)率先普及?!?/p>
?
展望未來(lái):AI定義本體,機(jī)器人實(shí)現(xiàn)自我進(jìn)化
對(duì)于具身智能的下一步發(fā)展方向,劉教授提出了“AI定義本體”的概念。傳統(tǒng)的具身智能研究通常將機(jī)器人視為智能體,并圍繞其感知、決策和控制展開(kāi)探索。然而,這種研究范式難以保障機(jī)器人對(duì)環(huán)境的持續(xù)適應(yīng)能力,也無(wú)法像生物進(jìn)化那樣推動(dòng)機(jī)器人自身的進(jìn)化。
為此,在A(yíng)I定義本體的研究框架下,劉教授提出一種新方法:利用虛擬仿真環(huán)境中的強(qiáng)化學(xué)習(xí)和大模型技術(shù),在更新機(jī)器人控制策略的同時(shí),實(shí)現(xiàn)其自動(dòng)化設(shè)計(jì)與形態(tài)優(yōu)化。通過(guò)這種方式,機(jī)器人能夠在復(fù)雜環(huán)境中自主適應(yīng)并完成任務(wù)。優(yōu)化后的形態(tài)可轉(zhuǎn)化為現(xiàn)實(shí),進(jìn)行生產(chǎn)與測(cè)試,推動(dòng)具身機(jī)器人的自然選擇與進(jìn)化。
劉教授進(jìn)一步解釋道:“未來(lái)的機(jī)器人制造廠(chǎng)可以根據(jù)需求自動(dòng)組裝出適合特定任務(wù)的機(jī)器人形態(tài)。比如,你需要一個(gè)會(huì)開(kāi)車(chē)的機(jī)器人,工廠(chǎng)就能定制出適合開(kāi)車(chē)的形態(tài)。通過(guò)仿真環(huán)境中的不斷迭代,機(jī)器人將逐步優(yōu)化其形態(tài)與控制能力,最終走出工廠(chǎng)即可投入工作。”
DeepSeek團(tuán)隊(duì)提到,他們的全新推理模型曾出現(xiàn)連內(nèi)部都未預(yù)料到的“Aha Moment”(頓悟時(shí)刻)。這是一個(gè)從量變到質(zhì)變的過(guò)程,反映了AI技術(shù)階躍性突變的特點(diǎn)——進(jìn)步往往在某一刻突然發(fā)生。
從生成式具身智能引擎到人形機(jī)器人,再到AI定義本體,劉桂良教授帶領(lǐng)團(tuán)隊(duì)在具身智能領(lǐng)域不斷探索與突破。他期待,隨著技術(shù)的持續(xù)迭代與更新,他與團(tuán)隊(duì)也將迎來(lái)屬于自己的“頓悟時(shí)刻”。
?
青年教授簡(jiǎn)介
劉桂良
港中大(深圳)數(shù)據(jù)科學(xué)學(xué)院助理教授
劉桂良博士現(xiàn)任香港中文大學(xué)(深圳)數(shù)據(jù)科學(xué)學(xué)院助理教授。他本科畢業(yè)于華南理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,隨后在加拿大西蒙弗雷澤大學(xué)(Simon Fraser University)計(jì)算機(jī)科學(xué)系獲得博士學(xué)位,并在加拿大滑鐵盧大學(xué)(University of Waterloo)及向量研究院(Vector Institute)完成博士后研究。劉桂良教授的研究主要聚焦于強(qiáng)化學(xué)習(xí)與具身智能決策。其中,在安全強(qiáng)化學(xué)習(xí)方面,他基于逆約束推斷方法,致力于提升強(qiáng)化學(xué)習(xí)系統(tǒng)的安全性。此外,他還專(zhuān)注于具身機(jī)器人操作技能的研究,開(kāi)發(fā)高效的數(shù)據(jù)引擎,以提升機(jī)器人在復(fù)雜任務(wù)中的操作能力,并設(shè)計(jì)穩(wěn)健的控制算法,確保人形機(jī)器人在復(fù)雜環(huán)境中的安全性和穩(wěn)定性。與包括華為、百度以及跨維智能在內(nèi)的企業(yè)和機(jī)構(gòu)展開(kāi)合作。自2022年以來(lái),劉桂良教授在包括NeurIPS、ICML、ICLR在內(nèi)的國(guó)際機(jī)器學(xué)習(xí)頂級(jí)學(xué)術(shù)會(huì)議和期刊上發(fā)表論文30余篇,并入選工信部“啟明計(jì)劃”、深圳市“鵬城優(yōu)才”及香港中文大學(xué)(深圳)“校長(zhǎng)青年學(xué)者”計(jì)劃。此外,他主持廣東省和深圳市面上項(xiàng)目,并擔(dān)任深圳市重大專(zhuān)項(xiàng)子課題負(fù)責(zé)人。他的研究工作受到廣泛認(rèn)可,曾獲得“加拿大Vector研究基金及Mitacs研究獎(jiǎng)”的資助。
劉桂良教授團(tuán)隊(duì)合影








